【Flume Kafaka实战】Using Kafka with Flume

🕗 发布于 2024-09-30 08:05 flume kafka 大数据

一目标

在Cloudera Manager中创建两个Flume的Agent，Agent1从local file中获取内容，写入到kafka的队列中。Agent2以Agent1的sink作为source，将数据从kafka中读取出来，写入到HDFS中。

二实战

2.1 Kafka Sink

第一步，在Cloudera Manager中安装Flume，安装时指定两个Agent。这一步很简单。

第二步，创建一个新Role Group。默认情况下，所有的Agent都处于一个叫Agent Default Group的角色组中，处于同一角色组中的Agent共享相同的配置。但是在我们这个例子中，两个Agent要完成不同的工作，需要不同的配置。所有新建一个Role Group，并把其中一个Agent移到到这个新的Group中，如下图所示。

第三步，分别编辑两个Agent的配置文件，我的第一个Agent名字为file2Kafka，配置文件内容如下。不难看出，这个配置的source就是去tail一个本地文件，然后写入到kafka的消息队列中。

即：Kafka Sink

# Name the components on this agent
file2Kafka.sources = file2Kafka_source
file2Kafka.sinks = file2Kafka_sink
file2Kafka.channels = file2Kafka_channel

# Describe/configure the source
file2Kafka.sources.file2Kafka_source.type = exec
file2Kafka.sources.file2Kafka_source.command = tail -F /home/demo/flume-exec.txt

# Describe the sink
file2Kafka.sinks.file2Kafka_sink.type = org.apache.flume.sink.kafka.KafkaSink
# topic前不加kafka
file2Kafka.sinks.file2Kafka_sink.topic = flumetest
file2Kafka.sinks.file2Kafka_sink.kafka.bootstrap.servers= slave1:9092,slave2:9092
file2Kafka.sinks.file2Kafka_sink.kafka.flumeBatchSize= 20

# Use a channel which buffers events in memory
file2Kafka.channels.file2Kafka_channel.type = memory
file2Kafka.channels.file2Kafka_channel.capacity = 1000
file2Kafka.channels.file2Kafka_channel.transactionCapacity = 1000

# Bind the source and sink to the channel
file2Kafka.sources.file2Kafka_source.channels = file2Kafka_channel
file2Kafka.sinks.file2Kafka_sink.channel = file2Kafka_channel

2.2 Kafka Source

第二Agent的名字是kafka2Hdfs，配置文件如下。这个配置的内容就是把Agent1中写到kafka的数据读出来，然后写入到HDFS中。注意hdfs.path这个配置，由于在Cloudera Manager中，Flume知道HDFS相关的配置，所以无需去加入hdfs://my-cluster这样的协议前缀。

# Name the components on this agent
kafka2Hdfs.sources = kafka2Hdfs_source
kafka2Hdfs.sinks = kafka2Hdfs_sink
kafka2Hdfs.channels = kafka2Hdfs_channel

# Describe/configure the source
kafka2Hdfs.sources.kafka2Hdfs_source.type = org.apache.flume.source.kafka.KafkaSource
kafka2Hdfs.sources.kafka2Hdfs_source.batchSize = 10
kafka2Hdfs.sources.kafka2Hdfs_source.batchDurationMillis = 1000
kafka2Hdfs.sources.kafka2Hdfs_source.kafka.bootstrap.servers = slave1:9092,slave2:9092
kafka2Hdfs.sources.kafka2Hdfs_source.kafka.topics = flumetest
kafka2Hdfs.sources.kafka2Hdfs_source.kafka.consumer.group.id = flume

# Describe the sink
kafka2Hdfs.sinks.kafka2Hdfs_sink.type = hdfs
kafka2Hdfs.sinks.kafka2Hdfs_sink.hdfs.path = /flume/
kafka2Hdfs.sinks.kafka2Hdfs_sink.hdfs.fileType = DataStream
kafka2Hdfs.sinks.kafka2Hdfs_sink.hdfs.filePrefix=sxt
kafka2Hdfs.sinks.kafka2Hdfs_sink.hdfs.rollCount=0
kafka2Hdfs.sinks.kafka2Hdfs_sink.hdfs.rollInterval=0

# Use a channel which buffers events in memory
kafka2Hdfs.channels.kafka2Hdfs_channel.type = memory
kafka2Hdfs.channels.kafka2Hdfs_channel.capacity = 1000
kafka2Hdfs.channels.kafka2Hdfs_channel.transactionCapacity = 100

# Bind the source and sink to the channel
kafka2Hdfs.sources.kafka2Hdfs_source.channels = kafka2Hdfs_channel
kafka2Hdfs.sinks.kafka2Hdfs_sink.channel = kafka2Hdfs_channel

整个配置完成之后，Cloudera Manager中的界面如下图：

在运行中可能会出现一些目录读写的权限问题，需要去修改hdfs中相关目录的权限。比如我的配置中，数据是写到/flume这个目录下的，这个目录我是用root用户去创建的，但flume运行是使用一个叫flume的用户名来运行的，所以用hdfs dfs -chmod 777 /flume把这个目录的读写权限放开了。

这是一个例子，主要演示如何在cloudera manager中把两个flume的agent串联在一起使用。在现实的生产中，如果需要把一个文本数据通过kakfa写入到hdfs中，更合理的做法是使用一个agent，把kafka作为channel来使用。具体可以参考https://www.cloudera.com/documentation/kafka/latest/topics/kafka_flume.html

2.3 Kafka Channel

# Name the components on this agent
kafkaCh.sources = src_1_file
kafkaCh.channels = ch_1_kafka
kafkaCh.sinks = sink_1_hdfs

# Describe/configure the source
kafkaCh.sources.src_1_file.type = exec
kafkaCh.sources.src_1_file.command = tail -F /home/demo/flume-exec.txt

# Define a kafka channel
kafkaCh.channels.ch_1_kafka.type = org.apache.flume.channel.kafka.KafkaChannel
kafkaCh.channels.ch_1_kafka.kafka.bootstrap.servers = slave1:9092,slave2:9092
kafkaCh.channels.ch_1_kafka.kafka.topic = kafka_channel
kafkaCh.channels.ch_1_kafka.kafka.consumer.group.id = flume-consumer

# Describe the sink
kafkaCh.sinks.sink_1_hdfs.type = hdfs
kafkaCh.sinks.sink_1_hdfs.hdfs.path = /flume/kafka/channel
kafkaCh.sinks.sink_1_hdfs.hdfs.fileType = DataStream
kafkaCh.sinks.sink_1_hdfs.hdfs.filePrefix=sxt
kafkaCh.sinks.sink_1_hdfs.hdfs.rollCount=0
kafkaCh.sinks.sink_1_hdfs.hdfs.rollInterval=0

# Bind the source and sink to the channel
kafkaCh.sources.src_1_file.channels = ch_1_kafka
kafkaCh.sinks.sink_1_hdfs.channel = ch_1_kafka

将上面两个Agent放在一个Agent中，用Kafka Channel实现。

注意：hdfs.path 必须存在，且有权限进行操作

原文地址：https://blog.csdn.net/u011026329/article/details/142626112

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：20.1 分析pull模型在k8s中的应用，对比push模型
下一篇：云计算Openstack Keystone

Gazebo环境下开源UAV与USV联合仿真平台
仿真环境也可以进行UAV与USV联合仿真，如以下视频所示。以我使用的经验为例，根据官方手册在仿真平台写了个很简单offboard模式下的速度环控制模块实现定高及定点飞行，仿真中调试完成后，直接就可以在
阅读更多2024-10-04
【2022工业3D异常检测文献】AST: 基于归一化流的双射性产生不对称学生-教师异常检测方法
Asymmetric Student-Teacher Networks for Industrial Anomaly Detection
阅读更多2024-10-04
【2023工业3D异常检测文献】CPMF: 基于手工制作PCD描述符和深度学习IAD结合的AD方法
Complementary Pseudo Multimodal Feature for Point Cloud Anomaly Detection
阅读更多2024-10-04
vue文件的认识
里面包含许多可以在命令提示符中运行的命令，这里使用vue3创建的项目，所以dev是“vite”。这句话意思是以App作为参数生成一个应用实例对象，然后挂载到 id 为app的节点上，这个节点在。<
阅读更多2024-10-04
Oracle架构之物理存储之日志文件
联机日志文件又叫重做日志文件，记录了对数据库修改的信息，一个 Oracle 实例有一组或多组联机日志文件，每组包含一个或多个日志成员，同一组的日志成员内容相同，存放位置不同，防止日志文件组内某个日志文
阅读更多2024-10-04
【数据结构强化】应用题打卡
王道应用题打卡
阅读更多2024-10-04
x86 架构下一些常用的汇编指令英文全称与功能简述
这只是汇编指令的一部分，实际上还有如循环控制指令（LOOP 等）、位操作指令（如 SHL - Shift Left 等）等许多其他指令，并且不同的汇编器和 CPU 架构也会有一些特殊指令。
阅读更多2024-10-04
Github 2024-10-03Go开源项目日报Top10
根据Github Trendings的统计，今日(2024-10-03统计)共有10个项目上榜。
阅读更多2024-10-04
Oracle架构之物理存储之审计文件
审计（Audit）用于监视用户对数据库的操作，审计记录保存在数据字典表中，存储在system表空间中的SYS.AUD$表中（可通过视图查看）或审计文件中（默认位置为 ORACLEBASE/admin/
阅读更多2024-10-04
【大数据】深入解析分布式数据库：架构、技术与未来
分布式数据库是一种在多个计算机（节点）上存储数据的系统。通过网络，这些节点彼此连接并共同工作，使得用户可以像访问单一数据库一样访问分散在不同位置的数据。这种系统的设计理念是将数据存储的负载分散到多个地
阅读更多2024-10-04

【Flume Kafaka实战】Using Kafka with Flume

一 目标

二 实战

2.1 Kafka Sink

2.2 Kafka Source

2.3 Kafka Channel

相关文章

一目标

二实战