【大数据学习 | flume】flume之常见的sink组件

🕗 发布于 2024-11-17 16:03 大数据 学习 flume

Flume Sink取出Channel中的数据，进行相应的存储文件系统，数据库，或者提交到远程服务器。Flume也提供了各种sink的实现，包括HDFS sink、Logger sink、Avro sink、File Roll sink、HBase sink，。

Flume Sink在设置存储数据时，可以向文件系统中，数据库中，hadoop中储数据，在日志数据较少时，可以将数据存储在文件系中，并且设定一定的时间间隔保存数据，在日志数据较多时，可以将相应的日志数据存储到Hadoop中，便于日后进行相应的数据分析。

1. File_roll Sink

File_roll sink是将收集到的数据存放在本地文件系统中，根据指定的时间生成新的文件用来保存数据。

# file_role sink

#给agent组件起名
a1.sources=r1
a1.sinks=k1
a1.channels=c1

#定义source
a1.sources.r1.type=netcat
a1.sources.r1.bind=worker-1
a1.sources.r1.port=44444

#定义channel
a1.channels.c1.type=memory
a1.channels.c1.capacity=1000000
a1.channels.c1.transactionCapacity=100

#定义sink
a1.sinks.k1.type=file_roll
a1.sinks.k1.sink.directory=/root/file_role
a1.sinks.k1.sink.rollInterval=60
#绑定
a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1

rollInterval=60：每隔60s滚动生成一个文件。

创建数据输出目录

mkdir -p /root/file_role

启动flume agent a1 服务端

flume-ng agent -n a1 -c /usr/local/flume/conf/ -f ./file_roll.agent -Dflume.root.logger=INFO,console

2. hdfs sink

hdfs sink是将flume收集到的数据写入到hdfs中，方便数据可靠的保存。

其中：

sink 输出到hdfs中，默认每10个event 生成一个hdfs文件，hdfs文件目录会根据hdfs.path 的配置自动创建。

sink hdfs 配置参数描述：

名称	描述
hdfs.path	hdfs目录路径
hdfs.filePrefix	文件前缀。默认值FlumeData
hdfs.fileSuffix	文件后缀
hdfs.rollInterval	多久时间后close hdfs文件。单位是秒，默认30秒。设置为0的话表示不根据时间close hdfs文件
hdfs.rollSize	文件大小超过一定值后，close文件。默认值1024，单位是字节。设置为0的话表示不基于文件大小
hdfs.rollCount	写入了多少个事件后close文件。默认值是10个。设置为0的话表示不基于事件个数
hdfs.fileType	文件格式，有3种格式可选择：SequenceFile（默认）, DataStream（不压缩） or CompressedStream（可压缩）
hdfs.batchSize	批次数，HDFS Sink每次从Channel中拿的事件个数。默认值100
hdfs.minBlockReplicas	HDFS每个块最小的replicas数字，不设置的话会取hadoop中的配置
hdfs.maxOpenFiles	允许最多打开的文件数，默认是5000。如果超过了这个值，越早的文件会被关闭
hdfs.callTimeout	HDFS操作允许的时间，比如hdfs文件的open，write，flush，close操作。单位是毫秒，默认值是10000
hdfs.codeC	压缩编解码器。以下之一：gzip，bzip2，lzo，lzop，snappy

# hdfs sink
a1.sources=r1
a1.sinks=k1
a1.channels=c1

#定义source
a1.sources.r1.type=netcat
a1.sources.r1.bind=worker-1
a1.sources.r1.port=44444

#定义channel
a1.channels.c1.type=memory
a1.channels.c1.capacity=1000000
a1.channels.c1.transactionCapacity=100

#定义sink
a1.sinks.k1.type=hdfs
a1.sinks.k1.hdfs.path=/data/xinniu/output/%Y-%m-%d
a1.sinks.k1.hdfs.useLocalTimeStamp=true
a1.sinks.k1.hdfs.fileType=DataStream
a1.sinks.k1.hdfs.filePrefix=hainiu-
a1.sinks.k1.hdfs.fileSuffix=.log
#绑定
a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1

3. kafka sink

将数据写入到kafka中

# kafka sink
a1.sources=r1
a1.sinks=k1
a1.channels=c1

#定义source
a1.sources.r1.type=netcat
a1.sources.r1.bind=worker-1
a1.sources.r1.port=44444

#定义channel
a1.channels.c1.type=memory
a1.channels.c1.capacity=1000000
a1.channels.c1.transactionCapacity=100

#定义sink
a1.sinks.k1.type= org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.kafka.bootstrap.servers = localhost:9092
a1.sinks.k1.kafka.topic = hainiu
#绑定
a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1

启动kafka消费者消费hainiu topic中的数据

启动fluem agent

启动flume agent a1 服务端

flume-ng agent -n a1 -c /usr/local/flume/conf/ -f ./kafkasink.agent -Dflume.root.logger=INFO,console

kafka保存flume收集到的数据，并通过kafka消费者消费到收集到的数据

4. avro sink

将flume收集到的数据通过avro sink序列化出去，通常用于数据跨服服务多级流动。

启动三台机器：

在第一台节点编写agent

a1.sources=r1
a1.sinks=k1
a1.channels=c1

a1.sources.r1.type=netcat
a1.sources.r1.bind=worker-1
a1.sources.r1.port=44444

a1.channels.c1.type=memory
a1.channels.c1.capacity=100000
a1.channels.c1.transactionCapacity=100

a1.sinks.k1.type=avro
a1.sinks.k1.hostname = 10.10.10.10
a1.sinks.k1.port = 55555

a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1

第二台节点编写agent

a1.sources=r1
a1.sinks=k1
a1.channels=c1

a1.sources.r1.type=avro
a1.sources.r1.bind=11.94.204.87
a1.sources.r1.port=55555

a1.channels.c1.type=memory
a1.channels.c1.capacity=100000
a1.channels.c1.transactionCapacity=100

a1.sinks.k1.type=avro
a1.sinks.k1.hostname =11.147.251.96
a1.sinks.k1.port = 55555

a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1

第三台节点编写agent

a1.sources=r1
a1.sinks=k1
a1.channels=c1

a1.sources.r1.type=avro
a1.sources.r1.bind=11.147.251.96
a1.sources.r1.port=55555

a1.channels.c1.type=memory
a1.channels.c1.capacity=100000
a1.channels.c1.transactionCapacity=100

a1.sinks.k1.type=logger

a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1

从后往前分别启动三台agent

flume-ng agent -n a1 -c /usr/local/flume/conf/ -f ./avro.agent -Dflume.root.logger=INFO,console

测试给第一台flume发送数据，第三台节点打印数据到控制台

4.1 扇出操作

还可以通过avro sink 实现扇出操作：即第一台服务器收集数据，将数据发送到第二台和第三台服务器。

需要修改第一台服务器agent

a1.sources=r1
a1.sinks=k1 k2
a1.channels=c1 c2

a1.sources.r1.type=netcat
a1.sources.r1.bind=worker-1
a1.sources.r1.port=44444

a1.channels.c1.type=memory
a1.channels.c1.capacity=100000
a1.channels.c1.transactionCapacity=100

a1.channels.c2.type=memory
a1.channels.c2.capacity=100000
a1.channels.c2.transactionCapacity=100

a1.sinks.k1.type=avro
a1.sinks.k1.hostname = worke-1
a1.sinks.k1.port = 55555

a1.sinks.k2.type=avro
a1.sinks.k2.hostname = worke-2
a1.sinks.k2.port = 55555

a1.sources.r1.channels=c1 c2
a1.sinks.k1.channel=c1
a1.sinks.k2.channel=c2

第二台和第三台agent编写如下：

a1.sources=r1
a1.sinks=k1
a1.channels=c1

a1.sources.r1.type=avro
a1.sources.r1.bind=11.147.251.96
a1.sources.r1.port=55555

a1.channels.c1.type=memory
a1.channels.c1.capacity=100000
a1.channels.c1.transactionCapacity=100

a1.sinks.k1.type=logger

a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1

从后往前分别启动三台agent

flume-ng agent -n a1 -c /usr/local/flume/conf/ -f ./avro.agent -Dflume.root.logger=INFO,console

测试给第一台flume发送数据，第二台和第三台节点打印数据到控制台

4.2 扇入操作

还可以通过avro sink 实现扇入操作：即第一台和第二台手机数据，将数据发送到第三台服务器。

原文地址：https://blog.csdn.net/2301_80912559/article/details/143810526

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：推荐15个2024最新精选wordpress模板
下一篇：数据结构PTA

【循环神经网络】
RNN是一种强大的序列建模工具，适合处理各种时间序列和自然语言数据。然而，传统RNN在处理长序列时存在梯度消失问题，随着LSTM和GRU等改进模型的引入，RNN的性能得到了极大提升。无论是在自然语言处
阅读更多2024-11-17
Linux---shell脚本
希望通过本文的学习，你能够掌握Shell脚本的基本知识和实用技巧，将Shell脚本融入到你的日常工作中，成为你提高工作效率、实现自动化任务的得力助手。让我们一起踏上这段探索Shell脚本的旅程，开启一
阅读更多2024-11-17
Linux-DNS
Linux中配置DNS服务，包括DNS工作流程、配置等、以及其他的一些需要注意的配置文件
阅读更多2024-11-17
DLL注入
在DLL注入的时候，起的是远程的线程在上面的参数中，lpStartAddress就是线程的函数，使用LoadLibrary的地址作为线程函数的地址，这样我们就可以用LoadLibrary来起lpPar
阅读更多2024-11-17
力扣62.不同路径
所以有从左上角到右下角的过程中，我们需要移动 m+n−2 次，其中有 m−1 次向下移动，n−1 次向右移动。由于我们每一步只能从向下或者向右移动一步，因此要想走到 (i,j)，如果向下走一步，那么
阅读更多2024-11-17
【JAVA毕业设计】基于Vue和SpringBoot的冬奥会科普平台
本文首先介绍了冬奥会科普管理的技术发展背景与发展现状，然后遵循软件常规开发流程，首先针对平台选取适用的语言和开发平台，根据需求分析制定模块并设计数据库结构，再根据平台总体功能模块的设计绘制平台的功能模
阅读更多2024-11-17
基于Spring Boot的电商系统开发策略
现代经济快节奏发展以及不断完善升级的信息化技术，让传统数据信息的管理升级为软件存储，归纳，集中处理数据信息的管理方式。网上商城系统的设计方案比如功能框架的设计，比如数据库的设计的好坏也就决定了该系统在
阅读更多2024-11-17
C++创建型模式之原型模式
通过原型设计模式，我们可以轻松地复制现有角色，避免了重复的构造代码，并且可以根据需要对克隆的角色进行微调。这种模式在复杂的游戏场景中非常有用，特别是在需要创建多个相似角色时。相似性：原型模式和拷贝构造
阅读更多2024-11-17
【C语言】前端未来
WebXR：WebXR是Web Reality Experience的缩写，它通过AR和VR技术提供沉浸式的交互体验，预计在未来会成为构建虚拟现实应用的重要平台，特别是结合混合现实设备如手机和头戴设备
阅读更多2024-11-17
ASUS/华硕灵耀X双屏Pro UX8402Z 原厂Win11-22H2系统工厂文件带ASUS Recovery恢复
系统，安装结束后带隐藏分区，一键恢复，以及机器所有驱动软件。请注意：仅支持以上型号专用，其他华硕机器切勿使用。需准备一个20G以上u盘进行恢复。系统版本：windows11。
阅读更多2024-11-17