Flume——sink（每5秒记录写入HDFS）

🕗 发布于 2024-12-09 05:01 flume hdfs

设置

属性名称	默认值	说明
channel	-
type	-	组件类型名称，必须是hdfs
hdfs.path	-	HDFS路径，例如：hdfs://mycluster/flume/mydata
hdfs.filePrefix	FlumeData	flume在hdfs目录中创建文件的前缀
hdfs.fileSuffix	-	flume在hdfs目录中创建文件的后缀
hdfs.inUsePrefix	-	flume正在写入的临时文件的前缀
hdfs.inUseSuffix	.tmp	flume正在写入的临时文件的后缀
hdfs.rollInterval	30	多长时间写一个新的文件 (0 = 不写新的文件)，单位：秒
hdfs.rollSize	1024	文件多大时写新文件，单位：字节(0: 不基于文件大小写新文件)
hdfs.rollCount	10	当写一个新的文件之前要求当前文件写入多少事件(0 = 不基于事件数写新文件)
hdfs.idleTimeout	0	多长时间没有新增事件则关闭文件(0 = 不自动关闭文件)，单位：秒
hdfs.batchSize	100	写多少个事件开始向HDFS刷数据
hdfs.codeC	-	压缩格式：gzip, bzip2, lzo, lzop, snappy
hdfs.fileType	SequenceFile	支持的值有：SequenceFile，DataStream，CompressedStream
hdfs.maxOpenFiles	5000	最大打开文件数。如果数量超了则关闭最旧的文件
hdfs.minBlockReplicas	-	对每个hdfs的block设置最小副本数。不指定则使用hadoop的配置值（默认为1）
hdfs.writeFormat	-	对于sequence file记录的类型。Text或者Writable（默认值）
hdfs.callTimeout	10000	为HDFS操作（如open、write、flush、close）准备的时间，单位：毫秒
hdfs.threadsPoolSize	10	每个HDFS sink用于HDFS io操作的线程数
hdfs.rollTimerPoolSize	1	每个HDFS sink用于调度计时文件滚动的线程数
hdfs.round	false	是否需要新建文件夹以支持文件夹滚动
hdfs.roundValue	1	与roundUnit一起指定文件夹滚动的时长，会四舍五入
hdfs.roundUnit	second	控制文件夹个数。多长时间生成新文件夹，可设置为second, minute或hour
hdfs.timeZone	Local Time	用于解析目录路径的时区名称，例如：America/Los_Angeles
hdfs.useLocalTimeStamp	false	一般设置为true以使用本地时间。若不使用，则要求flume发送的事件header中带有时间戳

时间参数

别名	描述
%t	Unix时间戳，毫秒
%{host}	替换名为"host"的事件header的值。支持任意标题名称。
%a	星期几的短名，例如：Mon, Tue, …
%A	星期几的全名，例如：Monday, Tuesday, …
%b	月份短名，例如：Jan, Feb, …
%B	月份全名，例如：January, February, …
%c	时间和日期，格式如：Thu Mar 3 23:05:25 2030
%d	月份中的天数，两位数字表示（01-31）
%e	月份中的天数，不补零（1-31）
%D	日期，与%m/%d/%y格式相同
%H	小时，24小时制，两位数字表示（00-23）
%I	小时，12小时制，两位数字表示（01-12）
%j	一年中的天数，三位数字表示（001-366）
%k	小时，24小时制，不补零（0-23）
%m	月份，两位数字表示（01-12）
%n	月份，不补零（1-12）
%M	分钟，两位数字表示（00-59）
%p	本地化的上午或下午标识
%s	自1970-01-01 00:00:00 UTC以来的秒数
%S	秒，两位数字表示（00-59）
%y	年份的最后两位，两位数字表示（00-99）
%Y	年份，四位数字表示（例如：2030）
%z	数字时区，例如：+hhmm（如-0400）

配置文件

spooldir-logger-hdfs01.conf
配置文件内部具体的参数可以参考上面的两张表格

# Name the components on this agent
# a1--agent
# all source of a1
a1.sources = r1
# all sinks of a1
a1.sinks = k1
# all channels of a1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = spooldir
# 
a1.sources.r1.spoolDir = /opt/module/jar/test
a1.sources.r1.fileSuffix= .wunaiieq
a1.sources.r1.ignorePattern=([^ ]*\.tmp)
a1.sources.r1.fileHeader = true

# Describe the sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /flume/enents/%m-%d/%H%M/%S
a1.sinks.k1.hdfs.filePrefix = events-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 5
a1.sinks.k1.hdfs.roundUnit =second
a1.sinks.k1.hdfs.useLocalTimeStamp = true

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

执行效果

使用spooldir进行source设置，监控目录下新产生的文件
输出端的sink则连接至hdfs，以每5秒频率产生一个文件夹，同时flume会将日志写入到此文件夹中。（当监控的source没有产生变化时，不会有events输出，因此不会产生文件）

文件读取

报错了，产生的是二进制文件

[atguigu@master test]$ hdfs dfs -cat /flume/enents/12-06/1045/50/events-.1733453151446
2024-12-06 10:53:06,283 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
²3ڂOaag.apache.hadoop.io.LongWritable"org.apache.hadoop.io.BytesWritablV񧳮;ꨄn
²3;

原文地址：https://blog.csdn.net/wusuoweiieq/article/details/144283345

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：目前国内【齿轮检测仪】行业整体较为分散，行业竞争日趋激烈
下一篇：浅谈Java并发编程

迅为瑞芯微RK3562开发板/核心板应用于人脸跟踪、身体跟踪、视频监控、自动语音识别(ASR)、图像分类驾驶员辅助系统(ADAS)、车牌识别、物体识别等
iTOP-3562开发板/核心板采用瑞芯微RK3562处理器，内部集成了四核A53+Mali G52架构，主频2GHZ，内置1TOPSNPU算力，RK809动态调频。支持几乎全格式的H.264解码，支
阅读更多2024-12-31
低精度只适用于未充分训练的LLM？腾讯提出LLM量化的scaling laws
尽管有一些研究声称原生的低比特LLM可以媲美fp16/bf16精度下的表现，但这些研究普遍都是在未充分语言模型上得到的结果从而推出的结论，研究人员认为在充分训练的情况下进行比较的话，低比特LLM也将很
阅读更多2024-12-31
医疗数仓配置Flume
Flume需要将Kafka中各topic的数据传输到HDFS，因此选用KafkaSource以及HDFSSink。对于安全性要求高的数据（不允许丢失）选用FileChannel，允许部分丢失的数据如日
阅读更多2024-12-31
Go中CAS算法
CAS算法常被用作乐观锁的实现方式，用于解决并发问题。例如，在计数器、缓存等场景中，可以使用CAS算法来确保数据的一致性和正确性。CAS操作会检查内存位置V的当前值是否与预期的旧值A相等。这一操作是原
阅读更多2024-12-31
Node.js 记账本项目总结
在使用Node.js结合Express框架构建记账本的过程中，遇到了一些常见的问题，这些问题主要集中在路径处理、包管理工具的选择、开发环境优化以及HTTP响应处理等方面。
阅读更多2024-12-31
Java 处理base64文件上传
在系统内有一个类似于公告的模块，如果里面添加的文章不是选择富文本上传图片的方式，而是选择复制别的文章直接粘贴到系统内的富文本，里面的图片就不会url，而是图片的base64格式，这样会导致数据库存储压
阅读更多2024-12-31
Tailwind CSS 实战：现代登录注册页面开发
基础结构搭建表单组件开发社交登录集成响应式适配深色模式支持动画效果表单验证性能优化可访问性增强通过合理使用 Tailwind CSS 的原子类，我们不仅实现了美观的界面，还确保了良好的用户体验和可维护
阅读更多2024-12-31
node.js下载、安装、设置国内镜像源（永久）（Windows11）
系统：Windows 11。
阅读更多2024-12-31
Slate文档编辑器-Decorator装饰器渲染调度
在这里我们主要讨论了slate中的decoration装饰器的实现，以及在实际使用中可能会遇到的问题，主要是在跨节点的情况下，我们需要将range拆分为多个range，然后分别进行处理，并且还分析了源
阅读更多2024-12-31
python去水印
请注意，这种方法仅适用于简单的水印去除，对于复杂的水印或嵌入到图像纹理中的水印，可能无法达到理想的效果。在实际应用中，还可以考虑使用深度学习的方法，如生成对抗网络（GAN）来去除水印，但需要大量的数据
阅读更多2024-12-31

Flume——sink（每5秒记录写入HDFS）

目录

设置

时间参数

配置文件

执行效果

文件读取

相关文章