Flume抽取数据（包含自定义拦截器和时间戳拦截器）

🕗 发布于 2024-10-17 11:28 flume 大数据

flume参考网址：Flume 1.9用户手册中文版 — 可能是目前翻译最完整的版本了https://flume.liyifeng.org/?flag=fromDoc#要求：

使用Flume将日志抽取到hdfs上：通过java代码编写一个拦截器，将日志中不是json数据的数据过滤掉，只保留符合json格式的数据，抽出到hdfs中的数据要有日期路径

日志数据：

最终到hdfs上的数据格式：

步骤：

①首先确保hdfs的服务是开启的

start-dfs.sh

②将使用java写好的jar包导入到flume的lib下

③编写json文件

#为各组件命名

a1.sources = r1

a1.channels = c1

a1.sinks = k1

#描述source

a1.sources.r1.type = TAILDIR

a1.sources.r1.filegroups = f1

a1.sources.r1.filegroups.f1 = /home/behavior/.*

a1.sources.r1.positionFile = /root/taildir_position.json

a1.sources.r1.interceptors = i1

a1.sources.r1.interceptors.i1.type = cn.wolfcode.flume.interceptor.ETLInterceptor$Builder

a1.sources.r1.interceptors = i2

a1.sources.r1.interceptors.i2.type = cn.wolfcode.flume.interceptor.TimeStampInterceptor$Builder

## channel1

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000

a1.channels.c1.transactionCapacity = 100

## sink1

a1.sinks.k1.type = hdfs

a1.sinks.k1.hdfs.path = /behavior/origin/log/%Y-%m-%d

a1.sinks.k1.hdfs.filePrefix = log-

a1.sinks.k1.hdfs.round = false

a1.sinks.k1.hdfs.rollInterval = 10

a1.sinks.k1.hdfs.rollSize = 134217728

a1.sinks.k1.hdfs.rollCount = 0

## 控制输出文件是原生文件。

a1.sinks.k1.hdfs.fileType = DataStream

a1.sinks.k1.hdfs.writeFormat= Text

## 拼装

a1.sources.r1.channels = c1

a1.sinks.k1.channel= c1

抽取：

flume-ng agent -n a1 -c ../ -f taildir2hdfs.conf -Dflume.root.logger=INFO,console

关于时间戳拦截器：

假如hdfs中使用了时间转义字符，此时必须指定时间，两种方案

（1）使用本地时间戳

a1.sinks.k1.hdfs.useLocalTimeStamp =true

（2）使用时间拦截器

a1.sources.r1.interceptors = i1

a1.sources.r1.interceptors.i1.type = timestamp

原文地址：https://blog.csdn.net/m0_57764570/article/details/142963563

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：计算机毕业设计 | SpringBoot大型旅游网站旅行后台管理系统（附源码）
下一篇：观察者模式—C#实现

如何做好SQL 数据库安全
通过本文的介绍，读者应该了解了 SQL 数据库安全的关键点，包括常见的安全威胁、安全的最佳实践、安全工具和技术，以及具体的实践案例。随着技术的不断发展，SQL 数据库安全面临的挑战也在不断变化。未来，
阅读更多2024-10-18
Ansible 自动化运维工具
自动化运维工具，通过ssh对目标主机进行配置、应用部署、任务执行、编排调度等操作。简化了复杂的环境管理和自动化任务，提高了工作效率和一致性。同时Ansible剧本（playbooks）可使用YAML语
阅读更多2024-10-18
【K8S系列】Kubernetes pod节点NotReady问题及解决方案详解【已解决】
Kubernetes 集群中的每个节点都是运行容器化应用的基础。当节点状态显示为 `NotReady` 时，意味着该节点无法正常工作，这可能会导致 Pod 无法调度，从而影响整个应用的可用性。本文将深
阅读更多2024-10-18
C++简易日志系统：打造高效、线程安全的日志记录工具
今天给大家带来的是用C++语言编写的一个简易日志系统。
阅读更多2024-10-18
2024年10月18日练习
needle的起始位置，第三个指针记录如果前面不匹配，那么从haystcak新的位置开始匹配的位置。这里要返回起始匹配位置的下标，我们可以发现tmp就是用来记录这个位置的，所以用x和tmp来保。这里我
阅读更多2024-10-18
智能工厂的软件设计由“原力“篇引发的思考：回顾、展望和本位之2 修订稿之2
“祖传代码”中为“Program”规定的三个语法句子（#Def Pair Class(); *Dec Functor Method(); 卍Let Operator Type(); ）以及意义（它更
阅读更多2024-10-18
Oracle T5-2 本地磁盘做硬件RAID 1
Target 9Target a[571250]Disk 0Disk 1{0} ok。
阅读更多2024-10-18
go 包相关知识
在这种情况下，依赖关系将被下载到一个特定的$GOPATH/pkg目录，而不是GOPATH的src目录外，并且编译的可执行文件将不会放入GOPATH/bin，除非你显式地设置了GOBIN环境变量。注意，
阅读更多2024-10-18
CTFHUB技能树之SQL——Refer注入
看样子可能不在数据库中，老样子，改成-1 union select 1,2#但是出错了，换成kali的sqlmap试了试也还是不行，不知道什么原因。得知vjrnfqmoar表和news表。回显错误，说
阅读更多2024-10-18
Vue -- 总结 08
声明式导航，编程式导航，router路由，过渡的基本使用
阅读更多2024-10-18

Flume抽取数据（包含自定义拦截器和时间戳拦截器）

相关文章