【大数据学习 | flume】flume的概述与组件的介绍

🕗 发布于 2024-11-15 00:26 大数据 学习 flume

1. flume概述

Flume是cloudera(CDH版本的hadoop) 开发的一个分布式、可靠、高可用的海量日志收集系统。它将各个服务器中的数据收集起来并送到指定的地方去，比如说送到HDFS、Hbase，简单来说flume就是收集日志的。

Flume两个版本区别：

1）Flume-og

2）Flume-ng

2. flume的结构模型

Flume 运行的核心是 Agent，Flume以agent为最小的独立运行单位，含有三个核心组件，分别是source、 channel、 sink，通过这些组件， Event 可以从一个地方流向另一个地方，如下图所示。

Source：

从Client上收集数据并对数据进行格式化，以Event（事件）的形式传递给单个或多个Channel。

Channel：

短暂的存储容器，将从Source接收到的Event进行缓存直到被Sink消费掉，Channel是Source和Sink之间的桥梁，Channal是一个完整的事务，能保证了数据在收发时的一致性，并且一个Channel可以同时和任意数量的Source和Sink建立连接。

Sink：

从Channel中消费数据(Event)并传递到存储容器(Hbase、HDFS)或其他的Source中。

工作流程：

把数据从数据源(source)收集过来，在将收集到的数据送到指定的目的地(sink)。

为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(channel)，待数据真正到达目的地(sink)后，flume再删除自己缓存的数据。

什么是Event？

1）event将传输的数据进行封装，是flume传输数据的基本单位，如果是文本文件，通常是一行记录。

2）event也是事务的基本单位。

3）event从source，流向channel，再到sink，本身为一个字节数组，并可携带headers(头信息)信息。

Agent：

Flume以 Agent 为最小的独立运行单元，Agent 依赖于 JVM ，一个 Agent 的运行就伴随一个 JVM 实例的产生。

一台机器可以运行多个Agent，一个Agent中可以包含多个Source、Channel。Sink。

3. flume各组件介绍

Flume提供了大量内置的Source、Channel和Sink类型，不同类型的Source，Channel和Sink可以自由组合.组合方式基于用户设置的配置文件。

3.1 source组件

Source是数据的收集端，负责将数据捕获后进行特殊的格式化，将数据封装到事件（event）里，然后将事件推入Channel中，Flume提供了各种source的实现，包括Avro Source、Exce Source、Spooling Directory Source、NetCat Source、Syslog Source、Syslog TCP Source、Syslog UDP Source、HTTP Source、HDFS Source，etc。如果内置的Source无法满足需要， Flume还支持自定义Source。

3.2 channel组件

Channel是连接Source和Sink的组件，大家可以将它看做一个数据的缓冲区（数据队列），它可以将事件暂存到内存中也可以持久化到本地磁盘上，直到Sink处理完该事件，Flume对于Channel，则提供了Memory Channel、JDBC Chanel、File Channel，etc。

MemoryChannel可以实现高速的吞吐，但是无法保证数据的完整性。

MemoryRecoverChannel在官方文档的建议上已经建义使用FileChannel来替换。

FileChannel保证数据的完整性与一致性。

3.3 sink组件

Flume Sink取出Channel中的数据，进行相应的存储文件系统，数据库，或者提交到远程服务器。Flume也提供了各种sink的实现，包括HDFS sink、Logger sink、Avro sink、File Roll sink、Null sink、HBase sink，etc。

Flume Sink在设置存储数据时，可以向文件系统中，数据库中，hadoop中储数据，在日志数据较少时，可以将数据存储在文件系中，并且设定一定的时间间隔保存数据，在日志数据较多时，可以将相应的日志数据存储到Hadoop中，便于日后进行相应的数据分析。

原文地址：https://blog.csdn.net/2301_80912559/article/details/143782412

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

ubuntu设置自启动
3. 在 /etc/systemd/system/multi-user.target.wants 目录下创建 A.service 的软连接。1. 把要启动的程序或者脚本(比如A.sh、A1)放在 /u
阅读更多2024-11-17
Ubuntu从入门到精通（一）系统安装
本文《Ubuntu从入门到精通（一）》主要介绍Ubuntu系统的安装相关知识。首先，用户需根据需求选择合适的Ubuntu镜像版本。接着，详细阐述了如何下载并安装系统镜像以及必要的恢复工具，确保安装过程
阅读更多2024-11-17
前端开发迈向全栈之路：规划与技能
此外，前端开发还需与后端开发人员合作，通过 API 接口与后端服务器进行数据交互，并关注用户体验设计，优化页面加载速度，确保在不同设备和浏览器上的兼容性。同时，随着云计算和容器化技术的普及，全栈开发人
阅读更多2024-11-17
【机器学习】数学知识：欧式距离（Euclidean Distance）和曼哈顿距离（Manhattan Distance）
欧式距离和曼哈顿距离是两种常用的距离度量方法，用于衡量两点之间的相似性或差异性。它们在几何分析、数据挖掘、机器学习等领域有广泛应用。欧式距离（Euclidean Distance）是最常见的直线距离度
阅读更多2024-11-17
Python sys模块介绍
无论是处理命令行参数、管理输入输出流、添加模块搜索路径，还是获取系统信息和退出程序，sys模块都为我们提供了强大的工具。在Python中， sys模块是一个非常重要的内置模块，它提供了一系列与Pyth
阅读更多2024-11-17
unity3d————Resources同步加载
Resources动态加载资源的方法提高了资源的拓展性和灵活性。相对于拖曳操作，更加一劳永逸、方便快捷。重要知识点熟记和等API的使用方法。注意不同资源类型的加载方式和使用方式。预设体加载后需要实例化
阅读更多2024-11-17
Spring Boot应用中的文件压缩与解压技术实践
在选择压缩算法时，了解各种算法的特点和适用场景至关重要。Gzip：一种广泛使用的无损压缩算法，特别适用于网络传输，因为它能有效减小文件大小，同时保持较高的压缩速度和解压速度。Zip：另一种流行的无损压
阅读更多2024-11-17
【数据结构】快速排序——非递归实现快速排序
内存中分了几个区用于存储数据栈区比较小，堆区比较大我们在递归时是在栈区开辟空间所以当递归深度过深时会有栈溢出的风险有时在某些特定情况下我们担心会栈溢出所以采用非递归的方式就是我们自己来模拟函数在栈上递
阅读更多2024-11-17
JavaSE常用API-日期（计算两个日期时间差-高考倒计时）
JavaSE常用API，LocalDate、LocalTime/LocalDateTime/DateFormatter/Date/SimpleDateformat/Calendar
阅读更多2024-11-17
spring boot 常用参数总结
这些参数直接传递给 JVM，用于控制内存、垃圾回收等。-Xms<size>-Xmx<size>：设置JVM初始堆内存大小。例如，-Xms512m表示初始堆内存为512MB。：设
阅读更多2024-11-17