Hadoop 架构

🕗 发布于 2024-11-18 06:23 hadoop 大数据

Hadoop 架构

Hadoop 是一个主从架构的分布式计算框架，采用主节点（Master）与从节点（Slave）的拓扑结构。在系统中，Master 节点负责资源管理和任务分配，而 Slave 节点负责执行计算和存储数据。以下是 Hadoop 的主要架构组成及其核心概念的详细介绍。

HDFS（分布式文件系统）

HDFS 提供 Hadoop 的数据存储功能，通过将大文件划分为多个块（Block），以分布式的方式存储在多个节点上。

HDFS 架构
NameNode（运行在 Master 节点）：负责命名空间管理、文件访问控制、文件块的元数据管理，以及块的存储和映射。
DataNode（运行在 Slave 节点）：负责存储实际数据块并处理来自客户端的读写请求。
块的概念
HDFS 中的默认块大小为 128MB 或 256MB，远大于传统文件系统的块大小。
合理设置块大小非常重要：如果块太小，会导致 NameNode 存储的元数据膨胀，从而消耗大量内存并降低效率。
副本机制
HDFS 使用副本技术以保证容错性，每个块默认会被复制 3 次，存储在不同的节点上。
机架感知算法：在存储副本时，HDFS 优先选择本地机架存放一个副本，其他副本则分布在其他机架上，从而提高容错能力和读取效率。

MapReduce（分布式计算框架）

MapReduce 是 Hadoop 的核心计算框架，用于处理海量数据。它将任务分为 Map 和 Reduce 两部分，以并行化方式运行在集群中。

MapReduce 数据流
输入格式（InputFormat）：定义如何分割输入文件为数据片段。
数据本地化：Map 任务尽量在数据所在节点执行，减少网络传输。
Map 任务
RecordReader：将输入分片解析为记录，并以键值对形式（key-value）提供给 Mapper。
Mapper：用户自定义函数处理键值对，并生成中间键值对。
Combiner（可选）：对中间键值对进行本地聚合，减少网络传输的数据量。
Partitioner：将 Mapper 输出的键值对分区，每个分区对应一个 Reducer。
Reduce 任务
Shuffle 和排序：拉取分区数据并排序，将相同键的数据分组。
Reducer：用户自定义函数对每组键值对执行操作，生成最终结果。
OutputFormat：将 Reducer 输出的键值对写入 HDFS，支持自定义格式。

Partitioner 的工作流程

-1. 从 Mapper 获取键值对：
Partitioner 接收来自 Mapper 的中间键值对数据。
-2. 分区逻辑：
默认情况下，Partitioner 会对键计算哈希值，然后对 Reducer 的数量取模：
partition=key.hashcode()%reducer_数量
这个机制确保：
（1）均匀分布：键值对尽可能均匀分布到所有 Reducer 上。
（2）键的唯一性：相同键的所有值会被分配到同一个 Reducer。
-3. 分片数据的本地存储：
分区后的数据以文件形式写入本地文件系统，等待相应的 Reducer 拉取。

在这里插入图片描述

Yarn（资源管理框架）

Yarn 是 Hadoop 的资源管理和任务调度系统。

Yarn 架构
ResourceManager（全局资源管理器）：
Scheduler：分配资源，但不跟踪任务状态。
ApplicationManager：接收任务、分配第一个容器，重启失败的 ApplicationMaster。
NodeManager（节点资源管理器）：监控节点上的资源使用情况。
ApplicationMaster：负责资源申请、任务监控和进度跟踪。
Yarn 特性
多租户：支持多种访问引擎（如批处理、实时处理）。
高集群利用率：动态资源分配提升资源利用率。
可扩展性：支持扩展至数千节点并联结多个 Yarn 集群。
兼容性：Hadoop 1.x 的 MapReduce 应用可直接运行在 Yarn 集群上。

在这里插入图片描述
上图展示了 Yarn（Yet Another Resource Negotiator）的架构及其工作流程。

任务提交：
Client 向 Resource Manager 提交任务请求，包含所需资源信息和任务描述。
资源分配：
Resource Manager 为任务分配第一个 Container，启动 Application Master。
任务管理：
Application Master 在分配的容器中启动，并与 Resource Manager 交互以申请更多资源。
任务执行：
Resource Manager 为 Application Master 分配多个 Container，这些 Container 运行具体的 MapReduce 或其他计算任务。
Application Master 与 Node Manager 通信以启动任务容器。
状态监控：
Node Manager 监控任务执行的容器资源使用情况，并向 Resource Manager 汇报。
Application Master 跟踪任务状态，并将任务执行结果反馈给客户端。
任务完成：
Client 接收任务执行状态（成功或失败），同时释放所有相关的资源。

Hadoop 架构整合了 HDFS 的分布式存储、MapReduce 的并行计算以及 Yarn 的资源管理能力，为海量数据的存储与处理提供了强大的支持。

原文地址：https://blog.csdn.net/qq_42952637/article/details/143834340

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：1056 Mice and Rice (25)
下一篇：QT中使用图表之QChart绘制柱状图

分布式数据库
随着互联网的快速发展，数据量和访问量呈现爆炸式增长，单机数据库逐渐难以满足高并发、大规模数据存储和处理的需求。分布式数据库应运而生，成为解决这些问题的重要技术。分布式数据库不仅能够处理大规模数据，
阅读更多2024-11-23
【手写一个spring】spring源码的简单实现--初始化机制,回调机制
这个操作符返回一个布尔值：如果对象是指定类型的实例，或者是指定类型子类的实例，则返回 true；初始化时自动调用相应的回调方法，并将相关的上下文或资源对象传递给。接口:如果实现,直接强制类型转换后,对
阅读更多2024-11-23
HTML常用表格与标签
【代码】HTML常用表格与标签。
阅读更多2024-11-23
云服务器部署WebSocket项目
5.上传war包到tomcat文件夹的webapp目录下。先执行clean，再执行install。（2）解压后进入到文件目录，启动。3.在服务器上安装tomcat。6.重新启动tomcat，访问。2.
阅读更多2024-11-23
TESSY单元测试工具详解与操作演示：ISO 26262合规性、自定义测试用例、详细测试报告等
单元测试工具TESSY，符合ISO 26262等汽车软件安全标准，简化和自动化测试流程，基本操作演示请查收↓创建新模块、定义测试用例输入测试数据、执行与评估测试生成详细的测试报告...
阅读更多2024-11-23
【深入学习大模型之：微调 GPT 使其自动生成测试用例及自动化用例】
训练深度学习模型自动生成测试用例、自动化代码和文本小说的步骤：数据准备：收集并清洗目标任务所需的数据集。模型选择：选择合适的预训练模型（如GPT系列、T5等），并对其进行微调。模型训练：使用训练框架（
阅读更多2024-11-23
python语言基础
【代码】python语言基础。
阅读更多2024-11-23
Linux麦克风录音实战
在 Linux 上使用麦克风进行录音可以通过多种方式实现，包括使用命令行工具、图形界面应用程序以及编程接口。下面我将介绍几种常见的方法，从简单的命令行工具到使用 PortAudio 库进行编程。
阅读更多2024-11-23
Cesium的ClearCommand的流程
ClearCommand是在每帧渲染前可以将显存的一些状态置为初始值，就如同把擦黑板。当然也包括在绘制过程中擦掉部分的数据，就如同画家在开始绘制的时候会画导览线（如透视线），轮廓出来后这些导览线就会被
阅读更多2024-11-23
集成金蝶云星空数据至MySQL的完整案例解析
在本次集成方案中，我们利用了轻易云数据集成平台的强大功能，实现了从金蝶云星空获取物料数据并同步至MySQL数据库的全过程管理。综上所述，通过合理配置元数据，构建合适的SQL语句，并结合异常处理和实时监
阅读更多2024-11-23

Hadoop 架构

Hadoop 架构

HDFS（分布式文件系统）

MapReduce（分布式计算框架）

Partitioner 的工作流程

Yarn（资源管理框架）

相关文章