Hadoop-HDFS
Hadoop的HDFS(Hadoop Distributed File System)是一个分布式文件系统,它被设计用来在普通的硬件上运行,并且提供高吞吐量访问应用程序数据的能力。
HDFS 架构
HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 DataNode(DN) 组成:
- NameNode : 负责执行有关
文件系统命名空间
的操作,例如打开,关闭、重命名文件和目录等。它同时还负责集群元数据的存储,记录着文件中各个数据块的位置信息。(第一无二,主要职责就是沟通协调) - DataNode:负责提供来自文件系统客户端的读写请求,执行块的创建,删除等操作。(依稀系统可以有多个,主要职责就是存储数据)
各角色职责
写数据
客户端
- 写数据时负责将文件切分成数据块 (64,128MB)
- 2个重要参数:block size:标识块大小;replication faxtor:表示数据存储在几个不通的地方
NameNode:
- NameNode分配DataNode地址给客户端
DataNode:
- 将数据存储在硬盘里
- 接收数据时同时将同样的数据发送下一个DataNode
- 通知NameNode数据所有数据写入完成
读数据
客户端
- 告诉NameNode所要读取的文件名
- 根据NameNode返回的数据块地址,从最近的一个DataNode请求返回数据
NameNode:
- 收到客户端读请求后返回数据所在的地址,包括数据块列表和数据块对应的DataNode列表
DataNode:
- 收到客户端请求后返回数据
故障检测
- DataNode会每3秒发送一个心跳到NameNode,如果NameNode在10分钟内没有收到DataNode发送的心跳,则认为DataNode已经挂了。
- 客户端在发送数据到DataNode时,DataNode会回复一个应答信号,如果客户端没有收到应答信号(多次尝试后),客户端会认为主机已经挂掉。
- 客户端在发送数据到DataNode时,会携带一段校验和,DataNode会将数据和校验和一起存到硬盘。
- DataNode会定时发送所有DataNode的数据报告给NameNode,发送前会校验校验和,若数据损坏(校验和不正确),则不会发送损坏的数据块信息。
原文地址:https://blog.csdn.net/weixin_42029860/article/details/140516019
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!