【分布式存储系统HDFS】架构和使用

🕗 发布于 2024-07-21 13:10 分布式 hdfs 架构

分布式存储系统HDFS：架构和使用

引言

随着数据量的迅猛增长，传统的存储系统已经无法满足大数据的存储需求。分布式存储系统HDFS（Hadoop Distributed File System）应运而生，成为处理海量数据的重要基础设施。本文将详细介绍HDFS的架构、工作原理、安装配置及使用方法。

HDFS简介

HDFS是Apache Hadoop项目的一部分，专为大规模数据存储设计。它通过分布式架构，实现了高可靠性、高吞吐量的数据存储和访问，能够处理PB级别的数据量。HDFS采用主从架构，主要由NameNode和DataNode构成。

HDFS的架构

NameNode

NameNode是HDFS的核心组件，负责管理文件系统的元数据（如文件名、目录结构、文件与块的映射关系等）。NameNode不存储实际的数据文件，但它维护了整个文件系统的目录树及所有文件和目录的元数据信息。

DataNode

DataNode是HDFS中的工作节点，负责存储实际的数据块。每个DataNode管理其所在机器上的存储，并周期性地向NameNode汇报存储情况。DataNode执行读写操作，由客户端直接访问。

Secondary NameNode

Secondary NameNode并不是NameNode的备份，而是辅助NameNode管理元数据的组件。它定期合并NameNode的元数据快照和编辑日志，以减轻NameNode的负担，但在NameNode故障时无法替代其工作。

HDFS的工作原理

数据读写流程

写数据

客户端向NameNode请求上传文件。
NameNode返回一个包含目标DataNode列表的写请求。
客户端将文件分块，并将每个数据块写入DataNode。
DataNode按指定的副本数将数据块复制到其他DataNode。

读数据

客户端向NameNode请求读取文件。
NameNode返回数据块所在的DataNode列表。
客户端直接从DataNode读取数据块。

数据冗余与恢复

HDFS通过数据块冗余机制，确保数据的高可靠性。默认情况下，每个数据块有三个副本，分别存储在不同的DataNode上。当某个DataNode故障时，NameNode会感知到并启动数据块的复制，以确保副本数不低于设定值。

HDFS的安装和配置

环境准备

在开始安装HDFS之前，确保以下环境准备工作已经完成：

一台或多台Linux服务器（建议使用Ubuntu或CentOS）。
安装Java JDK 8或更高版本。
安装SSH，并配置免密登录。

HDFS安装步骤

下载Hadoop：

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz

解压Hadoop：

tar -zxvf hadoop-3.3.1.tar.gz

配置环境变量：

export HADOOP_HOME=/path/to/hadoop
export PATH=$PATH:$HADOOP_HOME/bin

HDFS配置文件

core-site.xml

编辑$HADOOP_HOME/etc/hadoop/core-site.xml，添加以下配置：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

hdfs-site.xml

编辑$HADOOP_HOME/etc/hadoop/hdfs-site.xml，添加以下配置：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///path/to/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///path/to/data</value>
    </property>
</configuration>

启动HDFS

格式化NameNode：

hdfs namenode -format

启动HDFS：

start-dfs.sh

HDFS的使用

基本命令

查看HDFS文件系统状态：

hdfs dfsadmin -report

hdfs dfs -mkdir /user/hadoop

上传文件：

hdfs dfs -put localfile.txt /user/hadoop

下载文件：

hdfs dfs -get /user/hadoop/localfile.txt localfile_copy.txt

删除文件：

hdfs dfs -rm /user/hadoop/localfile.txt

HDFS Shell操作

HDFS Shell提供了一组命令，用于在HDFS中执行各种操作，如创建目录、上传下载文件等。常用命令如下：

hdfs dfs -ls /user/hadoop

显示文件内容：

hdfs dfs -cat /user/hadoop/file.txt

移动文件：

hdfs dfs -mv /user/hadoop/file1.txt /user/hadoop/file2.txt

Java API操作

HDFS提供了丰富的Java API，用于在应用程序中进行文件操作。以下是一个简单的Java示例：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class HDFSExample {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://localhost:9000");
        FileSystem fs = FileSystem.get(conf);

        // 上传文件
        fs.copyFromLocalFile(new Path("localfile.txt"), new Path("/user/hadoop/localfile.txt"));

        // 下载文件
        fs.copyToLocalFile(new Path("/user/hadoop/localfile.txt"), new Path("localfile_copy.txt"));

        fs.close();
    }
}

HDFS的应用场景

大数据存储与分析

HDFS能够存储和处理PB级别的数据，适用于各种大数据存储和分析场景，如日志分析、数据仓库、机器学习等。

数据备份与恢复

HDFS的高冗余机制使其成为理想的数据备份和恢复解决方案。通过多副本存储和数据块自动复制，HDFS能够有效应对硬件故障，确保数据安全。

内容分发网络

HDFS的高吞吐量和分布式架构，使其在内容分发网络（CDN）中也有广泛应用。通过将内容分散存储在多个DataNode上，HDFS能够实现快速的内容传输和访问。

结论

HDFS作为一种强大的分布式存储系统，通过分布式架构和高冗余机制，解决了大规模数据存储和处理的难题。本文详细介绍了HDFS的架构、工作原理、安装配置及使用方法，希望能帮助读者更好地理解和使用HDFS。通过合理应用HDFS，可以大幅提升数据处理能力，为业务发展提供有力支持。

原文地址：https://blog.csdn.net/weixin_39372311/article/details/140511691

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

Nuxt.js 应用中的 schema：beforeWrite 事件钩子详解
钩子为开发者提供了一个灵活的接口，以便在写入 JSON Schema 之前进行必要的修改和验证。这使得开发者可以在构建过程中插入自定义逻辑，有助于提高应用的稳定性和准确性。钩子允许开发者在 JSON
阅读更多2024-11-17
Python习题 249：判断两个单词为相同字母异序词
（编码题）编写一个函数，判断两个单词（字符串）中有相同的单词（字符），即相同字母异序词。
阅读更多2024-11-17
第四章：ArkTS 语句全解：从基础到高级的控制流与异常处理
本文详细介绍了 ArkTS 中的多种语句，这些语句对于构建程序逻辑、控制执行流程和处理异常至关重要。
阅读更多2024-11-17
Vue.js中computed的使用方法
在Vue.js中，computed 属性是基于它们的依赖进行缓存的响应式属性。这意味着只要computed属性依赖的源数据（如data中的属性）没有发生变化，多次访问computed属性会立即返回之前
阅读更多2024-11-17
【团标】《软件造价评估实施规程》（T-BSCEA002—2023）-标准解读系列14
而对于软件造价业务开展过程中，基准数据以及相关调整因子的选取判定、评估工作开展具体步骤环节、造价输出成果要求（如造价清单、造价报告）等，《软件造价评估实施规程》（T-BSCEA002—2023）则提供
阅读更多2024-11-17
效益登记册&效益管理计划
-全生命周期会update。集商业论证、组织战略计划和其他相关项目集自标。定义管理效益所需的角色和职责;
阅读更多2024-11-17
我手搓了个“自动生成标书”的开源大模型工具
最近我写开源商业文章明显更新少了，不是我不写文章了，而是开源商业化进展很顺利，我写文章的时间都被各种写标书占满了。作为一个开源原生的商业公司，白鲸开源公司的员工几乎都是程序员，而让这些开源贡献者写标书
阅读更多2024-11-17
奥迪股份如何通过升级至SAP S/4HANA实现财务与后勤的高效整合？
为了避免成本高昂的临时解决方案，奥迪公司希望将所有工厂后勤（后勤和生产的一部分）同时迁移到SAP S/4HANA，并集成到生产模板“Progress”中。随着多个项目的筹备，奥迪股份公司在 2023
阅读更多2024-11-17
linux逻辑卷练习
从新硬盘制作三个分区每个分区都 3GB大小，将三个分区只作为物理卷，通过这三个物理卷创建卷组通过卷组生成一个逻辑卷，大小为7G，再将逻辑卷调整到10G。物理卷（physical volume）：简
阅读更多2024-11-17
Vagrant 没了 VirtualBox 的话可以配 Qemu
之前一直是用 Vagrant 搭配 VirtualBox 在 Mac 下使用 Linux 虚拟机，因为不需要用到 Linux 桌面，用 Vagrant 操作虚拟机非常方便。有些尚未听说过，还有一些虽说
阅读更多2024-11-17

【分布式存储系统HDFS】架构和使用