本地 Hadoop 开发环境搭建详解

🕗 发布于 2024-11-11 09:42 chrome

### 本地 Hadoop 开发环境搭建详解

Hadoop 是处理大规模数据的核心工具之一，在大数据分析、机器学习和数据仓库等场景中应用广泛。为了方便开发和调试，搭建一个本地 Hadoop 环境是一个很好的选择。本文将详细介绍如何在本地搭建一个单节点的 Hadoop 环境，适用于学习和开发。

---

### 前提条件

1. **操作系统**：建议使用 Linux 系统（例如 Ubuntu 或 CentOS），Windows 用户可以使用 WSL 或虚拟机来搭建。
2. **Java 环境**：Hadoop 依赖 Java 运行环境，推荐使用 JDK 8 版本。
3. **SSH**：Hadoop 在集群中使用 SSH 进行节点间通信，因此需要配置 SSH 免密登录。
4. **Hadoop 安装包**：从 Hadoop 官方网站下载二进制文件。

---

### 步骤详解

#### 1. 安装 Java
Hadoop 依赖于 Java 运行环境，请确保安装了合适的 JDK 版本。
```bash
# 安装 OpenJDK 8（Ubuntu）
sudo apt update
sudo apt install -y openjdk-8-jdk

# 检查安装
java -version
```

编辑 `~/.bashrc` 文件，添加 `JAVA_HOME` 路径：
```bash
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$PATH:$JAVA_HOME/bin
```

应用环境变量配置：
```bash
source ~/.bashrc
```

#### 2. 下载并安装 Hadoop

从 [Hadoop 官网](https://hadoop.apache.org/releases.html) 下载 Hadoop 二进制文件并解压到指定目录。

```bash
# 假设下载的文件为 hadoop-3.3.1.tar.gz
tar -xvzf hadoop-3.3.1.tar.gz
sudo mv hadoop-3.3.1 /usr/local/hadoop
```

#### 3. 设置 Hadoop 环境变量

编辑 `~/.bashrc`，添加以下 Hadoop 环境变量：

```bash
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
```

更新环境变量：
```bash
source ~/.bashrc
```

#### 4. 配置 Hadoop

配置文件位于 `$HADOOP_HOME/etc/hadoop/` 目录中，主要需要编辑以下四个文件：

1. **core-site.xml**
配置 HDFS 的默认文件系统地址：
```xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
```

2. **hdfs-site.xml**
设置副本数量为 1，以便在单节点模式下运行：
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
```

3. **mapred-site.xml**
将 `mapred-site.xml.template` 文件复制并重命名为 `mapred-site.xml`，然后编辑该文件以启用 YARN：
```xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```

4. **yarn-site.xml**
配置 YARN 的 Shuffle 服务：
```xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
```

#### 5. 配置 SSH 免密登录

为了在 Hadoop 中顺利执行命令，您需要配置 SSH 免密登录。执行以下命令生成 SSH 密钥并配置：

```bash
# 生成 SSH 密钥
ssh-keygen -t rsa -P ""

# 将公钥添加到授权密钥列表
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

# 测试 SSH 连接
ssh localhost
```

#### 6. 格式化 Namenode

在首次启动 HDFS 前，需要格式化 Namenode。这只需要进行一次，执行命令如下：

```bash
hdfs namenode -format
```

#### 7. 启动 Hadoop 服务

1. 启动 HDFS 服务：
```bash
start-dfs.sh
```

2. 启动 YARN 服务：
```bash
start-yarn.sh
```

可以通过以下命令查看正在运行的 Hadoop 进程：
```bash
jps
```

应该看到以下进程：`NameNode`、`DataNode`、`ResourceManager` 和 `NodeManager`。

#### 8. 验证 Hadoop 配置

Hadoop 启动后，可以通过以下 URL 查看 Hadoop 状态：
- **NameNode 状态**：`http://localhost:9870`
- **ResourceManager 状态**：`http://localhost:8088`

#### 9. 测试 HDFS

测试 HDFS 的基本功能，创建文件夹并上传文件：

```bash
# 创建 HDFS 目录
hdfs dfs -mkdir /user
hdfs dfs -mkdir /user/your_username

# 上传文件
hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /user/your_username
```

查看文件是否成功上传：
```bash
hdfs dfs -ls /user/your_username
```

---

### 小结

通过以上步骤，您已在本地成功搭建一个 Hadoop 单节点开发环境。此环境可以用于学习 Hadoop 的基础概念、开发 MapReduce 程序和进行小规模数据测试。

原文地址：https://blog.csdn.net/zhaoshanshan168/article/details/143661099

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：基于单片机洗衣机控制器的设计（论文+源码）
下一篇：Hadoop学习第四章 Hive

MinIo在Ubantu和Java中的整合
方法抛出的各种异常进行了捕获，然后打印了异常信息，目前这种处理逻辑，无论Minio是否发生异常，前端在上传文件时，总是会受到成功的响应信息。会处理所有Controller方法抛出的异常，因此Contr
阅读更多2024-11-15
HTTP基础
当浏览者访问一个网页时，浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前，此网页所在的服务器会返回一个包含HTTP状态码的信息头（server header）用以响应浏览器的请求。H
阅读更多2024-11-15
linux phy mdio 读取工具
【代码】linux phy mdio 读取工具。
阅读更多2024-11-15
sql文件
sql文件通常包含SQL语句，用于数据库的创建、修改和数据操作。根据内容的不同，.sql文件的使用方式也有所不同。
阅读更多2024-11-15
MongoDB创建只读用户并授权指定集合的查询权限
创建一个自定义角色，只允许在。集合上执行查询操作。
阅读更多2024-11-15
#渗透测试#SRC漏洞挖掘#云技术基础03之容器相关
Podman是Docker的替代产品，它无守护进程。在运行容器时，若不加sudo启动可能会报错，因为默认禁止侦听1024以下端口，例如运行httpd容器可以使用命令。Kubernetes，通常简称为K
阅读更多2024-11-15
Linux权限和开发工具(3)
我们在做项目的时候可能会遇到对自己的修改不满意,想要回到上一个版本时候,就需要对自己完成一个阶段,对当前阶段进行备份,就方便我们后续进行版本回退了。后的程序可以执行但是文件也会大一些,让生成的程序带上
阅读更多2024-11-15
C++ 编程基础（5）类与对象 | 5.8、面向对象五大原则
在软件开发领域，面向对象编程（OOP）是一种重要的编程范式，它通过封装、继承和多态等特性，提高了代码的可重用性、灵活性和可维护性。C++作为一种强大的面向对象编程语言，充分体现了这些原则。在面向对象的
阅读更多2024-11-15
Tailwind 安装使用
Tailwind 安装使用
阅读更多2024-11-15
JavaScript中的二叉树排序你了解吗？
在计算机科学中，二叉树是一种常见的数据结构，用于存储和组织数据。二叉树排序（Binary Tree Sort）是一种基于二叉搜索树的排序算法。它的基本思想是将待排序的元素插入到二叉搜索树中，然后通过中
阅读更多2024-11-15

本地 Hadoop 开发环境搭建详解

相关文章