Hadoop安装部署-单机版

🕗 发布于 2024-03-25 00:53 hadoop 大数据

Apache Hadoop是一个使用HDFS（Hadoop Distributed File System）分布式文件系统执行可靠的、规模化的分布式计算的开源项目，Hadoop是使用Java语言开发，其运行在Linux操作系统上集群规模最大支持几千个分布式节点，本文主要描述Hadoop单机版的安装部署。

如上所示，HDFS分布式文件系统的架构图，其中，Namenode节点主要提供数据文件索引服务，Datanode节点主要提供数据分片的存储服务，Namenode服务支持多节点的高可用性部署，Datanode支持大规模的分布式集群部署，数据分片实现备份复制的高可用性机制

如上所示，一个用户数据文件可分为多个数据块存储在多个Datanode中，每个数据块拥有一个ID标识，每个数据块以备份复制的方式存储在不同的Datanode中实现高可用性，part-0文件分为1、3的数据块，每个数据块复制2份，part-1文件分为2、4、5的数据块，每个数据块复制3份，读取part-0文件的时候分别读取1、3数据块合并成完整的文件，读取part-1文件的时候分别读取2、4、5数据块合并成完整的文件

如上所示，从OpenJDK官方下载JDK8版本、从Hadoop官方下载最新的稳定版本

如上所示，安装与配置OpenJDK8

如上所示，使用Hadoop的样例MapReduce算法统计input文件夹的文件列表中，包含有匹配dfs[a-z.]+正则表达式的字符串的统计信息，该正则表达式匹配以字符串dfs为前缀、以a到z小写英文字母以及点号的任意组合为后缀的字符串，文件夹output输出中显示包括一个字符串dfsadmin

如上所示，设置Hadoop分布式文件系统的接口访问的地址

如上所示，设置Hadoop分布式文件系统的复制备份策略

如上所示，设置Hadoop分布式集群节点的ssh免密登录

如上所示，格式化Hadoop分布式文件系统

如上所示，配置Hadoop分布式文件系统的用户环境变量

如上所示，启动Hadoop分布式文件系统服务，其中，包括NameNode服务以及DataNode服务

如上所示，查看Hadoop分布式文件系统服务的端口使用，其中，9870端口是web平台服务，9000端口是分布式文件系统的平台服务，9866端口是DataNode提供的服务

如上所示，在Hadoop分布式文件系统中新建用户目录

如上所示，在Hadoop分布式文件系统中执行MapReduce计算，输出到output文件夹中

如上所示，停止Hadoop分布式文件系统服务

如上所示，配置Hadoop分布式文件系统的YARN资源管理器

如上所示，配置Hadoop分布式文件系统的YARN资源管理器的用户环境变量

如上所示，启动Hadoop分布式文件系统的YARN资源管理器服务

如上所示，停止Hadoop分布式文件系统的YARN资源管理器服务

原文地址：https://blog.csdn.net/uesowys/article/details/136905303

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：智慧门诊系统的使用优势
下一篇：IOS苹果开发者账号封号的规避心得，利用好防关联工具避免APP下架问题

Redis——分布式锁
为什么要有分布式锁？在只有一台服务器提供服务的情况下，乐观锁和悲观锁足以解决线程并发导致的问题。但是企业开发中避免不了需要部署多台服务器，即采用分布式系统或集群模式，这时，多台服务器就有多个jvm，对
阅读更多2024-09-20
springboot使用minio(8.5.11)
1.配置minio MinioAutoConfiguration 类。3.创建minioTemplate工具类。1.上传时如果流是空的，不上传不成功的。
阅读更多2024-09-20
Redis的Key的过期策略是怎样实现的？
在学习Redis时，我们知道可以设置Key的过期时间，我们还知道，Redis一大特点–。那么当Redis中的数据量起来时，如果直接遍历所有的Key，那么对于Key过期时间的校验应该很费时间，那么Red
阅读更多2024-09-20
电气自动化入门03：安全用电
人体电阻：人体平均电阻：2000欧姆，计算分析时，通常去下线值1700欧姆；2.1 电工知识：触电原因与防触电措施_哔哩哔哩_bilibili。电磁场生理伤害：高频磁场影响人的神经系统；违章冒险
阅读更多2024-09-20
828 华为云征文｜华为 Flexus 云服务器搭建 PicGo 图床
通过在华为 Flexus 云服务器上搭建 PicGo 图床，我们成功地构建了一个高效、稳定的图片存储和管理平台。无论是个人博客、开发者文档还是其他需要图片资源的场景，都能从中受益。在未来，随着需求的不
阅读更多2024-09-20
Pycharm打印区打印数据不全问题
python
阅读更多2024-09-20
git重置本地提交与远程保持一致
【代码】git重置本地提交与远程保持一致。
阅读更多2024-09-20
阿里巴巴拍立淘API返回值：商家优化商品信息的深度指南
阿里巴巴的拍立淘API为商家提供了一个强大的工具，通过其返回值，商家可以深入了解市场竞品，并据此制定有效的商品信息优化策略。通过不断优化商品图片、标题、价格等关键信息，商家可以提升商品的竞争力和市场接
阅读更多2024-09-20
Java入门：09.Java中三大特性（封装、继承、多态）02
比如：类A 继承类BA类称为子类，衍生类，派生类B类称为父类，基类，超类子类自动的拥有父类的所有属性和方法（父类编写，子类不需要再编写）。代码复用目前私有的属性和方法无法访问。多态的基
阅读更多2024-09-20
力扣560 和为k的子数组 Java版本
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。输入：nums = [1,1,1], k = 2。输入：nums = [1,2,3], k = 3。子数
阅读更多2024-09-20

Hadoop安装部署-单机版

相关文章