Hadoop之WordCount测试

🕗 发布于 2024-10-05 06:21 hadoop 大数据 分布式

1、Hadoop简介：

Hadoop是Apache旗下的一个用Java语言实现的开源软件框架，是一个开发和运行处理大规模数据的软件平台。

Hadoop的核心组件包括Hadoop分布式文件系统（HDFS）和MapReduce编程模型。HDFS是一个高度容错的系统，用于存储大规模数据集，具有高可靠性、高扩展性和高吞吐率的特点。MapReduce则是一个用于处理这些数据集的编程模型，它简化了并行编程的复杂性，使得开发者可以专注于业务逻辑的实现。

Hadoop的优势在于其高可靠性、高扩展性、高效性、高容错性以及低成本。它能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。此外，Hadoop还提供了一个完备的生态系统，包括了许多与之配合使用的开源工具和组件，如Hive、Pig、HBase、ZooKeeper等，这些工具可以快速地构建数据分析和处理系统。

很多Hadoop应用都是基于WordCount所代表的MapReduce编程模型变化而来，因此，WordCount可以算是入门Hadoop的“Helloworld”程序，本文将详细说明如何运行一个WordCount任务。

2、Ubuntu安装Hadoop

详见：Ubuntu安装Hadoop3.4-CSDN博客

3、WordCount测试

启动Hadoop：

start-all.sh

在Hadoop中创建测试文件夹

$ hdfs dfs -mkdir /user
$ hdfs dfs -mkdir /user/hadoop

上传本地文件至hadoop用作后续测试：

$ hdfs dfs -put /home/hadoop/training/hadoop-3.4.0/etc/hadoop /user/hadoop/input

查看上传的文件：

hdfs dfs -ls /user/hadoop/input

在share/hadoop目录中有一些示例jar包，我们将运行hadoop-mapreduce-examples-3.4.0.jar来完成词频统计任务。

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.4.0.jar wordcount /user/hadoop/input /user/hadoop/output

完成此任务需要一些时间，需要耐心等待，可以在终端看到运行过程。

WordCount任务完成后，将output下载至本地：

hdfs dfs -get /user/hadoop/output output

查看词频统计结果：

原文地址：https://blog.csdn.net/catontower/article/details/142705761

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：python交互式命令时如何清除
下一篇：【嵌入式系统】第18章脉宽调试器（PWM）

G2O 通过工厂函数类 OptimizationAlgorithmFactory 来生成固定搭配的优化算法
[代码实践] G2O 学习记录（一）：2D 位姿图优化 [代码实践] G2O 学习记录（二）：3D 位姿图优化
阅读更多2024-10-07
杭电合集小tips
主要大家还是用C和C++多，但是注意的是，#include这个文件是G++自带的，这意味着调节语言的时候需要导到G++这个语言，不然会显示查不到此文件。同理，或者这个问题还是有问题，在配置vscode
阅读更多2024-10-07
面试经验02
秋招是一场持久战，需要耐心和策略。通过精心准备简历，突出你的技能和经验，你将大大增加获得面试机会的可能性。同时，了解市场行情和自身定位，将帮助你在求职过程中做出更明智的选择。希望这份指南能帮助你顺利找
阅读更多2024-10-07
【C语言】VS调试技巧
VS调试
阅读更多2024-10-07
为什么要虚析构，为什么不能虚构造
这行代码的意思是创建一个指向派生类对象（Derived）的基类指针（Base*），当通过delete basePtr基类指针删除派生类对象时，如果基类的析构函数不是虚函数，那么通过基类指针删除派生类对
阅读更多2024-10-07
springboot 通过aop+自定义注解，统一记录系统操作日志
当前操作的用户: 可以用拦截器+threadlocal实现。ip获取采用 ip2region。日志记录aop，使用环绕通知。需要记录日志的，添加注解。
阅读更多2024-10-07
helm 测试卸载或删除（redis）
查看redis 集群实例kubectl get all -n redis卸载集群实例helm uninstall redis -n redis删除pvckubectl get pvc -n redis
阅读更多2024-10-07
计算机毕业设计 | SpringBoot+vue学生成绩管理系统教务管理系统
本教务系统平台项目开发了电脑网页端，基于上海大学的教学计划，面向教师和学生两个不同的角色设计了不同的页面，同时提供不同的功能。当通过登入界面进入功能页面后，学生可以有选课、退课、成绩查询、课表查询几个
阅读更多2024-10-07
L-edit使用(1)
L-edit使用
阅读更多2024-10-07
HC、OC、JD 极简理解（招聘领域概念）
HC、OC、JD 极简理解（招聘领域概念）
阅读更多2024-10-07

Hadoop之WordCount测试

1、Hadoop简介：

2、Ubuntu安装Hadoop

3、WordCount测试

相关文章