Hadoop实现WordCount详解

🕗 发布于 2024-12-27 00:44 hadoop 大数据 分布式

文章目录

Hadoop实现WordCount详解

Hadoop实现WordCount详解

一、引言

在大数据处理领域，WordCount是一个经典的入门级程序，它用于统计文本中每个单词出现的次数。通过Hadoop实现WordCount，我们可以利用Hadoop的分布式计算能力，高效地处理大规模数据集。本文将详细介绍如何使用Hadoop来实现WordCount程序，包括程序的编写、配置和运行。
在这里插入图片描述

二、Hadoop WordCount实现步骤

1、环境搭建

在开始编写WordCount程序之前，我们需要搭建一个Hadoop全分布模式集群。这里直接略过了，如果需要自行百度
在这里插入图片描述

2、编写WordCount程序

2.1、Mapper类

Mapper类负责读取输入的文本数据，并将其分割成单词，然后输出中间键值对。这里，我们将每个单词作为键，值为1。

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;

public class WordCountMapper extends Mapper<Object, Text, Text, IntWritable> {
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    @Override
    protected void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        String[] words = value.toString().split("\\s+");
        for (String w : words) {
            word.set(w);
            context.write(word, one);
        }
    }
}

2.2、Reducer类

Reducer类负责接收Mapper输出的中间结果，并汇总每个单词的总频率。

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    private IntWritable result = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) {
            sum += val.get();
        }
        result.set(sum);
        context.write(key, result);
    }
}

2.3、驱动类

驱动类负责设置作业的配置，定义Mapper和Reducer，以及输入输出路径。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCountDriver {
    public static void main(String[] args) throws Exception {
        if (args.length != 2) {
            System.err.println("Usage: WordCount <input path> <output path>");
            System.exit(-1);
        }
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCountDriver.class);
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

三、编译与打包

编译WordCount.java文件，并将其打包成jar包，以便在Hadoop集群上运行。

bin/hadoop com.sun.tools.javac.Main WordCount.java #将WordCount.java编译成.class文件
jar cf wc.jar WordCount*.class #将.class文件打包成jar包

四、运行WordCount程序

启动Hadoop集群，并提交WordCount作业。

cd /opt/hadoop/hadoop/sbin
start-all.sh

然后，使用hadoop命令提交作业：

hadoop jar wc.jar WordCountDriver /input/path /output/path

五、总结

通过本文的介绍，我们了解了如何使用Hadoop实现WordCount程序。从环境搭建到程序编写，再到作业的提交和运行，每一步都是实现大数据处理的关键。WordCount程序虽然简单，但它是理解Hadoop分布式计算框架的一个很好的起点。

参考文章：

原文地址：https://blog.csdn.net/NiNg_1_234/article/details/144630858

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

前后端分离(前端删除数据库数据)
前端根据后端返回的数据判断，数据是否删除成功，并给用户提示。
阅读更多2024-12-27
安装k8s涉及命令（方便放到txt离线使用）
备注：如果报错可能是需要将 modprobe -- nf_conntrack_ipv4 改为modprobe -- nf_conntrack。sed -i 's/enforcing/disabled
阅读更多2024-12-27
TDengine时序数据库
本地3.0,server收费云数据库 TDengine cloud云数据库收费，使用docker。
阅读更多2024-12-27
Linux应用软件编程-多任务处理（进程）
子进程拷贝父进程0-3G的虚拟内存空间，PCB块，进程ID号不会拷贝。kill -信号num 进程ID：给指定进程发送一个信号。进程（process）：正在执行的程序，执行过程中需要消耗内存和C
阅读更多2024-12-27
驼峰式匹配：高效匹配字符串模式的深度解析与解决方案
该函数接收一个字符串数组queries和一个模式字符串pattern，返回一个布尔数组answer，表示每个查询字符串是否与模式匹配。
阅读更多2024-12-27
潮玩设备AI语音交互方案，ESP32-S3芯片模组物联网通信技术
而这一切的背后，是强大的处理器和先进的算法，它们使得设备能够快速响应，智能决策。乐鑫ESP32-S3芯片模组，不仅具备强大的AI运算能力，还拥有可靠的安全加密机制，将边缘AI功能融入其中，提升设备在语
阅读更多2024-12-27
react高阶组件及hooks
一个函数可以接受另一个函数作为参数例如。
阅读更多2024-12-27
数据仓库工具箱—读书笔记02(Kimball维度建模技术概述04、使用一致性维度集成)
2.4.1 一致性维度2.4.2 缩减维度2.4.3 跨表钻取2.4.4 价值链2.4.5 企业数据仓库总线架构2.4.6 企业数据仓库总线矩阵
阅读更多2024-12-27
从数据仓库到数据中台再到数据飞轮：电信行业的数据技术进化史
大家好，我是一名大数据开发工程师，电信行业作为高度数据驱动的行业，长期以来通过技术创新不断优化服务质量和业务运营。从最早期的数据仓库，到数据中台，再到如今的数据飞轮，电信行业的数据技术经历了几次重要的
阅读更多2024-12-27
DataOps驱动数据集成创新：Apache DolphinScheduler & SeaTunnel on Amazon Web Services
WhaleStudio是白鲸开源科技根据全球最佳实践发布的商业版版本，离线同步任务定义包括Source和Sink，Source用来定义数据的来源，Sink用来定义数据同步的目标。支持选择同步字段、全表
阅读更多2024-12-27

Hadoop实现WordCount详解

文章目录

Hadoop实现WordCount详解

一、引言

二、Hadoop WordCount实现步骤

1、环境搭建

2、编写WordCount程序

2.1、Mapper类

2.2、Reducer类

2.3、驱动类

三、编译与打包

四、运行WordCount程序

五、总结

相关文章