大数据处理之数据去重、TopN统计与倒排索引的Hadoop实现

🕗 发布于 2025-01-22 18:35 hadoop 大数据 分布式

一、数据去重

1.创建dedup包准备进行数据去重操作

2.Map阶段的实现：编写实现Mapper组件的类DedupMapper

3.Reduce阶段实现：编写实现Reducer组件的类DedupReducer

4.驱动类实现：编写驱动类DedupDriver

5.在D：\Dedup\input目录下准备好data1.txt和data2.txt文件

6.运行驱动类进行数据去重

7.去重结果如图所示

二、TopN

1.Map阶段的实现：编写实现Mapper组件的类TopNMapper

2.Reduce阶段实现：编写实现Reducer组件的类TopNReducer

3.驱动类实现：编写驱动类TopNDriver

4.在D：\TopN\input目录下准备好num.txt文件

5.运行驱动类进行TopN最大数据获取

6.得到最大的5个数据如图所示

三、倒排索引

1.Map阶段的实现：编写实现Mapper组件的类InvertedlndexMapper

2.Combine阶段的实现：编写实现自定义Combiner组建的类InvertedlindexCombiner

3.Reduce阶段实现：编写用于实现Reducer组件的类InvertedlindexReducer

4.驱动类实现：编写驱动类

5.将倒排索引案例的JAR文件封装

6.将JAR文件上传到Hadoop1的/export/data目录

7.在HDFS上创建/Invertedlndex/input目录，并把file1.txt、file2.txt和file3.txt文件上传

8.运行MapReduce程序

9.查看运行结果

原文地址：https://blog.csdn.net/r2931887650/article/details/145289470

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

相关文章