大数据处理之数据去重、TopN统计与倒排索引的Hadoop实现
注:下述步骤仅供参考,具体指令和操作截图的word版本可见上方本博文免费资源绑定。
一、数据去重
1.创建dedup包准备进行数据去重操作
2.Map阶段的实现:编写实现Mapper组件的类DedupMapper
3.Reduce阶段实现:编写实现Reducer组件的类DedupReducer
4.驱动类实现:编写驱动类DedupDriver
5.在D:\Dedup\input目录下准备好data1.txt和data2.txt文件
6.运行驱动类进行数据去重
7.去重结果如图所示
二、TopN
1.Map阶段的实现:编写实现Mapper组件的类TopNMapper
2.Reduce阶段实现:编写实现Reducer组件的类TopNReducer
3.驱动类实现:编写驱动类TopNDriver
4.在D:\TopN\input目录下准备好num.txt文件
5.运行驱动类进行TopN最大数据获取
6.得到最大的5个数据如图所示
三、倒排索引
1.Map阶段的实现:编写实现Mapper组件的类InvertedlndexMapper
2.Combine阶段的实现:编写实现自定义Combiner组建的类InvertedlindexCombiner
3.Reduce阶段实现:编写用于实现Reducer组件的类InvertedlindexReducer
4.驱动类实现:编写驱动类
5.将倒排索引案例的JAR文件封装
6.将JAR文件上传到Hadoop1的/export/data目录
7.在HDFS上创建/Invertedlndex/input目录,并把file1.txt、file2.txt和file3.txt文件上传
8.运行MapReduce程序
9.查看运行结果
原文地址:https://blog.csdn.net/r2931887650/article/details/145289470
免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!