MapReduce的shuffle过程详解

🕗 发布于 2024-12-25 11:54 mapreduce 大数据

文章目录

MapReduce的shuffle过程详解

MapReduce的shuffle过程详解

一、引言

MapReduce框架中的Shuffle过程是连接Map阶段和Reduce阶段的桥梁，负责将Map任务的输出结果按照key进行分组和排序，并将相同key的数据传递给对应的Reduce任务进行处理。Shuffle过程的性能直接影响到整个MapReduce作业的执行效率。

二、Shuffle过程详解

在这里插入图片描述

1、Map端Shuffle

Map端的Shuffle主要涉及分区（Partition）、排序（Sort）和分割（Spill）操作。Map任务输出的中间数据首先被送到一个内存缓冲区，当缓冲区达到一定大小时，会触发Spill操作，将数据写入磁盘，并进行分区和排序。

1.1、分区（Partition）

Map输出的数据根据Partitioner的规则被分配到不同的Reducer分区中。默认情况下，是根据key的哈希值进行分区。

public int getPartition(Key key, Value value, int numReduceTasks) {
    // 默认分区方法，根据key的hashCode进行取模
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}

1.2、排序（Sort）

为了保证同一个Reducer分区内的数据有序，Map端会对每个分区的数据进行排序。排序可以是快速排序、归并排序等算法。

1.3、分割（Spill）

当内存缓冲区达到一定阈值时，会将数据写入磁盘，这个过程称为Spill。Spill操作会生成多个中间文件，每个文件对应一个Reducer分区。

2、Reduce端Shuffle

Reduce端的Shuffle主要负责从Map端拉取数据，并进行合并（Merge）操作。Reduce任务首先会从各个Map任务拉取对应的数据分区，然后对这些数据进行合并，以便进行后续的Reduce操作。

public void reduce(ShuffledInputSplit split, TaskAttemptContext context) throws IOException {
    // 从Map端拉取数据
    RawKeyValueIterator rIter = shuffleConsumerPlugin.run();
    // 合并数据
    mergeAndReduce(rIter);
}

三、使用示例

下面是一个简单的MapReduce示例，展示了Shuffle过程在实际应用中的使用。

public class WordCount {

    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
                word.set(itr.nextToken());
                context.write(word, one);
            }
        }
    }

    public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> {
        public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            context.write(key, new IntWritable(sum));
        }
    }

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

四、总结

Shuffle过程是MapReduce框架中不可或缺的一部分，它确保了Map阶段输出的数据能够有序、高效地传递给Reduce阶段。通过对Shuffle过程的深入了解和优化，可以显著提升MapReduce作业的性能。

参考文章：

原文地址：https://blog.csdn.net/NiNg_1_234/article/details/144632931

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：帝国cms电脑pc站url跳转到手机站url的方法
下一篇：Linux下载RabbitMQ，并解决Github拒绝访问443的问题

【AscendC】记录LpNorm的tiling方案中用到的一些变量
LpNorm的官方仓库链接在operator_contrib/LpNormV2CustomSample/FrameworkLaunch/LpNormV2Custom。观察其tiling方案可以看到，有
阅读更多2024-12-25
轻松查找 Docker 之 IP 地址(Easily Find the IP Address of Docker Containers)
‌Docker是一个开源的容器化平台，旨在简化应用程序的开发、部署和运行过程。‌它提供了一种轻量级、可移植和自包含的容器化环境，使开发人员能够在不同的计算机上以一致的方式构建、打包和分发应用程序。‌本
阅读更多2024-12-25
Gin-vue-admin（4）：项目创建前端一级页面和二级页面
刷新进来之后就有了刚刚创建的我的测试，还有之前自动化代码创建的测试结构。view目录下新建一个my，Index.vue。并把刚刚的index的父节点设为我的多级。在角色管理中，给我的测试赋权限。
阅读更多2024-12-25
基于单片机车载冰箱 PID 温度控制
目前，车载冰箱已成为市场上的热销产品。文中产品核心采用了 AT89C52 单片机，利用 PID 算法，用数据字传感器 DS18B20 测量温度，OPA549 驱动半导体制冷器TEC1-12706 控制
阅读更多2024-12-25
Vivado 编译（单核性能对比+高性能迷你主机+Ubuntu20.04/22.04安装与区别+20.04使用远程命令）
选购一款专用于 Vitis 和 Vivado 开发的主机，Vivado 的编译速度很大程度上取决于 CPU 的单核性能，尤其是在布线和综合阶段，最终选择一款迷你主机，不考虑使用独显，核性数一般即可。按
阅读更多2024-12-25
go基本知识与语法入门
Go 语言的设计目标是简洁、并发和高效，它提供了很多优秀的特性，如垃圾回收、内存安全、强类型系统、并发支持等。它适用于从系统编程到网络服务等各种应用领域。通过简洁的语法和工具，Go 能帮助开发者更容易
阅读更多2024-12-25
开源轮子 - EasyExcel01(核心api)
开源轮子 - EasyExcel01(核心api)
阅读更多2024-12-25
1225. 报告系统状态的连续日期 - 力扣（LeetCode）
用于定义临时结果集，使复杂的查询更加清晰和易于管理。
阅读更多2024-12-25
MFC/C++学习系列之简单记录2——thread和Release
针对最近用到得东西进行记录！关于线程的使用介绍和Release版本的生成说明！
阅读更多2024-12-25
MFC/C++学习系列之简单记录9——简单加法
基本的一些使用已经了解，那么就做个简单的加法来练手吧！简单的一个加法器把控件、消息映射等基本功能用起来，后期可以开发更多新玩意！
阅读更多2024-12-25

MapReduce的shuffle过程详解

文章目录

MapReduce的shuffle过程详解

一、引言

二、Shuffle过程详解

1、Map端Shuffle

1.1、分区（Partition）

1.2、排序（Sort）

1.3、分割（Spill）

2、Reduce端Shuffle

三、使用示例

四、总结

相关文章