【大数据算法】MapReduce算法概述之：MapReduce基础模型

🕗 发布于 2024-11-11 08:55 大数据 算法 mapreduce

MapReduce基础模型

1、引言
2、MapReduce基础模型
3、总结

1、引言

小屌丝：鱼哥，鱼哥，不得了啊
小鱼：啥事情这么慌慌张张的
小屌丝：这不是慌张啊
小鱼：那这是啥嘞？
小屌丝：你看，咱们歼-35A在珠海航展亮相了
小鱼：嗯，这个我也看到了
小屌丝：鱼哥，你就说咱家歼-35A的亮相，是不是代表着…（你懂得）
小鱼：嗯，我懂的
小屌丝：太赞了
小鱼：还有其他事情？
小屌丝：没有了
小鱼：没有的话，我还的看咱珠海航展呢
小屌丝：鱼哥，既然气氛都烘托到这了，那我考考你
小鱼：呦呵，来吧
小屌丝：咱第十五届中国珠海航展的主题是啥？
小鱼：《蓝天盛会，逐梦九霄》
小屌丝：呦呵，厉害啊
小鱼：这有啥，没别的事，我要看航展了
小屌丝：那你看这是啥飞机
小鱼：…这就差在图片标记型号了
小屌丝：… 鱼哥，没想到，你也是个军迷啊
小鱼：我看航展了
在这里插入图片描述

2、MapReduce基础模型

2.1 定义

MapReduce是一种编程模型，主要用于大规模数据集（通常大于1TB）的并行运算。

该模型将复杂的数据处理任务分解为两个主要阶段：Map（映射）阶段和Reduce（归约）阶段。

Map阶段负责对输入数据进行分割、过滤、转换等操作，生成中间键值对；
Reduce阶段则对中间键值对进行合并、汇总等操作，生成最终的输出结果。

2.2 核心原理

MapReduce的核心原理是将大规模数据集的处理工作分解为可以并行执行的小任务，以提高处理效率和可扩展性。以下是MapReduce的几个主要核心原理：

大规模数据集的分治处理：MapReduce通过将大规模数据集切分成多个小块（Splits），使得这些数据块可以并行处理。每个数据块由一个Map任务处理。
Map函数：用户定义的函数，用于处理输入数据并生成中间键值对（Key-Value pairs）。Map任务通常执行过滤和转换操作。
Reduce函数：用户定义的函数，用于处理Map函数的输出，即中间结果的键值对，并将具有相同键的所有值进行汇总，生成最终的输出。
数据本地化：MapReduce框架尝试将Map任务分配给存储输入数据块的节点，以减少数据在网络中的传输。同样，Reduce任务也尽可能地在Map任务所在的节点上执行，以利用数据局部性。
故障检测和恢复：MapReduce具备自动的故障检测和恢复机制。如果一个任务失败，框架会自动在其他节点上重新启动该任务。

在Map阶段和Reduce阶段之间，MapReduce框架会进行数据的Shuffle过程，将Map输出的键值对根据键进行分组，并通过排序算法进行排序，以确保每个Reducer接收到有序的数据。

2.3 优点

关于MapReduce的优点，主要体现在以下几点：

易于编程：
- MapReduce提供了一个简化的编程模型，开发人员只需要实现Map和Reduce两个函数，而无需关心并行和分布式计算的底层细节。
- 通过简单的接口，可以轻松地编写分布式程序，并运行在由众多服务器组成的集群上。
良好的扩展性：
- MapReduce框架可以轻松扩展到更多的计算节点，以处理更大规模的数据集。
- 当资源不足时，可以通过增加机器数量来扩展集群的计算能力。
高容错性：
- MapReduce具有强大的容错机制，能够自动处理节点故障。
- 如果某个节点失败，MapReduce框架会自动重新执行失败的任务，以确保任务的完成。
数据局部性：
- MapReduce支持数据局部性，即将数据分配给附近的计算节点，以减少数据传输的开销。
- 这有助于提高数据处理的性能。
并行处理：
- MapReduce允许数据并行处理，将大规模数据集分成小块，并同时在多个计算节点上执行操作。
- 这显著提高了数据处理的速度和效率。
通用性：
- MapReduce是一种通用的数据处理模型，适用于各种领域，包括大规模数据分析、搜索引擎索引构建、日志分析、机器学习等。

2.4 缺点

不适合实时计算：
- MapReduce无法毫秒级内返回结果，因此不适合用于实时数据处理场景。
不适合流式计算：
- MapReduce的设计初衷是处理静态数据集，不适合处理动态变化的输入数据。
磁盘IO开销大：
- 在MapReduce作业之间，输出结果需要写入磁盘，这会造成大量的磁盘IO开销，影响性能。
不适合DAG（有向无环图）计算：
- 当多个应用程序存在依赖关系时，MapReduce的处理方式会导致大量的磁盘IO，降低性能。

2.5 局限性

处理效率相对较低：
- 与Spark等新型大数据处理框架相比，MapReduce在处理效率上存在一定的差距。这主要是因为MapReduce需要将中间结果写入磁盘，增加了IO开销，而Spark则基于内存进行计算，减少了磁盘IO，从而提高了处理速度。
编程模型限制：
- MapReduce采用基于Java的编程模型，对于非Java开发人员来说，学习和使用MapReduce可能会有一定难度。此外，MapReduce的计算流程相对固定，只能由一次Map计算和一次Reduce计算组成，对于复杂的计算场景可能需要多次MapReduce作业的组合，增加了开发和维护的复杂性。
数据倾斜问题：
- 在MapReduce程序中，数据倾斜可能会导致某些节点负载过重，从而影响整个程序的性能。数据倾斜是指数据在Map阶段或Reduce阶段分布不均匀，导致某些节点处理的数据量远大于其他节点，从而造成性能瓶颈。
资源消耗大：
- MapReduce在处理大规模数据集时，需要占用大量的计算资源和存储资源。这包括CPU、内存、磁盘空间以及网络带宽等。对于资源有限的环境来说，这可能会成为一个制约因素。
小作业执行效率不高：
- MapReduce设计用于处理大规模数据集，对于小数据集来说，其启动作业和资源配置的开销可能会超过数据处理本身，导致效率低下。因此，对于小数据集的处理，可能需要考虑其他更适合的计算框架。
系统假设和容错机制带来的开销：
- MapReduce假设硬件故障是常态，因此在处理过程中可能会遇到更多的故障和恢复操作。虽然MapReduce提供了容错机制，但这些机制可能会导致额外的性能开销，尤其是在大规模集群中。

2.6 实例

以下是一个简化的MapReduce程序示例


// Mapper类
public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>{
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        StringTokenizer itr = new StringTokenizer(value.toString());
        while (itr.hasMoreTokens()) {
            word.set(itr.nextToken());
            context.write(word, one);
        }
    }
}

// Reducer类
public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable>{
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) {
            sum += val.get();
        }
        result.set(sum);
        context.write(key, result);
    }
}

// main函数（驱动程序）
public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    Job job = Job.getInstance(conf, "word count");
    job.setJarByClass(WordCount.class);
    job.setMapperClass(TokenizerMapper.class);
    job.setReducerClass(IntSumReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
}

解析：

定义了两个类：TokenizerMapper和IntSumReducer，分别实现了map和reduce函数。
然后，在main函数中，我们配置了MapReduce作业，并指定了输入和输出路径。
当作业运行时，MapReduce框架会自动调用map和reduce函数来处理数据，并输出最终的结果

3、总结

MapReduce作为一种分布式计算和数据处理模型，以其独特的原理和流程，为处理海量数据提供了一种高效、可靠的解决方案。

通过将数据处理任务分解为Map和Reduce两个阶段，并在分布式集群上并行执行，它能够充分利用集群的计算资源，处理大规模数据集。

在实际应用中，MapReduce在数据分析与统计、机器学习与数据挖掘、科学计算等众多领域都发挥了重要作用，帮助企业和科研机构从海量数据中挖掘有价值的信息，推动了各个领域的发展和创新。

随着大数据技术的不断发展，MapReduce算法也将继续演进和完善，为大数据处理和分析提供更加高效和智能的解决方案。

我是小鱼：

CSDN 博客专家；
阿里云专家博主；
51CTO博客专家；
企业认证金牌面试官；
多个名企认证&特邀讲师等；
名企签约职场面试培训、职场规划师；
多个国内主流技术社区的认证专家博主；
多款主流产品(阿里云等)评测一等奖获得者；

关注小鱼，学习【大数据算法】领域最新最全的领域知识。

原文地址：https://blog.csdn.net/wuyoudeyuer/article/details/143661007

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：大厂面试真题-说说同步IO异步IO以及BIO、NIO、AIO
下一篇：JSON-RPC-CXX深度解析：C++中的远程调用利器

[C++] 函数详解
今天zty带来的是函数的详解，搞了4个小时，大家给个赞呗，zty还要上学，发作品会少一点先赞后看养成习惯
阅读更多2024-11-13
青岛黄岛区，生产端，帮招1名海康VM资深机器视觉工程师，不需要独立开发，3年以上VM视觉经验，月薪15K+，责任制
青岛黄岛区，生产端，帮招1名海康VM资深机器视觉工程师，不需要独立开发，3年以上VM视觉经验，月薪15K+，责任制
阅读更多2024-11-13
RAG与知识库搭建，手把手教你构建RAG系统
自从发现可以利用自有数据来增强大语言模型（LLM）的能力以来，如何将 LLM 的通用知识与个人数据有效结合一直是热门话题。关于使用微调（fine-tuning）还是检索增强生成（RAG）来实现这一目标
阅读更多2024-11-13
Elasticsearch 和 Kibana 8.16：Kibana 获得上下文和 BBQ 速度并节省开支！
Elastic Search AI 平台（Elasticsearch、Kibana 和机器学习）的 8.16 版本包含大量新功能，可提高性能、优化工作流程和简化数据管理。深入了解这些更新和更多增强功能
阅读更多2024-11-13
PHP图书绘本借阅管理系统小程序源码
在这个信息爆炸的时代，培养孩子的阅读习惯，就是赋予他们一把打开知识大门的钥匙。图书绘本借阅管理系统，以其便捷、高效、个性化的服务，让阅读变得更加简单快乐。让我们一起，用阅读点亮孩子的童年，让这份宝贵的
阅读更多2024-11-13
基于Springboot+Vue的企业客源关系管理系统（含源码数据库）
管理员可以在后台管理服务信息、新闻资讯、销量订单、产品类型、轮播图、用户、服务类型、产品信息、管理员和客户信息等模块，具有新增、查看、修改、删除等操作权限。管理员可以在后台登录，不需要前台注册和登录。
阅读更多2024-11-13
纳米级二氧化硅溶液除硅
然而，在某些应用中，可能需要去除纳米级二氧化硅中的硅，这主要是为了调整材料的性能或满足特定的应用需求。纳米级二氧化硅的除硅过程可能是为了调整其性能以适应特定的应用需求，或是为了获得所需的纯度和特定的物
阅读更多2024-11-13
【linux】ab 的安装
Apache Bench（ab）是一个用于基准测试HTTP服务器的命令行工具，特别是那些运行在Apache HTTP服务器上的服务。它旨在测量服务器在处理请求时的性能，并提供有关服务器响应时间、吞吐量
阅读更多2024-11-13
qt QFrame详解
QFrame是Qt框架中用于提供框架或边框的控件，主要用于在图形用户界面（GUI）中创建框架，并提供各种边框样式和功能。它是Qt中一个基础的容器类，也是许多基础控件的基类，可以被QLCDNumber、
阅读更多2024-11-13
Spring Boot框架：构建可扩展的网上商城
网上商城系统的设计方案比如功能框架的设计，比如数据库的设计的好坏也就决定了该系统在开发层面是否高效，以及在系统维护层面是否容易维护和升级，因为在系统实现阶段是需要考虑用户的所有需求，要是在设计阶段没有
阅读更多2024-11-13