RDD转换算子：分组聚合算子：【groupByKey、 reduceByKey】

🕗 发布于 2024-11-08 01:56 spark RDD算子转换算子 groupByKey reduceByKey

1、groupByKey：

功能：

对KV类型的RDD按照Key进行分组，相同K的Value放入一个集合列表中，返回一个新的RDD

语法：

RDD【K，V】.groupByKey => RDD【K, List[V]】

举例：

如何构造sc对象并创建RDD 参考文章：
【Spark中创建RDD的两种方式】Spark中如何获取sc对象、以及创建RDD的两种方式

rdd1 = sc.parallelize([("word", 10), ("word", 5), ("hello", 100), ("hello", 20), ("spark", 1)], numSlices=3)
rdd2 = rdd1.groupByKey()
# 输出结果：("word",List[10,5])  （"hellos",[100,20]）  ("spark",[1])
rdd2.foreach(lambda x: print(x[0], *x[1]))
# 其中 * 是打印 list 列表中的所有元素

2、reduceByKey：

功能：

对KV类型的RDD按照Key进行分组，并对相同Key的所有Value使用参数中的reduce函数进行聚合

语法：

def reduceByKey(self,f: (T,T) ->T,numPartitions,partitionFunction) ->RDD[Tuple[K,V]]

举例：

rdd1 = sc.parallelize([("word", 10), ("word", 5), ("hello", 100), ("hello", 20), ("spark", 1)], numSlices=3)
# 其中total是临时变量，记录的是value相加的值，num是每个value的值
rdd2 = rdd1.reduceByKey(lambda total,num: total + num)
# ("word",15)  （"hellos",120）  ("spark",1)
rdd2.foreach(lambda x: print(x[0], x[1]))

原文地址：https://blog.csdn.net/lzhlizihang/article/details/143492042

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【记录分享】多任务黑客攻击仿真模拟器
下一篇：运维高可用架构设计

不愧是阿里巴巴最新开源的Java面试笔记，30万字精华总结 + 面试1300问附答案整理
作为一个 Java 程序员，你平时总是陷在业务开发里，每天噼里啪啦忙敲着代码，上到系统开发，下到 Bug 修改，你感觉自己无所不能。然而偶尔的一次聚会，你听说和自己一起出道的同学早已经年薪 50 万，
阅读更多2024-11-08
Java | Leetcode Java题解之第538题把二叉搜索树转换为累加树
Java | Leetcode Java题解之第538题把二叉搜索树转换为累加树
阅读更多2024-11-08
leetcode哈希表（四）-快乐数
编写一个算法来判断一个数n是不是快乐数。如果n是快乐数就返回true；不是，则返回false。
阅读更多2024-11-08
netstat中sendq/recvq用于排查发送端发送数据的问题
以上接着查看发送端的网络问题发现延迟这些都正常，并且发送端使用syslog udp发送也是没问题的，所以判断为接收端问题，接收端处理太慢导致的，如此答复web同事后。web端最后排查是他们自身的问题。
阅读更多2024-11-08
10.桥接模式设计思想
本文介绍了桥接模式的设计思想和实现方法。桥接模式通过将抽象部分与实现部分分离，使它们可以独立变化，解决了多层继承带来的复杂性和耦合性问题。文章详细讲解了桥接模式的由来、定义、应用场景和实现步骤，并通过
阅读更多2024-11-08
苹果前面是什么？苹果签名的作用是什么？
我们先来讲一讲用的最广泛的企业签名，企业签名就是使用企业开发者账号给app进行签名，它的优势在于它对app的类型是没有限制的，而且它的下载数量也是没有限制的，这对于app开发者来说是非常便利的，这也就
阅读更多2024-11-08
celery在django项目中实现并发任务和定时任务
确保你能看到 Worker 的日志输出，以验证任务是否成功执行。启动 Celery Worker 和 Beat 在命令行中，启动 Celery Worker 和 Beat。设置定时任务使用 Cel
阅读更多2024-11-08
313页电力集团大数据应用支撑平台技术支撑服务项目技术投标方案
▲关注智慧方案文库，学习9000多份最新解决方案，其中 PPT、WORD超过7000多份，覆盖智慧城市多数领域的深度知识社区，稳定更新4年，日积月累，更懂行业需求。版权声明：本资讯内容、资料来源，均
阅读更多2024-11-08
Spring Cloud微服务：构建弹性、可扩展的分布式系统
Spring Cloud通过其丰富的工具和框架，帮助开发者快速构建弹性、可扩展的分布式系统。通过掌握Spring Cloud的核心概念和常见组件，你将能够构建高效、安全的微服务架构，推动企业实现数字化
阅读更多2024-11-08
TCP：确认机制、重传以及选择性确认（SACK）
数据包13023是主机A向主机B发送的一个纯ACK报文，确认已成功接收到主机B发送的序列号1至47110的数据，窗口大小为63802字节。
阅读更多2024-11-08

RDD转换算子：分组聚合算子：【groupByKey、 reduceByKey】

1、groupByKey：

功能：

语法：

举例：

2、reduceByKey：

功能：

语法：

相关文章