RDD转换算子：【mapValues、mapPartitions】

🕗 发布于 2024-11-07 17:02 spark RDD RDD转换算子

文章目录

1、mapValues算子

功能

针对二元组KV类型的RDD，对RDD中每个元素的Value进行map处理，结果放入一个新的RDD中

语法

def mapValues(self: RDD[Tuple[K,V]], f: (V) -> U) -> RDD[Tuple[K,U]]

举例

如何构造sc对象并创建RDD 参考文章：
【Spark中创建RDD的两种方式】Spark中如何获取sc对象、以及创建RDD的两种方式

rdd_kv = sc.parallelize([('laoda',11),('laoer',22),('laosan',33),('laosi',44)], numSlices=2)
# 拿到年龄，并加一
rsRdd = rdd_kv.mapValues(lambda age: age + 1)
rsRdd.foreach(lambda x:print(x))

2、mapPartitions算子

功能

对RDD每个分区的数据进行操作，将每个分区的数据进行map转换，将转换的结果放入新的RDD中

与 map 的区别：每个分区会调用一次（一个分区一个分区的数据进行处理，而map是一条一条数据进行处理），将这个分区的数据放入内存，性能比map更好，优化型算子，注意更容易出现内存溢出

语法

def mapPartitions(self: RDD[T], f: Iterable[T] -> Iterable[U] ) -> RDD[U]

优点：性能快、节省外部连接资源
缺点：如果单个分区的数据量较大，容易出现内存溢出
场景：
数据量不是特别大，需要提高性能【将整个分区的数据放入内存】
需要构建外部资源时【基于每个分区构建一份资源】

举例

# 使用mapPartitions：对每个分区进行处理
def map_partition(part):
    rs = [i * 2 for i in part]
    return rs

# 每个分区会调用一次：将这个分区的数据放入内存，性能比map更好，优化型算子，注意更容易出现内存溢出
map_part_rdd = input_rdd.mapPartitions(lambda part: map_partition(part))

原文地址：https://blog.csdn.net/lzhlizihang/article/details/143577611

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【测试大挑战】20K+的基础面试题真的好简单
下一篇：Spring Boot 与 Vue 共筑餐厅信息卓越管理平台

浏览器内置对象XMLHttpRequest
XMLHttpRequest 是浏览器提供的一个强大工具，使得开发者可以在不刷新页面的情况下，与服务器进行数据交互。它支持多种数据格式，并且以异步方式工作，极大地增强了 Web 应用的交互性和响应性。
阅读更多2024-11-08
Ubuntu使用Qt虚拟键盘，支持中英文切换
最近领导给了个需求，希望将web嵌入到客户端里面，做一个客户端外壳，可以控制程序的启动、停止、重启，并且可以调出键盘在触摸屏上使用(我们的程序虽然是BS架构，但程序还是运行在本地工控机上的)，我研
阅读更多2024-11-08
C++数据类型
C++定义了算数类型和空类型在内的基本数据类型。空类型不对应具体的值，仅用在特殊场合，如：函数返回值。
阅读更多2024-11-08
【JS】字符串方法速览
返回字符串中指定索引的字符 unicode 编码。方法搜索特定值的字符串，并返回匹配的位置。返回字符串中指定下标（位置）的字符串。未完，有空再更~~~~~~~
阅读更多2024-11-08
第二十六章 Vue之在当前组件范围内获取dom元素和组件实例
我们过去在想要获取一个dom元素的时候，一般会使用到document.querySelector('class样式')这种全页面范围的查找方式。如果在页面比较复杂（如有多个组件且可能存在相同样式）的情
阅读更多2024-11-08
STL标准模板库详解-1
STL分为容器、迭代器、算法、函数对象和适配器等；容器：存储数据的序列。
阅读更多2024-11-08
C#笔记 —— 事件
访问修饰符 + event + 委托类型 + 事件名；例： public event Action myEvent;
阅读更多2024-11-08
【C++】socket套接字编程
IP 地址的意义就是标识公网内唯一一台主机。传输层协议（TCP 和 UDP）的数据段中也有两个端口号, 分别叫做源端口号和目的端口号.，它们描述 “数据是那个进程发送的, 要发给另外那个进程”。
阅读更多2024-11-08
tomato靶机
如果allow_url_fopen和allow_url_include同时是On状态，同时开着那就是远程文件上传包含漏洞。allow_url_fopen是On状态，打开着有可能是文件包含漏洞，而且是本
阅读更多2024-11-08
IP协议知识点总结
IP协议主要分为三个每个网络上的设备, 要能分配一个的地址小A 给小B 发消息, 具体应该IP 地址. 本质上是一个位的整数通常将, 32 位的整数使用点分十进制来表示, 如 192.168.1.1一
阅读更多2024-11-08

RDD转换算子：【mapValues、mapPartitions】

文章目录

1、mapValues算子

功能

语法

举例

2、mapPartitions算子

功能

语法

举例

相关文章