RDD转换算子:【union 和 distinct】
1、union算子
功能:
实现两个RDD中数据的合并
语法:
def union(self,other:RDD[U]) -> RDD[T/U]
举例:
需求:
合并两个集合 [1, 2, 3, 4, 5, 6, 7, 8] 和 [5, 6, 7, 8, 9, 10]
如何构造sc对象并创建RDD 参考文章:
【Spark中创建RDD的两种方式】Spark中如何获取sc对象、以及创建RDD的两种方式
代码:
list1 = [1, 2, 3, 4, 5, 6, 7, 8]
list2 = [5, 6, 7, 8, 9, 10]
rdd1 = sc.parallelize(list1,2)
rdd2 = sc.parallelize(list2,2)
rdd3 = rdd1.union(rdd2)
2、distinct算子
功能:
实现对RDD元素的去重
语法:
def distinct(self) -> RDD[T]
举例:
需求:
将集合中重复的元素去除
list1 = [1, 2, 3, 4, 5, 6, 7, 8, 5, 6, 7, 8, 9, 10]
rdd1 = sc.parallelize(list1,2)
rdd2 = rdd1.distinct()
原文地址:https://blog.csdn.net/lzhlizihang/article/details/143491951
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!