自学内容网 自学内容网

RDD转换算子:【union 和 distinct】

1、union算子

功能:

实现两个RDD中数据的合并

语法:

def union(self,other:RDD[U]) -> RDD[T/U]

举例:

需求:
合并两个集合 [1, 2, 3, 4, 5, 6, 7, 8] 和 [5, 6, 7, 8, 9, 10]

如何构造sc对象并创建RDD 参考文章:
【Spark中创建RDD的两种方式】Spark中如何获取sc对象、以及创建RDD的两种方式

代码:

list1 = [1, 2, 3, 4, 5, 6, 7, 8]
list2 = [5, 6, 7, 8, 9, 10]
rdd1 = sc.parallelize(list1,2)
rdd2 = sc.parallelize(list2,2)
rdd3 = rdd1.union(rdd2)

2、distinct算子

功能:

实现对RDD元素的去重

语法:

def distinct(self) -> RDD[T]

举例:

需求:
将集合中重复的元素去除

list1 = [1, 2, 3, 4, 5, 6, 7, 8, 5, 6, 7, 8, 9, 10]
rdd1 = sc.parallelize(list1,2)
rdd2 = rdd1.distinct()

原文地址:https://blog.csdn.net/lzhlizihang/article/details/143491951

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!