RDD触发算子:一些常用的触发算子(count、foreach、saveAsTextFile、first)
1、count算子
功能
统计RDD集合中元素的个数,返回一个int值
语法
def count(self) -> int
2、foreach算子
功能
对RDD中每个元素调用一次参数中的函数,没有返回值【与map场景上的区别】
语法
def map(self , f: T -> U ) -> None
3、saveAsTextFile算子
功能
用于将RDD的数据保存到外部文件系统中
语法
def saveAsTextFile(self , path ) -> None
4、first算子
功能
返回RDD集合中的第一个元素【RDD有多个分区,返回的是第一个分区的第一个元素】
语法
def first(self) -> T
举例
如何构造sc对象并创建RDD 参考文章:
【Spark中创建RDD的两种方式】Spark中如何获取sc对象、以及创建RDD的两种方式
rdd1 = sc.parallelize([1,2,3,4,5,6,7,8,9],numSlices=3)
print(rdd1.first()) # 输出结果为 1
原文地址:https://blog.csdn.net/lzhlizihang/article/details/143863084
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!