Spark RDD 操作实战

🕗 发布于 2024-05-25 13:47 spark 大数据

Spark RDD 基础

更多spark相关知识请查看官方接口文档

PySpark是Spark的PythonAPI，允许Python调用Spark编程模型。

配置spark环境

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q www-us.apache.org/dist/spark/spark-2.4.8/spark-2.4.8-bin-hadoop2.7.tgz  
!tar xf spark-2.4.8-bin-hadoop2.7.tgz
!pip install -q findspark

import os
os.environ["JAVA_HOME"]="/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"]="/content/spark-2.4.8-bin-hadoop2.7"

import findspark
findspark.init()

初始化Spark

SparkContext

from pyspark import SparkContext

sc = SparkContext(master = 'local[2]')

SparkContext信息获取

sc.version   #获取SparkContext版本

'2.4.8'

sc.pythonVer   #获取Python版本

'3.7'

sc.master   #要连接的MasterURL

'local[2]'

str(sc.sparkHome)   #Spark在工作节点的安装路径

'None'

str(sc.sparkUser())   #获取SparkContext的Spark用户名

'root'

sc.appName   #返回应用名称

'pyspark-shell'

sc.applicationId   #获取应用程序ID

'local-1623220140497'

sc.defaultParallelism   #返回默认并行级别

sc.defaultMinPartitions   #RDD默认最小分区数

配置

from pyspark import SparkConf, SparkContext

conf = (SparkConf() \
        .setMaster("local") \
        .setAppName("My app") \
        .set("spark.executor.memory", "1g"))

sc = SparkContext.getOrCreate(conf = conf)

使用Shell

PySpark Shell已经为SparkContext创建了名为 sc 的变量。

$./bin/spark-shell --master local[2]        #命令行启动spark

$./bin/pyspark --master local[4] --py-files code.py     #命令行提交spark脚本任务

用 --master 参数设定 Context 连接到哪个Master 务器，通过传递逗号分隔列表至 --py-files 添加 Python.zip、.egg 或 .py文件到 Runtime 路径。

加载数据

并行集合

rdd = sc.parallelize([('a',7),('a',2),('b',2)])

rdd2 = sc.parallelize([('a',2),('d',1),('b',1)])

rdd3 = sc.parallelize(range(100))

rdd4 = sc.parallelize([("a",["x","y","z"]), ("b",["p", "r"])])

外部数据

使用textFile()函数从HDFS、本地文件或其它支持Hadoop的文件系统里读取文本文件，或使用wholeTextFiles()函数读取目录里文本文件。

textFile = sc.textFile("/my/directory/*.txt")
# 如果是在google colab中可以运行下方代码
# textFile = sc.textFile("sample_data/california_housing_train.csv")

textFile2 = sc.wholeTextFiles("/my/directory/")
# 如果是在google colab中可以运行下方代码
# textFile2 = sc.wholeTextFiles("sample_data/")

提取RDD信息

基础信息

rdd.getNumPartitions()   #列出分区数

rdd.count()   #计算RDD实例数量

rdd.countByKey()   #按键计算RDD实例数量

defaultdict(int, {'a': 2, 'b': 1})

rdd.countByValue()   #按值计算RDD实例数量

defaultdict(int, {('a', 2): 1, ('a', 7): 1, ('b', 2): 1})

rdd.collectAsMap()   #以字典形式返回键值

{'a': 2, 'b': 2}

rdd3.sum()   #RDD元素求和

sc.parallelize([]).isEmpty()   #检查RDD是否为空

True

汇总

rdd3.max()   #RDD元素的最大值

rdd3.min()   #RDD元素的最小值

rdd3.mean()   #RDD元素的平均值

49.5

rdd3.stdev()   #RDD元素的标准差

28.86607004772212

rdd3.variance()   #RDD元素的方差

833.25

rdd3.histogram(3)   #分箱(Bin)生成直方图

([0, 33, 66, 99], [33, 33, 34])

rdd3.stats()   #综合统计包括：计数、平均值、标准差、最大值和最小值

(count: 100, mean: 49.5, stdev: 28.86607004772212, max: 99.0, min: 0.0)

应用函数

map与flatmap函数

rdd.map(lambda x: x+(x[1],x[0])).collect()   #对每个RDD元素执行函数

[('a', 7, 7, 'a'), ('a', 2, 2, 'a'), ('b', 2, 2, 'b')]

rdd5=rdd.flatMap(lambda x: x+(x[1],x[0]))   #对每个RDD元素执行函数，并拉平结果

rdd5.collect()

['a', 7, 7, 'a', 'a', 2, 2, 'a', 'b', 2, 2, 'b']

rdd4.flatMapValues(lambda x: x).collect()   #不改变键，对rdd4的每个键值对执行flatMap函数

[('a', 'x'), ('a', 'y'), ('a', 'z'), ('b', 'p'), ('b', 'r')]

选择数据

获取

rdd.collect()   #返回包含所有RDD元素的列表

[('a', 7), ('a', 2), ('b', 2)]

rdd.filter(lambda x: "a" in x) .collect()   #提取前两个RDD元素

[('a', 7), ('a', 2)]

rdd.first()   #提取第一个RDD元素

('a', 7)

rdd5.distinct().collect()   #提取前两个RDD元素

[2, 'b', 'a', 7]

抽样

rdd3.sample(False, 0.15, 81).collect()   #返回rdd3的采样子集

[3, 4, 27, 28, 35, 41, 43, 49, 51, 55, 64, 65, 66, 67, 85, 88, 89, 92]

筛选

 rdd.filter(lambda x: "a" in x) .collect()   #筛选RDD

[('a', 7), ('a', 2)]

rdd5.distinct().collect()   #返回RDD里的唯一值

[2, 'b', 'a', 7]

rdd.keys().collect()   #返回RDD键值对里的键

['a', 'a', 'b']

迭代

foreach函数迭代

def g(x):
    print(x)

rdd.foreach(g)   #为所有RDD应用函数

改变数据形状

Reduce操作

rdd.reduceByKey(lambda x,y : x+y).collect()   #合并每个键的RDD值

[('b', 2), ('a', 9)]

rdd.reduce(lambda a, b: a + b)   #合并RDD的值

('a', 7, 'a', 2, 'b', 2)

分组

# rdd3.groupBy(lambda x: x % 2).mapValues(list).collect()   #返回RDD的分组值

rdd.groupByKey().mapValues(list).collect()   #按键分组RDD

[('b', [2]), ('a', [7, 2])]

聚合

seqOp = (lambda x,y: (x[0]+y,x[1]+1))

combOp = (lambda x,y:(x[0]+y[0],x[1]+y[1]))

add = (lambda x,y:x+y)

rdd3.aggregate((0,0), seqOp, combOp)   #汇总每个分区里的RDD元素，并输出结果

(4950, 100)

rdd.aggregateByKey((0,0), seqOp, combOp).collect()   #汇总每个RDD的键的值

[('b', (2, 1)), ('a', (9, 2))]

rdd3.fold(0, add)   #汇总每个分区里的RDD元素，并输出结果

rdd.foldByKey(0, add).collect()   #合并每个键的值

[('b', 2), ('a', 9)]

# rdd3.keyBy(lambda x: x+x).collect()   #通过执行函数，创建RDD元素的元组

数学运算

RDD运算

rdd.subtract(rdd2).collect()   #返回在rdd2里没有匹配键的rdd键值对

[('b', 2), ('a', 7)]

rdd2.subtractByKey(rdd).collect()   #返回rdd2里的每个(键，值)对，rdd中没有匹配的键

[('d', 1)]

rdd.cartesian(rdd2).collect()   #返回rdd和rdd2的笛卡尔积

[(('a', 7), ('a', 2)),
 (('a', 7), ('d', 1)),
 (('a', 7), ('b', 1)),
 (('a', 2), ('a', 2)),
 (('b', 2), ('a', 2)),
 (('a', 2), ('d', 1)),
 (('a', 2), ('b', 1)),
 (('b', 2), ('d', 1)),
 (('b', 2), ('b', 1))]

排序

RDD排序

rdd2.sortBy(lambda x: x[1]).collect()   #按给定函数排序

[('d', 1), ('b', 1), ('a', 2)]

rdd2.sortByKey() .collect()   #RDD按键排序RDD的键值对

[('a', 2), ('b', 1), ('d', 1)]

重分区

repartition函数

rdd.repartition(4)   #新建一个含4个分区的RDD

MapPartitionsRDD[104] at coalesce at NativeMethodAccessorImpl.java:0

rdd.coalesce(1)   #将RDD中的分区数缩减为1个

CoalescedRDD[105] at coalesce at NativeMethodAccessorImpl.java:0

保存

存储RDD到本地或HDFS

rdd.saveAsTextFile("rdd.txt")

rdd.saveAsHadoopFile("hdfs://namenodehost/parent/child", 'org.apache.hadoop.mapred.TextOutputFormat')

终止SparkContext

停止SparkContext

sc.stop()

执行脚本程序

提交脚本执行

$./bin/spark-submit examples/src/main/python/pi.py

原文地址：https://blog.csdn.net/lyzsun8295/article/details/139096502

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Spark SQL 操作实战
下一篇：Spark 下载版本间的区别

【Flutter】基础入门：项目结构
Flutter 是一款用于开发跨平台应用的优秀框架。通过一次编写代码，Flutter 可以将应用部署到 Android、iOS、Web、Windows、Linux 和 macOS 等多个平台。作为 F
阅读更多2024-10-18
java的基础面板
FileDialog d1 = new FileDialog(frame, "选择需要加载的文件", FileDialog.LOAD);FileDialog d2 = new Fi
阅读更多2024-10-18
【数据结构之栈的应用—中缀表达式转后缀表达式、前缀表达式】
中缀表达式: 运算符位于两个操作数之间，例如A + B。后缀表达式: 运算符位于操作数之后，例如AB+。这种表示法也称为逆波兰表示法（RPN, Reverse Polish Notation）。前缀表
阅读更多2024-10-18
量化交易PTrade获取分时成交行情方法！get_tick_direction
query_date: 查询日期，默认为0，返回当日日期数据(目前行情只支持查询当日的数据，格式为YYYYMMDD)(int)；(OrderedDict([(),()...]))search_dire
阅读更多2024-10-18
2024年网络安全进阶手册：三个月黑客技术自学路线
网络安全可以基于攻击和防御视角来分类，我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。走安全行业的工程方向的，技术上面其实有很大的重叠
阅读更多2024-10-18
LeetCode 202.快乐数
用来进行解答，可以将其看做一个，当快慢指针相遇时，判断快慢指针是否为1(为1以后无论怎么取平方和都会为1)，如果为1就是快乐数，否则不是。
阅读更多2024-10-18
stable diffusion系列（1）------概述
讲最经典的DDPM。
阅读更多2024-10-18
设计模式学习
简单工厂模式-CSDN博客工厂模式～-CSDN博客抽象工厂模式-CSDN博客简单工厂和工厂模式的区别-CSDN博客工厂模式和抽象工厂的区
阅读更多2024-10-18
Nest.js 实战 (十四)：如何获取客户端真实 IP
这篇文章介绍了在Nest.js应用中获取客户端真实IP地址的问题及解决方法。问题出现在使用本地代理时，请求的IP地址总是返回::1或::ffff:127.0.0.1。为解决这个问题，需要确保代理服务器
阅读更多2024-10-18
限流是什么？如何限流？怎么限流？
上述方式使用RateLimiter的方式不够优雅，尽管我们可以把RateLimiter的逻辑包在service里面，controller直接调用即可，但是如果我们换成：自定义注解+切面的方式实现的话
阅读更多2024-10-18