python从入门到精通：pyspark实战分析

🕗 发布于 2024-11-22 10:47 python 开发语言 数据结构 spark json

前言

spark：Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。简单来说，Spark是一款分布式的计算框架，用于调度成本上千的服务器集群，计算TB、PB乃至EB级别的海量数据。

同时Spark作为全球顶级的分布式计算框架，支持众多编程语言进行开发。而python语言，则是Spark重点支持的方向。

Spark对python语言的支持，重点体现在python第三方库：pyspark上。pyspark是由Spark官方开发的python语言第三方库。python开发者可以使用pip程序快速安装pyspark并像其他三方库那样直接使用。

pyspark的两种用法：

1、作为python库进行数据处理

2、提交至spark集群进行分布式集群计算

1、基础准备

pyspark库的安装：

在终端输入：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

构建pyspark执行环境入口对象：

想要使用pyspark库完成数据处理，首先需要构建一个执行环境入口对象。pyspark的执行环境入口对象是：类 SparkContext 的类对象

# 导包
from pyspark import SparkConf,SparkContext
# 创建SparkConf类对象
conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
#基于sparkconf类对象创建sparkcontext类对象
sc = SparkContext(conf=conf)
# 打印pyspark的运行版本
print(sc.version)
# 停止sparkcontext对象的运行（停止程序）
sc.stop()

在这需要注意的是，我们需要配置环境，具体可以看这篇文章：链接

pyspark的编程模型：SparkContext类对象，是pyspark编程中一切功能的入口。pyspark的编程，主要有如下三大步骤：

1、数据输入：通过SparkContext类对象的成员方法，完成数据的读取操作，读取后得到RDD类对象

2、数据处理计算：通过RDD类对象的成员方法完成各种数据计算的需求

3、数据输出：将处理完成后的RDD对象调用各种成员方法完成写出文件、转化为list等操作。

2、数据输入

RDD对象：如图可见，pyspark支持对中数据的输入，再输入完成后，都会得到一个：RDD类对象。RDD全称为：弹性分布式数据集（Resilient Distributed Datasets）。

pyspark针对数据的处理，都是以RDD对象作为载体，即：

数据存储在RDD内

各类数据的计算方法，也都是RDD的成员方法

RDD的数据计算方法，返回值依旧是RDD对象

pyspark支持通过SparkContext对象的parallelize成员方法，将：list、tuple、dict、set、str转换为pyspark的RDD类对象。

from pyspark import SparkContext,SparkConf
conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
sc = SparkContext(conf=conf)
rdd1 = sc.parallelize([1,2,3,4,5])
rdd2 = sc.parallelize((1,2,3,4,5))
rdd3 = sc.parallelize("abcdef")
rdd4 = sc.parallelize({1,2,3,4,5})
rdd5 = sc.parallelize({"name":"xiaodu","age":23})
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())
sc.stop()

注意：字符串会被拆分为一个个的字符，存入RDD对象；字典仅有key会被存入RDD对象。

读取文件转RDD对象：

pyspark也支持SparkContext入口对象，来读取文件，构建出RDD对象。

# 读取文件数据输出
from pyspark import SparkContext,SparkConf
conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
sc = SparkContext(conf=conf)
rdd = sc.textFile("test.txt")
print(rdd.collect())
sc.stop()

3、数据计算

pyspark的数据计算，都是基于RDD对象来进行的，我们这里列举几个常用数据计算的常用的成员方法（算子）。

3.1、map方法

功能：map算子，是将RDD的数据一条条处理（处理的逻辑基于map算子中接收的处理函数），返回新的RDD。

rdd.map(func)

# func: f:(T) -> U

# (T) -> U 表示的是方法的定义:

# ( ) 表示传入参数，(T) 表示传入1个参数, () 表示没有传入参数

# T 是泛型的代称，在这里表示任意类型

# U 也是泛型的代称，在这里表示任意类型

# -> U 表示返回值

# (T) -> U 总结起来的意思是：这是一个方法，这个方法接受一个参数传入，传入参数类型不限。返回一个返回值，返回值类型不限。

# (A) -> A 总结起来的意思是：这是一个方法，这个方法接受一个参数传入，传入参数类型不限。返回一个返回值，返回值和传入参数类型一致。

from pyspark import SparkContext,SparkConf
import os
os.environ['PYSPARK_PYTHON'] = "D:/python学习/python/python.exe"
# spark可能会找不到python解释器，所以我们需要加上上面这句话
conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
sc = SparkContext(conf=conf)
rdd = sc.parallelize([1,2,3,4,5,6,7,8,9])
# 通过map方法将全部数据都乘以10加1
rdd1= rdd.map(lambda x: x * 10 +1)
print(rdd1.collect())
sc.stop()

需要注意的是：我们python解释器的版本不能过高，如果过高会出现：Python worker exited unexpectedly (crashed)的Bug，需要降低python解释器版本。

3.2、flatMap方法

功能：对rdd执行map操作，然后进行解除嵌套的操作

# flatMap方法
from pyspark import SparkContext,SparkConf
import os
os.environ['PYSPARK_PYTHON'] = "D:/python学习/python/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
sc = SparkContext(conf=conf)
rdd = sc.parallelize(["hehe" "halou" "nihao","python pyspark java","C C++ C#"])
rdd1 = rdd.flatMap(lambda x: x.split())
print(rdd1.collect())
sc.stop()

3.3、reduceByKey方法

功能：针对KV型（二元元组）RDD，自动按照key分组，然后根据提供的聚合逻辑，完成组内数据（value）的聚合操作。

rdd.reduceByKey(func):

# func: (V,V) -> V

# 接受两个传入参数（类型要一致），返回一个返回值，类型和传入要求一致。

# reduceByKey方法
from pyspark import SparkContext,SparkConf
import os
os.environ['PYSPARK_PYTHON'] = "D:/python学习/python/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
sc = SparkContext(conf=conf)
rdd = sc.parallelize(("a",1),("a",1),("b",2),("b",1))
rdd1 = rdd.reduceByKey(lambda x,y:x+y)
print(rdd1.collect())
sc.stop()
# 结果：[('b',3),('a',2)]

案例1：使用上面一系列算子，统计文件"test.txt"文件中单词出现数量

from pyspark import SparkContext,SparkConf
import os
os.environ['PYSPARK_PYTHON'] = "D:/python学习/python/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
sc = SparkContext(conf=conf)
rdd = sc.textFile("test.txt")
rdd1 = rdd.flatMap(lambda line: line.split(",")).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
print(rdd.collect())
sc.stop()

3.4、filter方法

功能：过滤想要的数据进行保留

rdd.filter(func)

# func: (T) -> bool 传入一个任意类型的参数，返回值是布尔类型

返回值是True的数据被保留，False的数据被丢弃

from pyspark import SparkContext,SparkConf
import os
os.environ['PYSPARK_PYTHON'] = "D:/python学习/python/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
sc = SparkContext(conf=conf)
rdd = sc.parallelize([1,2,3,4,5])
# 保留偶数，丢弃奇数
def func(data):
    if data % 2 == 0:
        return True
rdd1 = rdd.filter(func)
rdd2 = rdd.filter(lambda x: x % 2 == 0)
print(rdd1.collect())
print(rdd2.collect())
sc.stop()

3.5、distinct方法

功能：对RDD数据进行去重，返回新的RDD

rdd.distinct() 无需传参

from pyspark import SparkContext,SparkConf
import os
os.environ['PYSPARK_PYTHON'] = "D:/python学习/python/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
sc = SparkContext(conf=conf)
rdd = sc.parallelize([1,2,2,3,3,4,5,5])
rdd1 = rdd.distinct()
print(rdd1.collect())
sc.stop()
# 结果为：[1,2,3,4,5]

3.6、sortBy方法

功能：对RDD数据进行排序，基于直盯盯地排序顺序

rdd.sortBy(func,ascending=False,numPartitions=1)

# func: (T) -> U: 告知按照rdd中的那个顺序进行排序，比如 lambda x: x[1]

# ascending True表示升序，False表示降序

# numPartitions：用多少分区排序

from pyspark import SparkContext,SparkConf
import os
os.environ['PYSPARK_PYTHON'] = "D:/python学习/python/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
sc = SparkContext(conf=conf)
rdd = sc.parallelize([("haha",1),("hehe",3),("python",4),("spark",2)])
rdd1 = rdd.sortBy(lambda x:x[1],ascending=False,numPartitions=1) # 按照降序进行排序
print(rdd1.collect())
sc.stop()

4、数据输出

4.1、输出为python对象

collect算子，功能：将RDD个各个分区内的数据，同意收集到Driver，形成一个list对象

rdd.collect()

# 返回值是一个list

from pyspark import SparkConf,SparkContext
import os
os.environ['PYSPARK_PYTHON'] = "D:/python学习/python/python.exe"
conf =SparkConf().setMaster("local[*]").setAppName("pyspark_test")
sc = SparkContext(conf=conf)
rdd = sc.parallelize([1,2,3,4,5])
print(rdd.collect())
print(type(rdd.collect()))
sc.stop()

reduce算子，功能：对RDD数据集按照传入的逻辑进行聚合（有点类似于reduceByKey，但reduce只聚合并不会对key进行分组）。

rdd.reduce(func)

# func: (T,T) -> T

# 两个参数传入一个返回值，返回值和参数要求类型一致

from pyspark import SparkConf,SparkContext
import os
os.environ['PYSPARK_PYTHON'] = "D:/python学习/python/python.exe"
conf =SparkConf().setMaster("local[*]").setAppName("pyspark_test")
sc = SparkContext(conf=conf)
rdd = sc.parallelize([1,2,3,4,5])
print(rdd.reduce(lambda x,y:x+y))
sc.stop()

take算子，功能：取RDD的前N个元素，组合成list返回给你。

# 比如：sc.parallelize([1,2,3,4,5,6]).take(5)

# 结果为：[1,2,3,4,5]

from pyspark import SparkConf,SparkContext
import os
os.environ['PYSPARK_PYTHON'] = "D:/python学习/python/python.exe"
conf =SparkConf().setMaster("local[*]").setAppName("pyspark_test")
sc = SparkContext(conf=conf)
rdd = sc.parallelize([1,2,3,4,5])
take_rdd = rdd.take(3)
print(rdd.collect())
sc.stop()

count算子，功能：计算RDD有多少条数据，返回值是一个数字

sc.parallelize([1,2,3,4,5]).count()

# 结果为：6

from pyspark import SparkConf,SparkContext
import os
os.environ['PYSPARK_PYTHON'] = "D:/python学习/python/python.exe"
conf =SparkConf().setMaster("local[*]").setAppName("pyspark_test")
sc = SparkContext(conf=conf)
rdd = sc.parallelize([1,2,3,4,5])
num_rdd=rdd.count()
print(f"rdd中元素的数量为{num_rdd}")
sc.stop()

4.2、输出到文件

saveAsTextFile算子，功能：将RDD的数据写入文本文件中，支持本地写出，hdfs等文件系统。

from pyspark import SparkConf,SparkContext
import os
os.environ['PYSPARK_PYTHON'] = "D:/python学习/python/python.exe"
os.environ['HADOOP_HOME'] = "D:/hadoop/hadoop.tar/hadoop-3.0.0/hadoop-3.0.0"
conf =SparkConf().setMaster("local[*]").setAppName("pyspark_test")
sc = SparkContext(conf=conf)
rdd1 = sc.parallelize([1,2,3,4,5])
rdd2 = sc.parallelize([("hello",3),("spark",5),("hi",7)])
rdd3 = sc.parallelize([[1,2,3],[2,4,5],[5,7,9]])
# 输出到文件
rdd1.saveAsTextFile("D:/python学习/python_study/pythonProject/output1")
rdd2.saveAsTextFile("D:/python学习/python_study/pythonProject/output2")
rdd3.saveAsTextFile("D:/python学习/python_study/pythonProject/output3")

这里需要安装Hadoop，并配置环境，但具体如何配置环境就不在这里细说了：

Hadoop：hhttp://archive.apache.org/dist/hadoop/common/hadoop-3.0.0/hadoop-3.0.0.tar.gz winutils.exe：https://raw.githubusercontent.com/steveloughran/winutils/master/hadoop-3.0.0/bin/winutils.exe
hadoop.dllhttps://raw.githubusercontent.com/steveloughran/winutils/master/hadoop-3.0.0/bin/hadoop.dll

修改rdd分区为1个：

方式1，SparkConf对象设置属性全局并行度为1：

conf = SparkConf().setMaster("local[*]'"),setAppName("test_spark")

conf.set("spark.default.parallelism","1")

sc = SparkConText(conf=conf)

方式2，创建RDD对象的时候设置（parallelize方法传入numSlices的参数为1）

rdd1 = sc.parallelize([1,2,3,4,5],numSlices=1)

rdd2 = sc.parallelize([1,2,3,4,5],1)

原文地址：https://blog.csdn.net/2401_83283514/article/details/143869517

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：开源且免费的安卓(Android)密码管理器，优先考虑您的隐私
下一篇：uniapp rpx兼容平板

【计算机网络】水平触发与边缘触发有什么优缺点呢？
我们在平时的开发过程中，经常会遇到水平触发与边缘触发这两种IO机制的选择，常常会比较难选择。定义：优点：减少通知次数：高效性：适合高性能场景：缺点：需要完全处理事件：复杂性增加：调试困难：定义：优点：
阅读更多2024-11-23
【HarmonyOS Next】鸿蒙实用装饰器一览(一)
装饰器是现代js一个很重要(尚未成熟)的特性，TS4.9开始对装饰器的Stage 3支持，并在TS5.0中发布了装饰器规范的完整版本。ArkTS[2]在TS生态基础上做了进一步扩展，保持了TS的基本风
阅读更多2024-11-23
＜C++＞ unordered_map、unordered_set模拟实现
模拟实现过STL版的map、set之后，我们再来模拟实现STL版的unordered_map、unordered_set，相较于上一次模拟实现，这次的封装又稍微复杂了一些。先写哈希表，测试map、se
阅读更多2024-11-23
PHP导出EXCEL含合计行，设置单元格格式
PHP导出EXCEL含合计行，设置单元格格式，水平居中垂直居中。
阅读更多2024-11-23
unity li2cpp逆向原理是什么？
主要涉及将Unity游戏引擎中的C#代码转换为C++代码，并进一步编译为各平台的原生（Native）代码的过程，以及逆向工程工具如何利用这一过程中的特定文件来还原和分析原始代码。
阅读更多2024-11-23
Docker+fastapi
COPY 拷贝指令，这里的. 表示为当前dockerfile所在目录下的所有文件拷贝到工作目录/home/MicroServices下。WORKDIR 在docker内建立的工作目录，这里是在/ho
阅读更多2024-11-23
ChatGPT 与其他 AI 技术在短视频营销中的技术应用与协同策略
随着技术的不断发展与创新，短视频营销者应积极探索并整合 AI 技术，充分发挥其优势，以在竞争激烈的市场环境中实现高效、精准且富有创意的营销目标，满足消费者日益多样化与个性化的需求，推动短视频营销领域不
阅读更多2024-11-23
解锁 ChatGPT 超强交互：超级提示词的魔力
反之，若你不同意，ChatGPT 会询问你想要移除哪些角色，剔除这些角色后，保留包括 ChatGPT 提示词工程师角色在内的其余角色，然后继续下一步。若你表示同意，它会询问你所需参考源的数量。接着，基
阅读更多2024-11-23
postman 最强内置函数使用集合
库可让您使用预定义变量在 Postman 中生成示例数据。使用这些变量就像使用 Postman 中的任何其他变量一样。它们的值是在执行时生成的，其名称以符号开头。以下是动态变量的列表，其值是在请求/收
阅读更多2024-11-23
BY组态-低代码web可视化组件
BY组态是集实时数据展示、动态交互等一体的全功能可视化平台。帮助物联网、工业互联网、电力能源、水利工程、智慧农业、智慧医疗、智慧城市等场景快速实现数字孪生、大屏可视化、Web组态、SCADA等解决方案
阅读更多2024-11-23