Python学习从0到1 day26 第三阶段 Spark ④ 数据输出

🕗 发布于 2024-11-11 15:30 学习

半山腰太挤了，你该去山顶看看

—— 24.11.10

一、输出为python对象

1.collect算子

功能:

将RDD各个分区内的数据，统一收集到Driver中，形成一个List对象

语法：

rdd.collect()

返回值是一个list列表

示例：

from pyspark import SparkConf,SparkContext
import os

conf = SparkConf().setMaster("local").setAppName("test_spark")
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"
sc = SparkContext(conf = conf)

Set = {"小明","小红","小强"}
Tuple = ("小明","小红","小强")

set_rdd = sc.parallelize(Set)
tuple_rdd = sc.parallelize(Tuple)

print(set_rdd.collect())
print(tuple_rdd.collect())

2.reduce算子

功能:

对RDD数据集按照你传入的逻辑进行聚合

语法:

rdd.reduce(func)

rdd = sc.parallelize(range(1 , 10))
# 将rdd的数据进行累加求和
print(rdd.reduce(lambda a , b : a + b))

返回值等同于计算函数的返回值

示例：

from pyspark import SparkContext,SparkConf
import os
import json

os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"

conf = SparkConf().setMaster("local").setAppName("test_spark")
sc = SparkContext(conf = conf)

List = [1,2,3,4,5,6,7,8,9]
rdd = sc.parallelize(List)
print(rdd.reduce(lambda x, y : x + y))

3.take算子

功能：

取RDD的前N个元素，组合成list返回

语法：

sc.parallelize([3,2,1,4,5,6]).take(5)    # [3，2，1，4，5]

返回前n个元素组成的list

示例：

from pyspark import SparkContext,SparkConf
import os
import json

os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)
List = (1,2,3,4,5,6,7,8,9)
rdd = sc.parallelize(List)
res = rdd.take(4)
print("前四个元素为："+res)

4.count算子

功能：

计算RDD有多少条数据

语法：

sc.parallelize([3,2,1,4,5,6]).count()

返回值是一个数字

示例：

from pyspark import SparkConf,SparkContext
import os
import json

os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)

rdd = sc.parallelize(["yyh","hl","grq","zxj","cby","wfe","mrr","qjy"])
print(rdd.count())

二、输出到文件中

1.saveAsTextFile算子

功能：

将RDD的数据写入文本文件中

支持本地写出、 hdfs等文件系统

语法：

rdd = sc.parallelize([1，2，3，4，5])
rdd.saveAsTextFile("../data/output/test.txt")

2.配置Hadoop相关依赖

调用保存文件的算子，需要配置Hadoop依赖

① 下载Hadoop安装包

http://archive.apache.org/dist/hadoop/common/hadoop-3.0.0/hadoop-3.0.0.tar.gz

② 解压到电脑任意位置

③ 在Python代码中使用os模块配置:

os.environ['HADOOP HOME']='HADOOP解压文件夹路径'
E:\python.learning\hadoop分布式相关\hadoop-3.0.0

④ 下载winutils.exe,并放入Hadoop解压文件夹的bin目录内

https://raw.githubusercontent.com/steveloughran/winutils/master/hadoop-3.0.0/bin/winutils.exe

⑤ 下载hadoop.dll,并放入:C:/Windows/System32 文件夹内

https://raw.githubusercontent.com/steveloughran/winutils/master/hadoop-3.0.0/bin/hadoop.dll

3.代码示例

from pyspark import SparkConf,SparkContext
import os

conf = SparkConf().setMaster("local").setAppName("test_spark")
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"
sc = SparkContext(conf = conf)

# 准备RDD1
rdd1 = sc.parallelize([1,2,3,4,5])

# 准备RDD2
rdd2 = sc.parallelize([("Hello, 3"),("Spark", 5),("Hi", 7)])

# 准备RDD3
rdd3 = sc.parallelize([[1, 3, 5],[6, 7, 9],[11, 13, 11]])

# 输出到文件中
rdd1.saveAsTextFile("E:\python.learning\hadoop分布式相关\data\output1/rdd1")
rdd2.saveAsTextFile("E:\python.learning\hadoop分布式相关\data\output2/rdd2")
rdd3.saveAsTextFile("E:\python.learning\hadoop分布式相关\data\output3/rdd3")

注：如果输出路径的文件存在，代码将会报错

4.运行结果

创建几个文件取决于Hadoop上的分区数量

解决方式：修改rdd的分区

5.修改rdd分区为1个

方式1

Sparkconf对象设置属性全局并行度为1：

from pyspark import SparkConf, SparkContext
import os
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"
os.environ['HADOOP_HOME'] = "E:\python.learning\hadoop分布式相关\hadoop-3.0.0"
conf = SparkConf().setMaster("local").setAppName("test_spark")
conf.set("spark.default.parallelize", "1")
sc = SparkContext(conf = conf)

# 准备RDD1
rdd1 = sc.parallelize([1,2,3,4,5])

# 准备RDD2
rdd2 = sc.parallelize([("Hello, 3"),("Spark", 5),("Hi", 7)])

# 准备RDD3
rdd3 = sc.parallelize([[1, 3, 5],[6, 7, 9],[11, 13, 11]])

# 输出到文件中
rdd1.saveAsTextFile("E:\python.learning\hadoop分布式相关\data\output1/rdd1")
rdd2.saveAsTextFile("E:\python.learning\hadoop分布式相关\data\output2/rdd2")
rdd3.saveAsTextFile("E:\python.learning\hadoop分布式相关\data\output3/rdd3")

方式2

创建RDD的时候设置 parallelize方法传入numSlices参数为1：

rdd1 = sc.parallelize([1,2,3,4,5],1)

原文地址：https://blog.csdn.net/m0_73983707/article/details/143651081

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Hive 查询用户连续三天登录的所有记录
下一篇：数据库存储加密技术，及实施困难和挑战

《FreeRTOS任务基础知识篇》
FreeRTOS任务基础知识。
阅读更多2024-11-15
智谱AI清影升级:引领AI视频进入音效新时代
拟人虎，动物时尚秀，全身，穿着时尚的衣服和精美配饰，拟人化，高端设计风格，苗条的身体，正面，冷酷而高贵，米兰时装秀，动态捕捉T台秀，面对相机，全景镜头，栩栩如生，正在走秀，豪华的T台背景，极精细，广角
阅读更多2024-11-15
安全见闻 -- 量子计算
总之，量子计算安全是一个复杂领域，需要综合运行物理学、计算机科学、密码学等多学科知识进行学习和研究。通过了解漏洞风险并采用适当的测试方法，可以更好地保障量子信息系统的安全。
阅读更多2024-11-15
DVWA靶场通关——SQL Injection篇
该PHP代码的主要功能是根据用户提供的id参数，从数据库中查询对应的用户信息（包括first_name和last_name），并将查询结果显示给用户。在第二段代码中，$id 变量同样从 $_POST
阅读更多2024-11-15
如何解决“无法在 ‘HTMLElement‘ 上设置 ‘innerText‘ 属性”的问题
类型断言：将元素断言为支持innerText的类型。使用：一个更兼容的文本内容设置方法。类型检查：利用instanceof确保类型正确后再操作。：直接创建并插入文本节点，适合动态内容插入。以上四种方法
阅读更多2024-11-15
API 数据处理与 SQL 批量更新技巧：CASE 语句优化操作指南
在现代应用程序开发中，数据处理和数据库操作是不可或缺的一部分。特别是在处理大量数据时，如何高效地更新数据库记录成为了关键问题。本文将对比两种常见的数据库更新方法：一种是使用CASE语句进行批量更新，另
阅读更多2024-11-15
如何解决JAVA程序通过obloader并发导数导致系统夯住的问题 | OceanBase 运维实践
在并发导数据到OceanBase的场景，系统出现大量obloader 进程，应用java 程序夯住不可用，最终导致容器OOM重启。本文介绍了整个案例的问题排查过程，以及相应的解决方案。
阅读更多2024-11-15
区块链智能合约开发：全面解析与实践指南
尽管智能合约的开发面临一定的挑战，但随着技术的成熟与生态的完善，智能合约的应用场景会越来越广泛，从DeFi到NFT，再到供应链和保险等领域，智能合约正在为各行各业带来创新和变革。与传统合约不同，智能合
阅读更多2024-11-15
Axure设计之文本编辑器制作教程
文本编辑器是一个功能强大的工具，允许用户在图形界面中创建和编辑文本的格式和布局，如字体样式、大小、颜色、对齐方式等，在Web端实际项目中，文本编辑器的使用非常频繁。
阅读更多2024-11-15
PyTorch深度学习与企业级项目实战-预训练语言模型GPT
尽管神经网络模型在自然语言处理任务中已取得较好的效果，但其相对于非神经网络模型的优势并没有像在计算机视觉领域那么明显。该现象的主要原因可归结于当前自然语言处理任务的数据集相对较小（除机器翻译任务外）。
阅读更多2024-11-15