Day15-Python基础学习之PySpark

🕗 发布于 2024-04-21 20:54 python 学习 ajax

PySpark

安装： pip install pyspark

# pySpark入门
from pyspark import SparkConf, SparkContext
# 创建SparkConf对象
conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
# 基于SparkConf类对象创建SparkContext对象
sc = SparkContext(conf=conf)
# 打印spark运行版本
print(sc.version)
# 停止SparkContext对象的运行
sc.stop()

# 加载数据，即数据输入
conf1 = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc1 = SparkContext(conf=conf1)
# 通过parallelize方法将python对象加载到spark内，成为RDD对象
rdd1 = sc1.parallelize([1, 2, 3, 4, 5])
rdd2 = sc1.parallelize((1, 2, 3, 4, 5))
rdd3 = sc1.parallelize("abcdefghijklmnop")
rdd4 = sc1.parallelize({1, 2, 3, 4, 5})
rdd5 = sc1.parallelize({"key1": "value1", "key2": "value2"})
# 要查看rdd里的内容，需要使用collect方法
print(rdd1.collect())
# 注意字典打印出来只有key
sc1.stop()

# 读文件通过textFile方法，成为rdd对象
conf2 = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc2 = SparkContext(conf=conf2)
rdd = sc2.textFile("D:/test.txt")
print(rdd.collect())

# 数据计算map方法
from pyspark import SparkContext, SparkConf
import os
os.environ['PYSPARK_PYTHON'] = "D:/Study/Environment/Python/python.exe"

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)

rdd = sc.parallelize([1, 2, 3, 4, 5])
# 通过map方法将全部数据乘10
def func(data):
    return data*10
rdd2 = rdd.map(func)
print(rdd2.collect())

rdd3 = rdd2.map(lambda x: x*10).map(lambda x: x+5)
print(rdd3.collect())

原文地址：https://blog.csdn.net/m0_46053885/article/details/137881186

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：UE5集成gRPC
下一篇：什么是集成测试？它和系统测试的区别是什么? 操作方法来了

shodan（3）
首先介绍一款软件VNC。
阅读更多2024-11-10
15分钟学 Go 第 47 天：并发进阶——深入了解Go语言的并发模型！
Go语言以其内置的并发支持而闻名。通过轻量级的goroutine和强大的channel，Go提供了一种易于使用且高效的并发编程方法。并发：处理多件事情的能力，但不一定同时。并行：同一时刻处理多件事情。
阅读更多2024-11-10
PVE纵览-深入了解PVE中的防火墙功能
在这篇文章中，我们将深入探讨PVE中的防火墙功能，帮助读者理解其工作原理、配置方法以及如何在实际应用中充分利用这些功能来保护虚拟化环境的安全。我们将从PVE防火墙的基本概念入手，逐步介绍其架构、配置步
阅读更多2024-11-10
OptaPlanner 和 JSpirit 优化框架对比
特性JSpirit适用问题类型通用约束优化问题多智能体任务分配和调度核心架构约束编程、优化算法多智能体调度、分布式任务分配实时性适用于非实时优化专注于实时任务分配动态环境适应性动态适应性有限，适合稳定
阅读更多2024-11-10
隐藏式水印了解一下？你以为加水印很麻烦？
是一个基于 Canvas 的水印工具，主要用于浏览器环境下水印添加。它不仅支持 Vue 2、Vue 3，还能在 React 项目中使用，非常轻量且易于集成。提供了强大而简洁的水印解决方案，让开发者在网
阅读更多2024-11-10
STM32H503开发(2)----STM32CubeProgrammer烧录
STM32CubeProgrammer (STM32CubeProg) 是一款用于编程STM32产品的全功能多操作系统软件工具。它提供了一个易用高效的环境，通过调试接口（JTAG和SWD）和自举程序接
阅读更多2024-11-10
【Rust练习】20.进一步深入特征
练习题来自：https://practice-zh.course.rs/generics-traits/advanced-traits.html。
阅读更多2024-11-10
[C++ 核心编程]笔记 4.4.3 成员函数做友元
使目标成员函数做友元, 即可在另一个类的成员函数访问其中的私有权限。
阅读更多2024-11-10
数据结构-并查集专题（2）
接（1）完成剩余题目和了解并查集运用求解最小生成树的Kruskal算法。
阅读更多2024-11-10
AI侦探：智能技术在犯罪预防与侦查中的前沿探索
本文探讨了人工智能技术在犯罪预防与侦查中的创新应用，分析了智能算法如何提升案件侦破效率与准确性。通过案例研究，展示了AI在监控、数据分析和预测犯罪方面的前沿技术。最后，讨论了这种技术对法律、道德及隐私
阅读更多2024-11-10

Day15-Python基础学习之PySpark

PySpark

相关文章