（PySpark）RDD实验实战——取一个数组的中间值

🕗 发布于 2024-09-19 12:02 javascript 开发语言 ecmascript spark

实验环境：

提前准备好findspark，pyspark，py4j等库

import findspark
from pyspark import SparkContext, SparkConf

findspark.init()

#初始化spark，默认为你所设定的环境变量

conf = SparkConf().setAppName("jsytest").setMaster("local[4]")

#创建一个SparkConf对象，用于配置Spark应用程序，用setAppName来设置程序名称，
#用setMaster来设置运行模式和线程数，这里为本地模式，4个线程

sc = SparkContext(conf=conf)

#创建一个SparkContext对象，它是与Spark集群通信的主要接口
# sc.stop()  #关闭spark上下文

data = [(1),(5),(7),(10),(23),(20),(6),(5),(10),(7),(10)]

#创建所需的数据集

rdd = sc.parallelize(data)

#用parallelize方法将data中的数据结构并行化成RDD

rdd.sortBy(lambda x:x, ascending=True,numPartitions=1).collect()

#rdd.sortBy()用于对RDD中的元素按照指定的排序键进行排序
#rdd.sortBy(keyfunc, ascending=True, numPartitions=None)
#keyfunc,是从 RDD 的每个元素中提取用于排序的键，多分区的话可以通过指定key的排序，来达到操作目的
#ascending表示排序的顺序。 True为升序，False为降序。
#numPartitions表示最终返回结果RDD的分区数。

ysj=int(rdd.count()/2)

#取data的数据长度并取中间值

ss=rdd.sortBy(lambda x:x, ascending=True,numPartitions=1).collect()

##把最终排序导入ss数组中

print(ss[ysj])

#输出结果

最终全代码演示如下：

import findspark
from pyspark import SparkContext, SparkConf
findspark.init()
conf = SparkConf().setAppName("jsytest").setMaster("local[4]")
sc = SparkContext(conf=conf)
data = [(1),(5),(7),(10),(23),(20),(6),(5),(10),(7),(10)]
rdd = sc.parallelize(data)
rdd.sortBy(lambda x:x, ascending=True,numPartitions=1).collect()
ysj=int(rdd.count()/2)
ss=rdd.sortBy(lambda x:x, ascending=True,numPartitions=1).collect()
print(ss[ysj])

运行结果演示

原文地址：https://blog.csdn.net/m0_75208179/article/details/142322546

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【linux】VisiData：强大的命令行数据处理工具
下一篇：13 Midjourney从零到商用·实战篇：漫画设计一条龙

正确认识HTTP和HTTPS协议及其在Java Web项目中的应用！
HTTP（HyperText Transfer Protocol）是一种无状态的应用层协议，主要用于在Web浏览器和Web服务器之间传输超文本数据。HTTP协议定义了一系列的请求和响应格式，使得客户端
阅读更多2024-11-05
STM32中ARR（自动重装寄存器）为什么要减1
在STM32定时器的配置中，ARR（自动重装载寄存器）需要减1的原因主要与定时器的计数方式和寄存器的设置方式有关。
阅读更多2024-11-05
校园综合服务小程序ssm+论文源码调试讲解
参考自己的学习进度和操作习惯来讲，Oracle数据库是适合的，但是所需要的的安装软件很大，并且有好多不需要的功能都是开启的状态，十分消耗电脑资源，所以没有选择Oracle数据库，而SQL Server
阅读更多2024-11-05
【网络】HTTP（超文本传输协议）详解
HTTP是一种应用层协议，属于TCP/IP协议族。它的主要作用是允许客户端（如浏览器）通过网络向服务器请求资源，服务器再将资源返回给客户端。特点无状态：每个请求都是独立的，服务器不保存任何会话信息。这
阅读更多2024-11-05
【rust】rust基础代码案例
【代码】【rust】rust基础代码案例。
阅读更多2024-11-05
4、代码规范
5、函数首个单词的首字母小写printStudentInfo()，一般以动词开头。4、类名首个单词的首字母大写StudentManager，一般是名词。instantiate [ɪnˈstænʃɪeɪ
阅读更多2024-11-05
2022 NOIP 题解
查找下一个最先出现底部元素的栈，可以暴力往后找，因为下一次再出现放满栈的局面一定在底部元素出栈后（若是第一种情况 w 先出，就循环到下个 w 结束）。规定延迟标记的优先级为，加标记应用在覆盖标记之前，
阅读更多2024-11-05
tensorflow案例4--人脸识别(损失函数选取，调用VGG16模型以及改进写法)
VGG16模型本次实验VGG16模型修改冻结前13层卷积，只修改全连接在全连接层前添加BN层、全局平均池化层，起到降维作用，因为VGG16的计算量很大全连接层中添加Dropout层修改后代码：# 导入
阅读更多2024-11-05
Vue 渐进式框架，渐进式是什么意思？
Vue.js 作为目前最受欢迎的前端框架之一，其“渐进式”的特性尤为引人注目。那么，Vue 的“渐进式”到底是什么意思？它在实际开发中又能带来哪些优势？渐进式”这个词听起来有点专业，其实意思很简单。它
阅读更多2024-11-05
NoSQL的Redis配置
实例–>数据库–>表（table）–>记录行（row）–>数据字段（column）Redis（Remote Dictionary Server )，即远程字典服务，是一个开源的
阅读更多2024-11-05

（PySpark）RDD实验实战——取一个数组的中间值

相关文章