（PySpark）RDD实验实战——求商品销量排行

🕗 发布于 2024-09-22 02:26 python spark pyspark

实验环境：

提前准备好findspark，pyspark，py4j等库

import findspark
from pyspark import SparkContext, SparkConf

findspark.init()

#初始化spark，默认为你所设定的环境变量

conf = SparkConf().setAppName("jsytest").setMaster("local[4]")

#创建一个SparkConf对象，用于配置Spark应用程序，用setAppName来设置程序名称，
#用setMaster来设置运行模式和线程数，这里为本地模式，4个线程

sc = SparkContext(conf=conf)

#创建一个SparkContext对象，它是与Spark集群通信的主要接口
# sc.stop()  #关闭spark上下文

goods = [("Book",30,50),("Pen",5,80),("Notebook",15,60),("Pencil",2,70),("Eraser",3,50)]

#创建所需的数据集（商品名，价格，销量）

n=2

#所需的前n个排序

rdd = sc.parallelize(goods)

#用parallelize方法将goods中的数据结构并行化成RDD

rdd.sortBy(lambda x:x[2], ascending=True,numPartitions=3).collect()

#rdd.sortBy()用于对RDD中的元素按照指定的排序键进行排序
#rdd.sortBy(keyfunc, ascending=True, numPartitions=None)
#keyfunc,是从 RDD 的每个元素中提取用于排序的键，多分区的话可以通过指定key的排序，来达到操作目的
#ascending表示排序的顺序。 True为升序，False为降序。
#numPartitions表示最终返回结果RDD的分区数。
#这里取的是数据中的第三分区销量作为key，返回的值也是三个分区

ss=rdd.sortBy(lambda x:x[2], ascending=True,numPartitions=3).collect()

##把最终排序导入ss数组中

c=rdd.count()-1

#取数组上限

ysj=0

#记录循环次数

while ysj<=n-1:
#循环输出
        print("销售第",ysj+1,"多的:",ss[c-ysj])

        ysj=ysj+1

所有代码如下

import findspark
from pyspark import SparkContext, SparkConf
findspark.init()
conf = SparkConf().setAppName("jsytest").setMaster("local[4]")
sc = SparkContext(conf=conf
goods = [("Book",30,50),("Pen",5,80),("Notebook",15,60),("Pencil",2,70),("Eraser",3,50)]
n=2
rdd = sc.parallelize(goods)
rdd.sortBy(lambda x:x[2], ascending=True,numPartitions=3).collect()
ss=rdd.sortBy(lambda x:x[2], ascending=True,numPartitions=3).collect()
c=rdd.count()-1
ysj=0
while ysj<=n-1:
        print("销售第",ysj+1,"多的:",ss[c-ysj])
        ysj=ysj+1

结果演示

销售第 1 多的: ('Pen', 5, 80)
销售第 2 多的: ('Pencil', 2, 70)

原文地址：https://blog.csdn.net/m0_75208179/article/details/142325802

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：项目第五弹：队列消息管理模块
下一篇：微信支付的委托代扣功能服务如何申请开通？

设计模式介绍
观察者模式（Observer）：定义对象间的一种一对多的依赖关系，以便当一个对象的状态发生改变时，所有依赖于它的对象都得到通知并被自动更新。外观模式（Facade）：为子系统中的一组接口提供一个一致的
阅读更多2024-09-24
《Effective Debugging：软件和系统调试的66个有效方法》读书笔记-Part2
编程技术：代码评审、审读代码、调试机制、日志、单元测试、断言、改动受测程序验证推想、缩小正确范例与错误代码之间的差距、简化可疑代码、将可疑代码改用另外一种编程语言来写、改善可疑代码可读性、清除bug根
阅读更多2024-09-24
单片机学到什么程度才可以去工作？
如果独立写，对你来说，估计很吃力，这个过程比较考验你的综合能力，比如对单片机外设的熟练度，实现功能的思路，实现思路的代码能力，最后是整合代码，怎么避免一些功能冲突的BUG。刚开始，不一定非要具备独立写
阅读更多2024-09-24
VirtualBox 克隆已有的虚拟机
VirtualBox 克隆已有的虚拟机 CentOS
阅读更多2024-09-24
鲲鹏计算这五年：硬生态基本盘稳住，才能放手进击软生态
鲲鹏产业生态5年，神州鲲泰一路生花的进击
阅读更多2024-09-24
第四章：存储系统：第一节——存储器概述
以下图片，我们在第一章介绍过。■ 现代计算机以存储器为中心，它是计算机中存放指令和数据的主要部件。存储器的容量越大，能存储的信息越多。提高存储系统的访问速度，是提高计算机处理信息速度的重要措施。■因此
阅读更多2024-09-24
网络通信——NAT（网络地址转换）
一.NAT是什么1.首先运营商维护的网络时公网的，使用的是公网的IP地址，而私有的IP地址的不能的在公网上路由，为了保证网络互通，所以有了NAT技术。2.NAT一般部署在公网和私网上的网关设备上面。二
阅读更多2024-09-24
rsync+inotify
rsync是linux系统下的数据镜像备份工具。使用快速增量备份工具Remote Sync可以远程同步。它使用一种称为“Rsync演算法”的技术，只传输文件的不同部分，而不是每次都整份传送，这使得它在
阅读更多2024-09-24
得物App荣获新奖项，科技创新助力高质量发展
在此次服贸会上，得物App作为科技创新与品质消费的杰出代表，受邀参会并荣获“科技创新服务示范案例”奖项，这是国家层面对得物App以科技创新保障品质消费、提升消费体验成效的肯定。在产业转型和消费升级的大
阅读更多2024-09-24
使用Python实现图形学曲线和曲面的B样条曲线算法
B样条曲线是由控制点和节点向量（Knot vector）定义的。给定 n + 1 个控制点P0P1PnP0P1...Pn和一个节点向量tttCt∑i0nNiptPiCti0∑nNiptPi
阅读更多2024-09-24

（PySpark）RDD实验实战——求商品销量排行

相关文章