Spark练习-RDD创建,读取hdfs上的数据,指定rdd分区

🕗 发布于 2024-10-09 02:35 spark 大数据 分布式

RDD的创建

将python数据转为rdd

# 将Python数据转为rdd
data = [1,2,3,4]
res = sum(data) # 使用python的方法计算时，采用的单机资源计算，如果数据量较大时，可以将python数据转为spark的rdd数据，就可以借助spark的进行的分布式计算
print(res)

将python的列表转换为rdd

# 将pytho的列表数据转为rdd，需要使用pyspark中的sparkcontext类，该类中封装转化方法
from pyspark import SparkContext

# 1-先将类生成对象
# master 可以指定资源调度方式   不指定默认是local
# sc = SparkContext(master='yarn')
sc = SparkContext()

# 2-使用对象方法将python的列表转为rdd
# parallelize 将python的列表 ，元组，字典，转为 rdd，常用列表
rdd = sc.parallelize(data)

# 3-使用rdd提供的方法进行分布式聚合计算
res1 = rdd.reduce(lambda x,y:x+y)
# 查看计算结果
print(res1)

读取HDFS上文件数据

首先需要在hdfs的data目录下上传数据

读取hdfs的文件数据

# 创建rdd
# 读取hdfs的文件转换为rdd
from pyspark import SparkConf, SparkContext

# 1-创建对象
sc = SparkContext()

# 2-读取hdfs的文件数据
# 指定读取的文件路径
rdd1 = sc.textFile('hdfs://node1:8020/data/stu.txt')
# 指定读取目录，可以读取目录下的所有文件数据
rdd2 = sc.textFile('hdfs://node1:8020/data')


# 3-查看rdd中读取数据
res = rdd1.collect()
print(res)

res = rdd2.collect()
print(res)

读取单个文件,值输出指定文件的数据

读取到目录,会将整个目录的文件都读取到

RDD分区指定

python数据转换rdd指定分区

from pyspark import SparkContext
# 数据在转化为rdd时，可以指定拆成多少个分区，也就是拆成多少份
# python数据转为rdd时指定分区数据
# 1-创建对象
sc = SparkContext()

data = [1,3,5,8,11,6,5,19]

# 2-指定分区数
# 转化rdd时指定分区数
# numSlices 指定分区的数量
rdd = sc.parallelize(data,numSlices=4)  # [[1, 3], [5, 8], [11, 6], [5, 19]]
rdd = sc.parallelize(data,numSlices=6) #  [[1], [3], [5, 8], [11], [6], [5, 19]]

# 查看分区后的数据形式  glom()查看分区形式
res = rdd.glom().collect()
print(res)

如果指定的分区数量不能够整除,则会随机分配

读取hdfs上的数据

from pyspark import SparkContext
# 数据在转化为rdd时，可以指定拆成多少个分区，也就是拆成多少份
# python数据转为rdd时指定分区数据
# 1-创建对象
sc = SparkContext()
# 读取的文件指定分区数
# 文件在进行分区时，有时候会多一个空分区
# 文件大小%3 = 值 -- 余数
# 余数/值  占比  超过10%额外会创建一个空分区

rdd2 = sc.textFile("hdfs://node1:8020/data/stu.txt",minPartitions=4) # [['1,alice,F'], ['2,Tom,M'], ['3,lili,F'], []]
# rdd2 = sc.textFile("hdfs://node1:8020/data/stu.txt",minPartitions=2) # [['1,alice,F'], ['2,Tom,M'], ['3,lili,F']]

# 查看分区后的数据形式  glom()查看分区形式
res2 = rdd2.glom().collect()
print(res2)

文件大小%3 = 值 -- 余数
余数/值  占比  超过10%额外会创建一个
28B % 4 = 6..4

4/6 > 10% 所以会出现一个空的分区

---------------------------------------------

28B % 2 = 14...0

0/14 < 10% ,没有空分区

原文地址：https://blog.csdn.net/weixin_58305115/article/details/142768876

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：使用欧拉安装ceph分布式存储，ceph的集群安装、添加主机集群和删除主机、添加osd硬盘和手动添加硬盘为osd和移除osd。
下一篇：0，Verilog基础专栏说明

智能猫砂盆怎么选购？cewey、鸟语花香、霍曼全方位测评性能大PK
这是因为cewey自研了智慧仿生铲屎技术，模拟情绪稳定的人类手工铲屎的动作，动力系统则是采用基于自研EcoDrive技术体系，研发的直流无刷电机，运行更稳定、噪音更低，传动系统，借鉴军工级履带传动技术
阅读更多2024-10-10
C++笔记
右值引用是为一个临时变量取别名，它通常绑定到一个临时变量、字面值或返回值上。实际开发中我们可能需要对右值进行修改（实现移动语义时就需要）而右值引用可以对右值进行修改。
阅读更多2024-10-10
Coggle数据科学 | 全球AI攻防挑战赛：金融场景凭证篡改检测 baseline
在全球人工智能发展和治理广受关注的大趋势下，由中国图象图形学学会、蚂蚁集团、云安全联盟CSA大中华区主办，广泛联合学界、机构共同组织发起全球AI攻防挑战赛。本次比赛包含攻防两大赛道，分别聚焦大模型自身
阅读更多2024-10-10
Java基本数据类型转换
当Java程序在进行赋值或者运算时，精度小的类型自动转换为精度大的数据类型，这个就是自动类型转换
阅读更多2024-10-10
Oracle LiveLabs实验：DB Security - Transparent Sensitive Data Protection (TDSP)
本研讨会介绍了 Oracle 透明敏感数据保护 (TSDP) 的功能。它为用户提供了一个机会来学习如何配置这些功能，以便通过动态编辑敏感数据来保护对敏感数据的访问。此实验申请地址在这里，时间为15分钟
阅读更多2024-10-10
java运算符
注意在/时，分母不能为0。
阅读更多2024-10-10
锐键网络文档链接
锐键网络文档。
阅读更多2024-10-10
【学习笔记】Linux系统基础知识4 —— date命令详解
Linux系统基础命令 date 命令详解
阅读更多2024-10-10
vue 条件渲染
总的来说，v-if 有更高的切换开销，而 v-show 有更高的初始渲染开销。如果在运行时绑定条件很少改变，则v-if 会更合适。v.-if也是惰性的:如果在初次渲染时条件值为 false，则不会做任
阅读更多2024-10-10
GoLang编程常用规范/工具
【代码】GoLang编程常用规范/工具。
阅读更多2024-10-10

Spark练习-RDD创建,读取hdfs上的数据,指定rdd分区

RDD的创建

读取HDFS上文件数据

RDD分区指定

相关文章