RDD的介绍、RDD的特点、创建RDD数据

🕗 发布于 2024-10-12 19:14 大数据 scala java python spark

文章目录

1. RDD介绍
2. RDD特性
3. 创建RDD数据

1. RDD介绍

1.1 Spark开发方式

1.1.1 交互式开发

通过不同的命令进入不同的语言交互开发界面。
代码不能持久保存，一般用来测试某个代码的执行是否正确。

在 Spark 中，交互式开发主要通过 Spark Shell 来实现。

对于 Scala 版本的 Spark Shell：
在命令行中输入spark-shell命令即可启动。启动后，可以在命令提示符下输入 Scala 代码来操作 Spark。
对于 Python 版本的 Spark Shell（PySpark）：
使用pyspark命令启动。在 PySpark 中，可以使用 Python 语言进行 Spark 开发。

注意：在spark shell中，可以使用:q或者:quit退出。

1.1.2 脚本式开发

将编写代码保存在文件，对代码文件进行运行实现spark的计算。
使用IDE工具进行代码文件编写

1.2 Spark支持的开发语言

Spark支持的开发语言有：

java
scala
python
R
SQL

1.3 RDD介绍

在 Apache Spark 中，弹性分布式数据集（Resilient Distributed Dataset，简称 RDD）是其核心概念之一。
RDD是spark的一种数据模型（规定数据的存储结构和计算方法），RDD将数据分布式存储在不同服务器内存上，通过RDD共享不同服务器的内存数据，所以Spark是基于内存进行分布式数据计算的框架。
它具有以下主要特点：

弹性：
- 可以根据计算的需求将数据进行分区拆分，本质就是将数据分成多份，每份数据称为一个分区。
- 每个分区都会对应一个线程任务执行计算。
分布式：数据分布在集群中的多个节点上，可以并行处理。
不可变：一旦创建，RDD 的内容不能被修改，只能通过转换操作生成新的 RDD。

2. RDD特性

分区
- 可以将计算的海量数据分成多份，需要分成多少分区可以通过方法指定。
- 每个分区都可以对应一个task线程执行计算
`只读``
- RDD中的数据不能直接修改，需要通过方法计算后得到一个新的RDD。
- RDD本身存储的数据只能读取。
依赖
- RDD之间是有依赖关系的。
- 新的RDD是通过旧的RDD计算得到的。
缓存
- 可以将计算中的结果缓存起来，如果后续计算错误时，可以从缓存位置重新计算。
- 将数据存储在内存或本地磁盘
- 作用是容错
- 缓存在执行计算任务程序结束后会释放删除。
checkpoint
- 作用和缓存一样
- checkpoint可以将数据存储在分布式存储系统中，比如HDFS。

3. 创建RDD数据

将需要计算的数据转为rdd的数据，就可以利用spark的内存计算方法进行分布式计算操作，这些计算方法就是有rdd提供的
rdd数据的转化方法是有sparkcontext提供的，所以需要先生成sparkcontext，sparkcontext中还包含资源申请和任务划分功能
SparkContext称为Spark的入口类

3.1 Python数据转化为RDD

将python数据转为RDD

data = [1,2,3,4]

# 将python的列表数据转为RDD，需要使用pyspark中的sparkcontext类，该类中封装转化方法
from pyspark import SparkContext

# 1.先将类生成对象
sc = SparkContext()
# 2. 使用对象方法将python的列表转为RDD
rdd = sc.parallelize(data)

#3. 使用rdd提供的方法进行分布式聚合计算
res = rdd.reduce(lambda x, y: x + y)
print(res)

结果输出：
在这里插入图片描述

3.2 文件数据HDFS转化为RDD

在这里插入图片描述

#读取hdfs文件数据转为rdd
from pyspark import SparkContext\

# 1.创建对象
sc = SparkContext()

#2.读取hdfs的文件数据
# 指定读取的文件路径
rdd1 = sc.textFile('hdfs://node1:8020/data/stu.txt')
# 指定读取的目录路径
rdd2 = sc.textFile('hdfs://node1:8020/data')

# 3. 查看rdd中的读取数据
res1 = rdd1.collect()
print(res1)

res2 = rdd2.collect()
print(res2)

结果输出：
在这里插入图片描述

3.3 RDD分区

Python数据转发的分区数指定

#  RDD的分区指定
from pyspark import SparkContext
sc = SparkContext()
data = [1,2,3,4,5,6,7,8]

#转化RDD时指定分区数
rdd = sc.parallelize(data,numSlices=8)

#查看分区后的数据形式 glom()查看分区形式
res = rdd.glom().collect()
print(res)

#读取的文件指定分区数
# 文件在进行分区时，有时候会多一个空分区
# 文件大小 % 分区数 = 值 -- 余数
# 余数/值 占比 超过10%额外会创建一个分区
rdd2 = sc.textFile("hdfs://node1:8020/data/stu.txt",minPartitions=2)
res2 = rdd2.glom().collect()
print(res2)

结果输出：
在这里插入图片描述

3.4 小文件数据读取

在一个目录下，有多个文件，如果文件的大小不够一个块的大小，一个文件就对应一个分区，文件超过一个块，那就一个block（128M）块对应一个分区。
目录下都是小文件，那么读取目录下的文件数据，会对应很多个分区。

一个分区对应一个task线程，当小文件过多时，会占用大量的线程，造成资源浪费。
使用wholeTextFiles方法可以解决
该方法会现将读取到的数据合并在一起，然后重新进行分区。

# 小文件读取
from pyspark import SparkContext
# 1-创建对象
sc = SparkContext()

# 2-读取hdfs的文件数据
# 指定读取目录，可以读取目录下的所有文件数据
rdd2 = sc.textFile('hdfs://node1:8020/data')

# 小文件的数据读取 将小文件数据进行合并后按照指定的分区数进行分区
rdd3 = sc.wholeTextFiles('hdfs://node1:8020/data',minPartitions=2)
# 3-查看rdd中的读取的数据
res = rdd2.glom().collect()
print(res)

res = rdd3.glom().collect()
print(res)

结果输出：
在这里插入图片描述

原文地址：https://blog.csdn.net/m0_70882914/article/details/142775638

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：docker overlay 占用空间太大，迁移到 /data/
下一篇：Calcite第二课：核心概念

【中短文--深度学习笔记】Batchsize的选择、批量归一化、loss是否已经收敛（更新中-ing）
如果你没有任何参考，那么（即64、128、256、512、1024等）可以会更加直接和易于管理。而对于来说，batchsize大小最好<=数据集样本数*0.1。
阅读更多2024-10-13
数据在内存中的存储【下】
我们常见的浮点数：3.14159，1E10等，浮点数家族包括：float，double, long double类型。浮点数表示的范围：float.h中定义。之前我们说过浮点数在内存中无法精确保存，那
阅读更多2024-10-13
kafka-manager修改zookeeper端口号后启动仍然连接2181端口
zookeeper默认端口号修改为了2182，kafka-manager的配置文件application.conf中也已经修改了zkhosts为新的端口号，然而启动kafka-manger时报错连接连
阅读更多2024-10-13
教育培训系统小程序的设计
教师账户功能包括：系统首页，个人中心，课后习题测试管理，观看进度管理，论坛管理，网课信息管理，公告信息管理，学生管理，试卷管理，测试管理。主要技术：Java,Spring,mybatis,mysql,
阅读更多2024-10-13
使用Mockaroo生成测试数据
https://www.mockaroo.com/ Mockaroo lets you generate up to 1,000 rows of realistic test data in CSV,
阅读更多2024-10-13
提升邮件营销设计精准度秘诀，效率与效果实践
通过这些工具，营销人员可以更精准地预测用户行为，对不同用户群体进行细分，从而定向发送更为相关和个性化的邮件。此外，邮件标题是决定用户是否打开邮件的第一关键，需要足够吸引人，激发用户的好奇心和兴趣。邮件
阅读更多2024-10-13
LeetCode18.四数之和
现保持p1和p2不动，让left与right相向运动，若(long)nums[left] + (long)nums[right] + (long)nums[p1] + (long)nums[p2] =
阅读更多2024-10-13
【HTML格式PPT离线到本地浏览】
如何下载动态网站的资源呢？这里使用的是影刀RPA+脚本的方式实现。通过下载教育类网站上的PPT为例，将网上的PPT可以离线浏览。
阅读更多2024-10-13
SwiftUI 在 iOS 18 中的 ForEach 点击手势逻辑发生改变的解决
在本篇博文中，我们讨论了 iOS 18 中的 SwiftUi ForEach 视图点击逻辑和之前略有不同的情况，并给出解决方法。这可能是 SwiftUI 在 iOS 18 系统中变得更加严谨了。
阅读更多2024-10-13
研发线上事故风险解读之缓存篇
本文基于《线上事故案例集》深入探讨了缓存使用中的问题，指出尽管缓存应用门槛低，但高并发、大流量等特性使其面临技术挑战。缓存设计需预防大Key问题，包括设计阶段的预防、运营阶段的快速识别和优化阶段的拆分
阅读更多2024-10-13

RDD的介绍、RDD的特点、创建RDD数据

文章目录

1. RDD介绍

1.1 Spark开发方式

1.1.1 交互式开发

1.1.2 脚本式开发

1.2 Spark支持的开发语言

1.3 RDD介绍

2. RDD特性

3. 创建RDD数据

3.1 Python数据转化为RDD

3.2 文件数据HDFS转化为RDD

3.3 RDD分区

3.4 小文件数据读取

相关文章