Spark：DataFrame介绍及使用

🕗 发布于 2024-10-14 14:20 spark pandas python

1. DataFrame详解

DataFrame是基于RDD进行封装的结构化数据类型，增加了schema元数据，最终DataFrame类型在计算时，还是转为rdd计算。DataFrame的结构化数据有Row（行数据）和schema元数据构成。

Row 类型表示一行数据
- DataFrame就算是多行构成

# 导入行类Row
from pyspark.sql import Row

# 创建行数据
r1 = Row(1, '张三', 20)

# 行数取取值 按照下标取值
data = r1[0]
print(data)
data1 = r1[1]
print(data1)

# 指定字段创建行数据
r2 = Row(id=2, name='李四', age=22)
# 按照字段取值
data3 = r2['id']
print(data3)
data4 = r2['name']
print(data4)

schema表信息
- 定义DataFrame中的表的字段名和字段类型。

# 导入数据类型
from pyspark.sql.types import *

# 定义schema信息
# 使用StructType类进行定义
# add()方法是指定字段信息
# 第一参数，字段名
# 第二个参数，字段信息
# 第三个参数是否允许为空值  默认是True，允许为空
schema_type = StructType().\
    add('id',IntegerType()).\
    add('name',StringType()).\
    add('age',IntegerType(),False)

2. DataFrame创建

创建datafram数据需要使用一个sparksession的类创建，SparkSession类是在SparkContext的基础上进行了封装，也就是SparkSession类中包含了SparkContext。

2.1 基本创建

#DataFrame 的基本创建
#Row就是行数据定义的类
from pyspark.sql import Row, SparkSession
from pyspark.sql.types import *

#行数据创建
r1 = Row(1,"刘向阳",23,'男')
print(r1)

#行数据下标取值
print(r1[0])
print(r1[1])

#创建行数据时可以指定字段名
r2 = Row(id=2,name='李四',age=20,gender='女')
print(r2)
#使用字段名取值
print(r2['name'])

# 定义元数据
schema = (StructType().add('id', IntegerType()).add('username', StringType()).add('age', IntegerType()).add('gender', StringType()))
print(schema)

# 将元数据和行数据放在一起合成DataFrame
ss = SparkSession.builder.getOrCreate()

# 调用创建df的方法
df = ss.createDataFrame([r1,r2],schema=schema)

# 查看df中数据
df.show()

#查看元数据信息
df.printSchema()

运行结果：
在这里插入图片描述

2.2 RDD和DF之间的转化

rdd的二维数据转化为DataFrame
- rdd.toDF()

# rdd 和 dataframe的转化
from pyspark.sql import SparkSession

#创建SparkSession对象
ss = SparkSession.builder.getOrCreate()

#基于ss对象获取sparkContext
sc = ss.sparkContext

#创建rdd , 要使用二维列表指定每行数据
rdd = sc.parallelize([[1,'张三',20,'男'],[2,'李四',20,'男']])

#将rdd转为df
df = rdd.toDF(schema='id int,name string,age int,gender string')

#df数据查看
df.show()
df.printSchema()

#df可以转rdd
res = df.rdd.collect()
print(res)

rdd2 = df.rdd.map(lambda x:x['name'])

res2 = rdd2.collect()
print(res2)

运行结果：
在这里插入图片描述

2.3 pandas和spark之间转化

spark的df转为pandas的df
- toPandas

#pandas 和 spark的dataframe转化
from pyspark.sql import SparkSession
import pandas as pd

ss = SparkSession.builder.getOrCreate()

#创建pandas的df
df_pd = pd.DataFrame(
    {
        'id':[1,2,3,4],
        'name':['张三','李四','王五','赵六'],
        'age':[1,2,3,4],
        'gender':['男','女','女','女']
    }
)
#查看数据
print(df_pd)

#取值
name = df_pd['name'][0]
print(name)
# 将pandas中的df转为spark的df
df_spark = ss.createDataFrame(df_pd)

#查看
df_spark.show()

#取值
row = df_spark.limit(1).first()
print(row['name'])

#将spark的df重新转为pandas的df
df_pandas = df_spark.toPandas()
print(df_pandas)

运行结果：
在这里插入图片描述

2.4 读取文件数据转为df

通过read方法读取数据转为df

ss.read

#读取文件转为df
from pyspark.sql import SparkSession

ss = SparkSession.builder.getOrCreate()

#读取不同文件数据转为df
# txt文件
df = ss.read.text('hdfs://node1:8020/data/students.txt')
df.show()

# json 文件
df_json = ss.read.json('hdfs://node1:8020/data/baike_qa_valid.json')
df_json.show()

#orc文件
df_orc = ss.read.orc('hdfs://node1:8020/data/users.orc')
df_orc.show()

#去取csv文件
#header或csv文件中的第一行作为表头字段数据
df_csv = ss.read.csv('hdfs://node1:8020/data/students.csv')
df_csv.show()

3. DataFrame基本使用

3.1 SQL语句

使用sparksession提供的sql方法，编写sql语句执行

#使用sql操作dataframe结构化数据
from pyspark.sql import SparkSession

ss = SparkSession.builder.getOrCreate()

#读取文件数据转为df
df_csv = ss.read.csv('hdfs://node1:8020/data/students.csv', header=True,sep=',')

#使用sql操作df数据
#将df指定一个临时表名
df_csv.createTempView('stu')

#编写sql字符串语句，支持hivesql语法
sql_str ="""
select * from stu 
"""

#执行sql语句，执行结果返回一个新的df
df_res = ss.sql(sql_str)
df_csv.show()
df_res.show()

3.2 DSL方法

DSL方法是df提供的数据操作函数
使用方式：

df.方法（）
可以进行链式调用
df.方法().方法().方法()
方法执行后返回一个新的df保存计算结果
new_df = df.方法（）

spark提供DSL方法和sql的关键词一样，使用方式和sql基本类似，在进行数据处理时，要按照sql的执行顺序去思考如何处理数据。
from join 知道数据在哪 df本身就是要处理的数据 df.join(df2) from 表
where 过滤需要处理的数据 df.join(df2).where()
group by 聚合数据的计算 df.join(df2).where().groupby().sum()
having 计算后的数据进行过滤 df.join(df2).where().groupby().sum().where()
select 展示数据的字段 df.join(df2).where().groupby().sum().where().select()
order by 展示数据的排序 df.join(df2).where().groupby().sum().where().select().orderBy()
limit 展示数据的数量 df.join(df2).where().groupby().sum().where().select().orderBy().limit()
DSL方法执行完成后会得到一个处理后的新的df

#使用DSL方法操作dataframe
from pyspark.sql import SparkSession

ss = SparkSession.builder.getOrCreate()

#读取文件数据转为df
df_csv = ss.read.csv('hdfs://node1/data/students.csv', header=True,sep=',')

#使用DSL方法对df数据进行操作
df2 = df_csv.select('id','name')

#查看结果
df2.show()

#第二种指定字段的方式
df3 = df_csv.select(df_csv.age,df_csv.gender)

#给字段起别名
df4 = df_csv.select(df_csv.age.alias('new_age'),df_csv.gender)
df4.show()

#修改字段类型
df_csv.printSchema()
df5 = df_csv.select(df_csv.age.cast('int'),df_csv.gender)
df5.printSchema()

#where 的数据过滤
age = 20
df6 = df_csv.where(f'age > {age}')
df6.show()

#过滤年龄大于20并且性别为女性的学生信息
df7 = df_csv.where(f'age > 20 and gender = "女" ')
df7.show()

#使用第二种字段判断方式
df8 = df_csv.where(df_csv.age == age)
df8.show()

#分组聚合计算
df9 = df_csv.select(df_csv.gender,df_csv.cls,df_csv.age.cast('int').alias('age')).groupby('gender','cls').sum('age')
df9.show()

#分组后过滤where 聚合计算时只能一次计算一个聚合数据
df10 = df_csv.select(df_csv.gender,df_csv.cls,df_csv.age.cast('int').alias('age')).groupby('gender','cls').sum('age').where('sum(age) > 80')
df10.show()

#排序
df11 = df_csv.orderBy('age')  #默认排序
df11.show()

df12 = df_csv.orderBy('age',ascending=False)  #降序
df12.show()

#分页
df13 = df_csv.limit(5)
df13.show()

#转为rdd
res = df_csv.rdd.collect()[5:10]
print(res)
df_new = ss.createDataFrame(res)
df_new.show()

原文地址：https://blog.csdn.net/m0_70882914/article/details/142903814

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：从Naive RAG到Agentic RAG：基于Milvus构建Agentic RAG
下一篇：Linux动静态库

Java后端面试题：JVM篇
（1）JVM指的是Java虚拟机，本质上是一个运行在计算机上的程序，它的职责是运行Java字节码文件，作用是为了支持跨平台特性。（2）JVM的功能有三项：第一是解释执行字节码指令（解释运行）；第二是管
阅读更多2024-10-17
Spring Boot、Spring MVC和Spring有什么区别
用来接收请求，然后定义了一套路由策略(ur到handle的映射)及适配执行handle，将handle结果使用视图解析技术生成视图展现给前端。SpringMVC是web框架，是Spring的一部分，S
阅读更多2024-10-17
初次见面需要寻找合适的话题
在丰富多彩的社会生活中，总有一些最深切的体会、最想说的话、最厌恶或最喜欢的人和事、最关心或最希望得到的东西吧?对此，往往能反映出一个人说话办事等方面的水平和方式，更能反映出一个人是否善于观察事物、分析
阅读更多2024-10-17
project项目管理系统的作用
它允许项目经理有效地监控项目状态，确保项目按时按预算完成，并提高整体的项目执行效率。在这些关键功能中，，因为它是确保项目成功的基础。MS Project 允许用户通过直观的界面创建详细的任务列表、里程
阅读更多2024-10-17
B3612 【深进1.例1】求区间和
给定 n 个正整数组成的数列 1,2,⋯ ,a1,a2,⋯,an 和 m 个区间 [li,ri]，分别求这 m 个区间的区间和。样例解释：第 1 到第 4 个数加起来和为 10。第 2 个数
阅读更多2024-10-17
基于yolov10的水果检测，支持图像、视频和摄像实时检测【pytorch框架、python】
基于yolov10的水果检测系统是在pytorch框架下实现的，这是一个完整的项目，包括代码，数据集，训练好的模型权重，模型训练记录，ui界面和各种模型指标（准确率、精确率、召回率等）等。ui界面由p
阅读更多2024-10-17
每日OJ题_牛客_HJ63DNA序列_滑动窗口_C++_Java
每日OJ题_牛客_HJ63DNA序列_滑动窗口_C++_Java（用滑动窗口的思想，首先用一个长度为n的窗口覆盖字符串前n部分子串，统计这里的CG数量，并暂时作为最大值。然后窗口右移，如果左边出去的是
阅读更多2024-10-17
路由器ip地址是什么意思？路由器ip地址哪里看
在数字化时代，路由器作为连接互联网的重要设备，扮演着举足轻重的角色。然而，对于非技术背景的普通用户来说，路由器的一些专业术语和设置可能显得颇为神秘。其中，“路由器IP地址”就是一个常见但又容易让人困惑
阅读更多2024-10-17
第二章 jQuery基本操作
除css()外，还有获取和设置元素高度、宽度等的样式操作方法。- 设置或返回所选元素的内容（包括 HTML 标签）使用css()为指定的元素设置样式值或获取样式值。可以获取或设置元素的value属性值
阅读更多2024-10-17
CUDA 共享内存 shared memory
_shared__此功能（与线程同步结合）有许多用途，例如用户管理的数据缓存、高性能协作并行算法（例如并行缩减），以及在原本不可能的情况下促进全局内存合并。
阅读更多2024-10-17

Spark：DataFrame介绍及使用

1. DataFrame详解

2. DataFrame创建

2.1 基本创建

2.2 RDD和DF之间的转化

2.3 pandas和spark之间转化

2.4 读取文件数据转为df

3. DataFrame基本使用

3.1 SQL语句

3.2 DSL方法

相关文章