Pyspark DataFrame常用操作函数和示例

🕗 发布于 2024-09-07 08:58 人工智能 机器学习 pandas pyspark spark

针对类型：pyspark.sql.dataframe.DataFrame

目录

1.打印前几行

1.1 show()函数

1.2 take()函数

2. 读取文件

2.1 spark.read.csv

3. 获取某行某列的值(具体值)

4.查看列名

5.修改列名

5.1 修改单个列名

5.2 修改多个列名

5.2.1 链式调用 withColumnRenamed 方法

5.2.2 使用 selectExpr 方法

6. pandas类型转化为pyspark pandas

7.选择特定的列，创建一个新的 DataFrame

8.列表套字典格式转化为pyspark DataFrame

9. 根据某列或者某列进行去重

10. pyspark 的两个dataframe合并

11.查看 pyspark dataframe中某列为空的数量

12.删除 pyspark dataframe中第一行数据

13.pyspark dataframe用空格拼接两列得到新的列

14.将pyspark dataframe 保存到集群（分片）

16.将pyspark dataframe 保存为csv

实际场景1

实际场景2

1.打印前几行

1.1 show()函数

show() 函数会将指定数量的行（默认是 20 行）转换为字符串并打印到控制台。
无返回值，直接打印数据到控制台。

用法：
df.show()  # 默认显示前 20 行
df.show(10)  # 显示前 10 行
1.2 take()函数

用于获取 DataFrame 的前 N 行数据，返回一个包含 Row 对象的列表。
返回一个包含 Row 对象的列表。
返回一个包含前 N 行数据的列表，每行数据以 Row 对象的形式存在。你可以通过索引访问这些行，并进一步处理它们。
rows = df.take(5)  # 获取前 5 行数据
for row in rows:
    print(row)
2. 读取文件

2.1 spark.read.csv
df = spark.read.csv(path, sep="\t", header=False, inferSchema=True).toDF('id','time','label','feature')
inferSchema=True: 让 Spark 自动推断 CSV 文件中各列的数据类型

toDF: 这是一个 DataFrame 方法，用于为 DataFrame 的列指定新的列名。

3. 获取某行某列的值(具体值)

直接获取 DataFrame 的特定行（例如第 562962 行）并不是一个高效的操作，因为 Spark 是

分布式计算框架，数据被分割并在多个节点上并行处理
# 获取第一行
first_row = df.first()

# 获取 feature 列的值
first_row['feature_1']
# 获取前两行
rows = df.take(2)

# 获取第二行
second_row = rows[1]

# 获取 feature 列的值
second_row['feature']
4.查看列名
df.columns
5.修改列名

5.1 修改单个列名
# 修改列名
df_renamed = df.withColumnRenamed("name", "new_name")
5.2 修改多个列名

5.2.1 链式调用 withColumnRenamed 方法
# 修改多个列名
df_renamed = df.withColumnRenamed("id", "new_id").withColumnRenamed("name", "new_name")
5.2.2 使用 selectExpr 方法

注意：使用 selectExpr 方法时，最后只会得到你修改的列，即，在函数参数中的列名

如果想使用该方法时，还想要原来的列名，就直接，在参数中加入，"原列名 as 原列名"
# 使用 selectExpr 修改列名
df_renamed = df.selectExpr("id as new_id", "name as new_name")
6. pandas类型转化为pyspark pandas
pandas.core.frame.DataFrame 类型转化为 pyspark.sql.dataframe.DataFrame
# 将 Pandas DataFrame 转换为 PySpark DataFrame
pyspark_df = spark.createDataFrame(pandas_df)
7.选择特定的列，创建一个新的 DataFrame
# 选择某几列并创建新的 DataFrame
new_df = df.select("name", "age")
8.列表套字典格式转化为pyspark DataFrame
# 示例列表套字典
data = [
    {"name": "Alice", "age": 25, "id": 1},
    {"name": "Bob", "age": 30, "id": 2},
    {"name": "Cathy", "age": 35, "id": 3}
]

# 将列表套字典转换为 PySpark DataFrame
df = spark.createDataFrame(data)

# 显示 DataFrame
df.show()
9. 根据某列或者某列进行去重
duyuv3_1_df = duyuv3_1_df.dropDuplicates(['md5', 'time', 'label'])
10. pyspark 的两个dataframe合并
merged_v3_1_df = duyuv3_1_df.join(passid_md5_df, on=['md5'], how='left')
11.查看 pyspark dataframe中某列为空的数量
null_passid_count = merged_v3_1_df.filter(merged_v3_1_df['passid'].isNull()).count()
print(f"passid is null:{null_passid_count}")
12.删除 pyspark dataframe中第一行数据
data_df = data_df.filter(col("_c0") != data_df.first()[0])
data_df.first(): 获取 DataFrame 的第一行数据。

col("_c0"): 获取 DataFrame 的第一列（默认情况下，Spark 会将 CSV 文件的列命名为 _c0, _c1, _c2, ...）。

data_df.filter(col("_c0") != data_df.first()[0]): 过滤掉第一行数据。这里假设第一行的第一列值与后续行的第一列值不同，因此通过比较第一列的值来过滤掉第一行。

13.pyspark dataframe用空格拼接两列得到新的列
# 拼接特征列
        replace_df = replace_df.withColumn(
            'merged_feature',
            when(col('featurev3').isNotNull() & col('feature_v3_1').isNotNull(),
                 concat_ws(' ', col('featurev3'), col('feature_v3_1')))
            .when(col('featurev3').isNotNull(), col('featurev3'))
            .when(col('feature_v3_1').isNotNull(), col('feature_v3_1'))
            .otherwise(lit(''))
        )
14.将pyspark dataframe 保存到集群（分片）
save_path =f'afs://szth.afs.****.com:9902/user/fsi/duyuv3_1_feature/result_duyuv3_1/'
rdd_combined_duyuv3_1 = feature_cgc.rdd.map(lambda x: "\t".join(x))
rdd_combined_duyuv3_1.saveAsTextFile(save_path)
16.将pyspark dataframe 保存为csv
output_path = "afs://szth.afs.baidu.com:9902/user/fsi/tongweiwei/duyuv3_1_feature/data.csv"
final_df.write.csv(output_path, header=True, mode="overwrite")
实际场景1

对某列的值进行按照空格进行切割，然后在对切割后的数据判断冒号前面的字符串判断是否在某一个字符串中，如果在则去除掉
from pyspark.sql.types import StringType
from pyspark.sql.functions import concat_ws, col, when, lit, udf

def filter_feature(feature_str, filter_list):
    parts = feature_str.split()
    filtered_parts = [part for part in parts if str(part.split(':')[0]) not in filter_list.split(',')]
    return ' '.join(filtered_parts)

filter_feature_udf = udf(filter_feature, StringType())

df = duyuv3_df.withColumn("featurev3", filter_feature_udf(col("featurev3"), lit(duyuv3_str)))
实际场景2

对某列的值，按照空格进行切割后，按照冒号前面的进行排序
from pyspark.sql.types import StringType
from pyspark.sql.functions import concat_ws, col, when, lit, udf


def sort_by_number(value):
        # 将输入字符串按空格分割为列表
        value = value.strip().split(" ")

        value_list = []
        # 遍历列表中的每个元素，提取数字部分并排序
        for val in value:
            try:
                feat_num = int(val.split(":")[0])
                value_list.append(val)
            except:
                continue
        sorted_pairs = sorted(value_list, key=lambda x: int(x.split(":")[0]))

        return " ".join(sorted_pairs)


sort_by_number_udf = udf(sort_by_number, StringType())


feature_cgc = replace_df.withColumn("sorted_feat",sort_by_number_udf(replace_df["merged_feature"]))

原文地址：https://blog.csdn.net/wei18791957243/article/details/141899623

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：数组与贪心算法——409、621（1中1简）
下一篇：工厂模式和策略模式的区别

Java爬虫（Jsoup）详解
Jsoup 是一款 Java 的 HTML 解析器，能够直接解析 URL 地址或 HTML 文本内容。它提供了一套非常省力的 API，可以通过 DOM、CSS 选择器以及类似于 jQuery 的操作方
阅读更多2024-11-18
【Linux】基础IO
文件=内容+属性。文件存储于磁盘上，即使是没有内容的空文件，因为属性信息仍占有一定的空间。Linux在文件的内容和属性是分开存储的。文件的操作本质是进程与被打开文件的关系。NAMESYNOPSISN
阅读更多2024-11-18
DevEco Studio 5.0.1 Beta3安装及配置
下载得到devecostudio-windows-5.0.5.200.zip文件。解压，得到deveco-studio-5.0.5.200.exe安装文件。
阅读更多2024-11-18
【MYSQL】读写分离【自我复习版】
所以先配置好主从机制，然后读写分离，实际上就是为了避免DML操作过慢导致查询速度下降，所以将主节点作为DML操作的库，然后把从节点当做DQL操作的库。所以就不能保证数据库的高可用。可以通过业务分类操作
阅读更多2024-11-18
Essential Cell Biology--Fifth Edition--Chapter one (7)
在内质网、高尔基体、溶酶体、质膜和细胞外部之间进行着持续的物质交换。这种交换是由运输囊泡[transport vesicles]介导[is mediated by]的，这些囊泡从一个细胞器的膜上夹下来
阅读更多2024-11-18
windows C#-创建记录类型(下)
记录是使用基于值的相等性的类型。 C# 10 添加了 record structs，以便你可以将记录定义为值类型。两个记录类型的变量在它们的类型和值都相同时，它们是相等的。两个类类型的变量如果引用
阅读更多2024-11-18
第8章利用CSS制作导航菜单
而且，用户浏览的习惯都是从上到下、从左往右的，将导航放置底部，这样的设计比较挑战用户的使用习惯。仍然是在<nav>的首尾标签之间，使用<div>标签创建菜单范围，结合无序列表&
阅读更多2024-11-18
【文化课学习笔记】【化学】有机相关知识梳理
有机相关知识梳理有机物的化学性质有机物主要化学反应高中有机主要反应(不涉及加聚、缩聚)：烃三角涵盖了烷、烯、炔和卤代烃三种烃类的关系，可逆三角中的三类物质可以互相转化、醇醛酸酯化三角主要反应以连续氧化
阅读更多2024-11-18
渗透测试---shell（3）脚本参数传递与数学运算
本文主要阐释了shell脚本的参数传递与数学运算，希望对你有所帮助咯。
阅读更多2024-11-18
题解：AtCoder Beginner Contest AT_abc380_d ABC380D Strange Mirroring
解释一下，这堆东西每两行为一组，每组中第一行为位置，第二行为编号（一或二）。第一组是刚才说的一号二号串的组合，第二组就是把第一组中的。当然不能直接计算出来了，不过可以递归。单次查询的时间复杂度不高，递
阅读更多2024-11-18

Pyspark DataFrame常用操作函数和示例

1.打印前几行

1.1 show()函数

1.2 take()函数

2. 读取文件

2.1 spark.read.csv

3. 获取某行某列的值(具体值)

4.查看列名

5.修改列名

5.1 修改单个列名

5.2 修改多个列名

5.2.1 链式调用 `withColumnRenamed` 方法

5.2.2 使用 `selectExpr` 方法

6. pandas类型转化为pyspark pandas

7.选择特定的列，创建一个新的 DataFrame

8.列表套字典格式转化为pyspark DataFrame

9. 根据某列或者某列进行去重

10. pyspark 的两个dataframe合并

11.查看 pyspark dataframe中某列为空的数量

12.删除 pyspark dataframe中第一行数据

13.pyspark dataframe用空格拼接两列得到新的列

14.将pyspark dataframe 保存到集群（分片）

16.将pyspark dataframe 保存为csv

实际场景1

实际场景2

Pyspark DataFrame常用操作函数和示例

1.打印前几行

1.1 show()函数

1.2 take()函数

2. 读取文件

2.1 spark.read.csv

3. 获取某行某列的值(具体值)

4.查看列名

5.修改列名

5.1 修改单个列名

5.2 修改多个列名

5.2.1 链式调用 withColumnRenamed 方法

5.2.2 使用 selectExpr 方法

6. pandas类型转化为pyspark pandas

7.选择特定的列，创建一个新的 DataFrame

8.列表套字典格式转化为pyspark DataFrame

9. 根据某列或者某列进行去重

10. pyspark 的两个dataframe合并

11.查看 pyspark dataframe中某列为空的数量

12.删除 pyspark dataframe中 第一行数据

13.pyspark dataframe用空格拼接两列得到新的列

14.将pyspark dataframe 保存到集群（分片）

16.将pyspark dataframe 保存为csv

实际场景1

实际场景2

相关文章

5.2.1 链式调用 `withColumnRenamed` 方法

5.2.2 使用 `selectExpr` 方法

12.删除 pyspark dataframe中第一行数据