Spark高级用法-内置函数

🕗 发布于 2024-10-14 19:38 spark ajax javascript

读取数据

# 内置数据集
from pyspark.sql import SparkSession,functions as F
ss = SparkSession.builder.getOrCreate()

# 读取文件准尉df
df = ss.read.csv('hdfs://node1:8020/data/students.csv',header=True,sep=',',schema='id int,name string,gender string,age int,cls string')

# print(df.show())
# 对字符串数据使用内置数据集进行处理
# 拼接
df_concat = df.select(df.id,df.name,df.gender,F.concat('name','gender').alias('fileds'),F.concat_ws(':','name','gender').alias('fileds2'))
df_concat.show()

1.字符串

1）拼接

df_concat = df.select(df.id,df.name,df.gender,F.concat('name','gender').alias('fileds'),F.concat_ws(':','name','gender').alias('fileds2'))
df_concat.show()

2）截取

df_substr = df.select(df.name,F.substring('name',1,2))
df_substr.show()

3）切割

df_split = df_concat.select(df_concat.fileds2,F.split('fileds2',":"))
df_split.show()

4）切割后取数据

df_split2 = df_concat.select(df_concat.fileds2,F.split('fileds2',":")[1])
df_split2.show()

5）字符串替换

df_replace = df.select(df.name,F.regexp_replace('name','张','A'))
df_replace.show()

6）聚合函数

df_agg = df.groupby('gender').agg(F.sum('age').alias('sum'),F.avg('age').alias('avg'))
df_agg.show()

2.数值类

1）确定小数点位数

df_round = df_agg.select(df_agg.gender,df_agg.avg,F.round('avg',2))
df_round.show()

2）向上取值

df_ceil = df_agg.select(df_agg.gender,df_agg.avg,F.ceil('avg'))
df_ceil.show()

3）向下取值

df_floor = df_agg.select(df_agg.gender,df_agg.avg,F.floor('avg'))
df_floor.show()

4）从指定字段中取当前行最大的一个值

df_greatest = df_agg.select(df_agg.gender,df_agg.sum,df_agg.avg,F.greatest('sum','avg'))
df_greatest.show()

3.时间类型

1）获取当前的日期时间和unix时间

df_time = df.select(df.id,df.name,F.current_date().alias('dt'),F.current_timestamp().alias('tm'),F.unix_timestamp().alias('un'))
df_time.show()

2）将日期转为时间戳

df_unix = df_time.select(df_time.dt,F.unix_timestamp('dt'))
df_unix.show()

3）将时间戳转为日期

df_unix_time = df_time.select(df_time.un,F.from_unixtime('un','yyyy/MM/dd HH:mm:ss'))
df_unix_time.show()

4）日期的加减

df_add_dt = df_time.select(df_time.dt,F.date_add('dt',3))
df_add_dt.show()

df_add_dt = df_time.select(df_time.dt,F.date_add('dt',-3))
df_add_dt.show()

5）日期比较

df_diff_dt = df_time.select(df_time.dt,F.datediff('dt',F.date_add('dt',3)))
df_diff_dt.show()

6）日期取值

df_value_dt = df_time.select(df_time.tm,F.year('tm'),F.month('tm'),F.substring('tm',9,2),F.hour('tm'),F.second('tm'))
df_value_dt.show()

4.条件判断

1）实现if 效果判断

df_when = df.select(df.name,df.gender,F.when(df.gender == '女' , 1).otherwise(2))
df_when.show()

2）实现case when 效果判断

df_case_when = df.select(df.name,df.age,F.when(df.age > 30 , '中年').when((df.age >=18) & (df.age <= 30) , '青年').otherwise('青少年').alias('年龄层'))
df_case_when.show()

5.窗口函数

from pyspark.sql.window import Window

# 1-创建窗口
w = Window.partitionBy('gender').orderBy('age')

# 2-使用窗口函数
df_windows = df.select(df.id,df.name,df.gender,df.age,F.rank().over(w).alias('rank'))
df_windows.show()

原文地址：https://blog.csdn.net/weixin_58305115/article/details/142899338

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：物资出入库二维码管理系统
下一篇：【部署篇】Redis-01介绍‌

一文了解如何应对生成式AI和大模型应用带来的存储挑战
技术的发展正在推动着存储技术的变革，随着QLC、CXL和HBM等先进技术的不断突破和发展，生成式AI和大模型应用面临的存储墙问题将迎刃而解！生成式AI和各种大模型应用，对算力提出了更高的要求，CPU+
阅读更多2024-10-15
Excel：vba实现合并工作簿中的表
A、B、C这三个工作簿的数据都在sheet1，表头一样。
阅读更多2024-10-15
增强对象智能：谷歌开源的XR-Objects项目简介
根据用途的不同，整个系统被划分为四大主要类别：信息查询、对比分析、内容分享以及注释添加。每个类别之下又有多种具体的功能可供选择。总之，通过结合最新的计算机视觉技术和人工智能算法，谷歌成功打造出了一个极
阅读更多2024-10-15
MambaVision原理和源码调测
后面可以看到代码实现也是按照N/2写的。
阅读更多2024-10-15
Bluetooth Channel Sounding中关于CS Step及Phase Based Ranging相应Mode介绍
支持BLE CS的设备，必须要支持此模式，主要用于测量获得BLE CS双方的存在频率偏差。具体来说，是BLS CS中的initiator设备用此模式获得reflector设备与自身的频率偏差。获得该频
阅读更多2024-10-15
速卖通商品详情接口技术解析及Python代码示例
速卖通（AliExpress）作为全球知名的跨境电商平台，其开放平台提供了丰富的API接口，允许开发者集成速卖通的各项功能，实现商品搜索、详情查询、订单管理等一系列操作。本文将重点介绍如何使用速卖通商
阅读更多2024-10-15
【Kubernets】容器网络基础二：通讲CNI（Container Network Interface）容器网络接口实现方案
Macvlan和Ipvlan都是强大的 Linux 内核特性，能够为容器和虚拟机提供高效的网络连接。选择哪种技术取决于具体的网络需求和应用场景。如果你需要每个虚拟网络接口有独立的 MAC 地址，可以选
阅读更多2024-10-15
数据结构：双向带头链表
双向带头链表简易代码
阅读更多2024-10-15
Spring webflux
WebFlux的确通过线程池和多路复用的方式来处理请求，避免了传统每个请求都创建新线程的做法。虽然维护的线程数量是固定的，但由于采用了非阻塞和异步事件驱动的机制，线程并不会因为等待 I/O 而被阻塞，
阅读更多2024-10-15
Python 中 NameError 全局名称未定义
NameError: name 'x' is not defined 是 Python 中常见的错误之一，通常表示你尝试访问一个尚未定义的变量或函数。特别是全局名称未定义时，意味着你在使用某个
阅读更多2024-10-15