【Spark SQL】文本函数及业务场景使用

🕗 发布于 2024-10-17 16:42 spark sql javascript

字符串处理方式

基本操作

函数	函数含义	举例	结果
isnull()	判断是否为null值		true/false
isnotnull()	判断是否非null值		true/false
ifnull(expr1, expr2)	判断null值并替换null值	A=null B=1 if(A,B)	1
coalesce(expr1, expr2, …)	返回第一个非null值的值	A=null B=1 C=1 coalesce(A,B,C)	1
length()	返回字符串的长度	length(‘woshi wo’)	8
initcap()	将英文字符串转为首字母大写	initcap(‘woshi wo’)	Woshi Wo
lcase()/lower()	将英文字符串转为小写	lcase(‘ABC’); lower(‘ABC’)	abc
ucase()/upper()	将英文字符串转为大写	ucase(‘abc’); upper(‘abc’)	ABC
reverse()	将字符串反转	reverse(‘123’)	‘321’
string()	将其他类型转换为字符串	string(123)	‘123’
cast( expr as string)	将其他类型转换为字符串	cast(123 as string)	‘123’

字符串查找

函数	函数含义	举例
locate(‘需要查找的字符串’, ‘被查找字符串’,‘查询的起始位置(选填)’)	返回第一次匹配到的字符串所在位置	locate(‘w’,‘qoeqrwe2w123’)=6 locate(‘w’,‘qoeqrwe2w123’,5)=6 locate(‘w’,‘qoeqrwe2w123’,7) =9
instr( ‘被查找字符串’,‘需要查找的字符串’)	返回第一次匹配到的字符串所在位置	instr(‘Wanni’,‘n’)=3
find_in_set(str, str_array) 被查询字符串是以逗号隔开的字符串。	返回第一次匹配到的字符串所在位置	find_in_set(‘ab’,‘abc,b,ab,c,def’)=3
find_in_set(str, str_array) 被查询字符串是以逗号隔开的字符串。	返回第一次匹配到的字符串所在位置	find_in_set(‘ab’,‘abc,b,ab,c,def’)=3
like	模糊匹配指定模式的字符串，返回 true/false。需结合通配符使用	(‘wAn’ like ‘A’ )=true
rlike	模糊匹配指定模式的字符串，返回 true/false。需结合正则表达式使用	(‘ssssqw100ml’ elike ‘\d’ )=false

字符串截取、替换、分割和拼接

用途	函数	举例
字符串截取，截取长度[, len]省略时截取指定位置开始的所有字符	substr(str, pos[, len]) ;	substring(str, pos[, len]) substring(‘123abcABC’, 2, 3)=23a; substr(‘Spark SQL’, -3)=SQL
返回字符串中在第 n 个出现的分隔符之前的子串。n 是负数时，返回从右边开始第 -n 个分隔符到右边所有字符。	substring_index(str, delim, n)	substring_index(‘a.b.c.d.e’, ‘.’, 2)=a.b; substring_index(‘a.b.c.d.e’, ‘.’, -2)= d.e
从左侧开头处截取固定长度字符串	left(str, len)	left(‘Spark SQL’, 3)=Spa
从右侧结尾处截取固定长度字符串	right(str, len)	right(‘Spark SQL’, 3)=SQL
移除字符串开头（左侧）的空格	ltrim(str) ;	trim(LEADING FROM str) ltrim(’ Spark SQL’)=Spark SQL
移除字符串结尾（右侧）的空格	rtrim(str) ;	trim(TRAILING FROM str) rtrim('Spark SQL ')=Spark SQL
移除字符串开头和结尾（左右两侧）的空格 trim(str) ;	trim(BOTH FROM str)	trim(’ Spark SQL ')=Spark SQL
移除字符串开头和结尾（左右两侧）的指定字符	trim(trimStr FROM str) 移除两侧; trim(LEADING trimStr FROM str) 移除左侧;	trim(TRAILING trimStr FROM str) 移除右侧 trim('’ from ‘ABC’)=ABC
替换所有匹配到的字符。[, replace]省略时移除所有匹配到的字符。	replace(str, search[, replace])	replace(‘ABCabc’, ‘abc’, ‘DEF’)=ABCDEF
多字符替换。针对input，将from中的每个字符替换为to中相应字符。若from比to字符串长，在from中比to中多出的字符将会被删除。	translate(input, from, to)	translate(‘AaBbCc’, ‘abc’, ‘123’)=A1B2C3； translate(‘AaBbCc’, ‘abc’, ‘12’)=A1B2C
替换固定位置字符，可指定替换长度	overlay(input, replace, pos[, len])	overlay(‘Spark SQL’ ,‘tructured’ ,2,4)=Structured SQL；overlay(‘Spark SQL’ PLACING ‘tructured’ FROM 2 FOR 4)=Structured SQL
正则匹配替换所有匹配到的字符	regexp_replace(str, regexp, rep)	REGEXP_REPLACE(‘A1B2C3*’,‘[\d]’,‘’) =‘ABC’
以单个或多个字符分割字符串, 返回数组。分隔符支持正则表达式，limit控制分割后元素数，省略时代表全部分割	split(str, regex, limit) split(‘A1B2C’,‘\d’)=[A, B, C];	split(‘A1B2C’,‘\d’,2)=[A, B2C]; split(‘A-B-C’,‘-’)= [A, B, C]
字符串拼接	concat	concat(‘Spark’, ‘SQL’)=SparkSQL
字符串拼接	expr1 丨丨expr2	Spark’ 丨丨 ‘SQL’=SparkSQL
用分隔符拼接字符串或数组	concat_ws(sep[, str	array(str)]+)
返回字符串重复对应数值次数后的新字符串	repeat(str, n)	repeat(‘ABC’, 2)=ABCABC

业务场景

商品名称里包含了规格，需要解析出规格用于匹配
示例：

商品名称	sku	需要获取的规格
xx清透沐浴露沐浴洗澡女夏500ml	Esjw1k	500ml
xx清透沐浴露沐浴2135洗21澡男夏300ML	Esjw1k	300ml

解决sql：

# LOWER() 转换小写
# REGEXP_SUBSTR(字段, 正则表达式)  查找符合正则表达式的值
select CASE
        WHEN LOWER(商品名称 ) LIKE '%ml%' THEN
            REGEXP_SUBSTR(LOWER(商品名称 ), '[0-9]+(?=ml)') || 'ml'
        ELSE
            NULL
    END as `需要获取的规格` from table

原文地址：https://blog.csdn.net/qq_33407429/article/details/143001203

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：通过 Twitter Token 实现授权与操作
下一篇：阳台、公寓光伏如何配套使用防逆流互感器户储

Vue前端项目运行时常用的指令整理及问题解决(包含淘宝最新镜像)
安装好后可以先配置国内镜像源，这里需要注意的是淘宝现在最新的镜像源发生了改变，很多老项目中需要作更改，这里安装nvm可以先在安装目录下的settings.txt文件中配置镜像源。对于不同的项目可能需要
阅读更多2024-10-18
机器学习中的优化算法
Optimization Algorithms in Machine Learning,机器学习中的优化算法。优化算法是机器学习模型的支柱，因为它们使建模过程能够从给定的数据集中学习。这些算法用于查找
阅读更多2024-10-18
Js 更加优雅地实现Form表单重置
最近在做一个后台项目不免大量使用表单表单查询编辑还原导入导出不免要经常实现记录下表单重置的一些方法。
阅读更多2024-10-18
C语言 | Leetcode C语言题解之第485题最大连续1的个数
C语言 | Leetcode C语言题解之第485题最大连续1的个数
阅读更多2024-10-18
容器化技术：Docker入门与实战
Docker是一个开源的容器化平台，它允许开发者将应用程序及其依赖打包到一个轻量级、可移植的容器中。Docker解决了传统应用在不同环境中运行的不一致性问题，确保了从开发环境到生产环境的无缝迁移。Do
阅读更多2024-10-18
网络编程-UDP以及数据库mysql
UDP+mysql
阅读更多2024-10-18
51单片机的智能热水器控制系统【proteus仿真+程序+报告+原理图+演示视频】
含代码、仿真、报告、原理图、讲解文档、演示视频
阅读更多2024-10-18
Docker 删除镜像的时候遇到：Error response from daemon: conflict: unable to deletexxx
解决办法，很简单，查看当前正在运行的容器，然后停止运行容器，然后再次执行删除即可。报错的主要原因是在于正在删除的镜像，正在使用中，所以无法进行删除。需要注意的是，请一定要确保该容器不再使用了，否则删除
阅读更多2024-10-18
Centos 7使用yum提示无法解析主机：mirrorlist.centos.org
目录1.问题:2.原因3.解决方案:1)切换到Vault2)第二种改为阿里云1.问题:yum源无法使用2.原因从2024年7月1日起,在CentOS7上,请切换到Vault存档存储库3.解决方案:1)
阅读更多2024-10-18
【SPIE出版，EI检索稳定】2024年人机交互与虚拟现实国际会议（HCIVR 2024，11月15-17日）
2024年人机交互与虚拟现实国际会议（HCIVR 2024）2024 International Conference on Human-Computer Interaction and Virtua
阅读更多2024-10-18

【Spark SQL】文本函数及业务场景使用

字符串处理方式

业务场景

相关文章