Python学习笔记（2）正则表达式

🕗 发布于 2024-11-17 08:50 python 学习笔记

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。

在 Python 中，使用 re 模块提供的函数来处理正则表达式，允许你在字符串中进行模式匹配、搜索和替换操作。

1 正则表达式

正则表达式(Regular Expression)是一种文本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为"元字符"），可以用来描述和匹配字符串的特定模式。

正则表达式是一种用于模式匹配和搜索文本的工具。

正则表达式提供了一种灵活且强大的方式来查找、替换、验证和提取文本数据。

下面先给出一个简单的示例：
在这里插入图片描述

^ 为匹配输入字符串的开始位置。
[0-9]+匹配多个数字， [0-9] 匹配单个数字，+ 匹配一个或者多个。
abc$匹配字母 abc 并以 abc 结尾，$ 为匹配输入字符串的结束位置。

再举一个例子，只允许用户名包含字符、数字、下划线和连接字符 -：
在这里插入图片描述

^ 表示匹配字符串的开头。
`[a-zA-Z0-9_-]`` 表示字符集，包含小写字母、大写字母、数字、下划线和连接字符 -。
{3,15} 表示前面的字符集最少出现 3 次，最多出现 15 次，从而限制了用户名的长度在 3 到 15 个字符之间。
$ 表示匹配字符串的结尾。

以上的正则表达式可以匹配 runoob、runoob1、run-oob、run_oob，但不匹配 ru，因为它包含的字母太短了，小于 3 个无法匹配。也不匹配 runoob$, 因为它包含特殊字符。

1.1 正则表达式元字符和特性

1.1.1 字符匹配

普通字符： 普通字符按照字面意义进行匹配，例如匹配字母 “a” 将匹配到文本中的 “a” 字符。
元字符： 元字符具有特殊的含义，例如 \d 匹配任意数字字符，\w 匹配任意字母数字字符，. 匹配任意字符（除了换行符）等。

1.1.2 量词

*：匹配前面的模式零次或多次。
+：匹配前面的模式一次或多次。
?：匹配前面的模式零次或一次。
{n}：匹配前面的模式恰好 n 次。
{n,}：匹配前面的模式至少 n 次。
{n,m}：匹配前面的模式至少 n 次且不超过 m 次。

1.1.3 字符类

[ ]：匹配括号内的任意一个字符。例如，[abc] 匹配字符 “a”、“b” 或 “c”。
[^ ]：匹配除了括号内的字符以外的任意一个字符。例如，[^abc] 匹配除了字符 “a”、“b” 或 “c” 以外的任意字符。

1.1.4 边界匹配

^：匹配字符串的开头。
$：匹配字符串的结尾。
\b：匹配单词边界。
\B：匹配非单词边界。

1.1.5 分组和捕获

( )：用于分组和捕获子表达式。
(?: )：用于分组但不捕获子表达式。
特殊字符
\：转义字符，用于匹配特殊字符本身。
.：匹配任意字符（除了换行符）。
|：用于指定多个模式的选择。

详细教程参考：https://www.runoob.com/regexp/regexp-tutorial.html

2 Python的正则表达式处理模块

2.1 `re.match`函数

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match() 就返回 None。

函数语法：

re.match(pattern, string, flags=0)
'''
- pattern匹配的正则表达式
- string要匹配的字符串。
- flags    标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志
'''

import re
print(re.match('www', 'www.runoob.com'))  # 在起始位置匹配
print(re.match('com', 'www.runoob.com'))  # 不在起始位置匹配

运行结果：
在这里插入图片描述
第一个输出的是(0,3)，即匹配成功的索引，第二个虽然原字符串中有，但不是从起始位置开始匹配成功的，所以输出None

匹配成功 re.match 方法返回一个匹配的对象，否则返回 None。 我们可以使用 group(num) 或 groups() 匹配对象函数来获取匹配表达式。

'''
- group(num=0)匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
- groups()    返回一个包含所有小组字符串的元组，从 1 到 所含的小组号。
'''

import re
 
line = "Cats are smarter than dogs"

matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I)
# 匹配包含 "are" 的句子，并分别捕获 "are" 前后的部分内容
 
if matchObj:
   print ("matchObj.group() : ", matchObj.group())
   print ("matchObj.group(1) : ", matchObj.group(1))
   print ("matchObj.group(2) : ", matchObj.group(2))
else:
   print ("No match!!")

运行结果：
在这里插入图片描述
第一个是输出匹配的字符串，第二个是输出第一个匹配成功的元素，第三个是输出第二个匹配成功的元素，

2.2 `re.search`方法

re.search 扫描整个字符串并返回第一个成功的匹配。

函数语法：

re.search(pattern, string, flags=0)
'''
- pattern匹配的正则表达式
- string要匹配的字符串。
- flags    标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志
'''

import re
 
print(re.search('www', 'www.runoob.com'))  # 在起始位置匹配
print(re.search('com', 'www.runoob.com'))  # 不在起始位置匹配

运行结果：
在这里插入图片描述
第一个输出是’www’在字符串中的索引，第二个输出是’com’在字符串中的索引，同样可以使用group(num) 或 groups()

2.3 检索和替换

Python 的re模块提供了re.sub用于替换字符串中的匹配项。

函数语法：
前三个为必选参数，后两个为可选参数。

re.sub(pattern, repl, string, count=0, flags=0)
'''
- pattern : 正则中的模式字符串。
- repl :    替换的字符串，也可为一个函数。
- string :  要被查找替换的原始字符串。
- count :   模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。
- flags :   编译时用的匹配模式，数字形式。
'''

import re
 
phone = "2004-959-559 # 这是一个电话号码"
 
# 匹配以 # 开头并直到行末的所有内容，然后用空替换
num = re.sub(r'#.*$', "", phone)
print ("电话号码 : ", num)
 
# 匹配任何非数字字符，然后用空替换
num = re.sub(r'\D', "", phone)
print ("电话号码 : ", num)

运行结果：
在这里插入图片描述

2.4 repl 参数

repl 参数是一个函数，以下实例中将字符串中的匹配的数字乘以 2：

import re
 
# 将匹配的数字乘以 2
def double(matched):
    value = int(matched.group('value'))
    return str(value * 2)
 
s = 'A23G4HFD567'
print(re.sub('(?P<value>\d+)', double, s))
# 用于匹配一个或多个数字，并将匹配的结果命名为Value，然后执行double函数

运行结果：
在这里插入图片描述

2.5 compile 函数

compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

函数语法：

re.compile(pattern[, flags])
'''
- pattern : 一个字符串形式的正则表达式
- flags 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：
re.IGNORECASE 或 re.I - 使匹配对大小写不敏感
re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.MULTILINE 或 re.M - 多行模式，改变 ^ 和 $ 的行为，使它们匹配字符串的每一行的开头和结尾。
re.DOTALL 或 re.S - 使 . 匹配包括换行符在内的任意字符。
re.ASCII - 使 \w, \W, \b, \B, \d, \D, \s, \S 仅匹配 ASCII 字符。
re.VERBOSE 或 re.X - 忽略空格和注释，可以更清晰地组织复杂的正则表达式。
这些标志可以单独使用，也可以通过按位或（|）组合使用。例如，re.IGNORECASE | re.MULTILINE 表示同时启用忽略大小写和多行模式。
'''

pattern1 = re.compile(r'\d+')                    # 用于匹配一个或多个连续的数字。
m1 = pattern1.match('one12twothree34four')       # 从头部开始匹配
print( m1 )

pattern2 = re.compile(r'\d+')                    # 用于匹配一个或多个连续的数字。
m2 = pattern2.search('one12twothree34four')      # 都可以匹配
print( m2 )

运行结果：
在这里插入图片描述

2.6 findall

在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果有多个匹配模式，则返回元组列表，如果没有找到匹配的，则返回空列表。

注意： match 和 search 是匹配一次 findall 匹配所有。

语法格式为：

re.findall(pattern, string, flags=0)
# 或
pattern.findall(string[, pos[, endpos]])
'''
- pattern  匹配模式。
- string   待匹配的字符串。
- pos      可选参数，指定字符串的起始位置，默认为 0。
- endpos   可选参数，指定字符串的结束位置，默认为字符串的长度。
'''

下面举一个例子，查找字符串中的所有数字：

import re
 
result1 = re.findall(r'\d+','runoob 123 google 456')
 
pattern = re.compile(r'\d+')   # 查找数字
result2 = pattern.findall('runoob 123 google 456')
result3 = pattern.findall('run88oob123google456', 0, 10)
 
print(result1)
print(result2)
print(result3)

运行结果：
在这里插入图片描述
多个匹配模式，返回元组列表：

import re

# 匹配一个或多个字母、数字或下划线组成的单词，后面紧跟着一个等号 =，再后面是一个或多个数字。这个表达式通常用来匹配类似 key=123 的键值对格式。
result = re.findall(r'(\w+)=(\d+)', 'set width=20 and height=10')
print(result)

运行结果：
在这里插入图片描述

2.7 re.finditer

和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

语法格式：

re.finditer(pattern, string, flags=0)

import re
 
it = re.finditer(r"\d+","12a32bc43jf3") 
for match in it: 
    print (match.group() )

运行结果：
在这里插入图片描述

2.8 re.split

split 方法按照能够匹配的子串将字符串分割后返回列表。

语法格式：

re.split(pattern, string[, maxsplit=0, flags=0])
'''
- pattern 匹配的正则表达式
- string 要匹配的字符串。
- maxsplit 分割次数，maxsplit=1 分割一次，默认为 0，不限制次数。
- flags     标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。
'''

import re
re.split('\W+', 'runoob, runoob。runoob.')# 用于匹配一个或多个连续的非单词字符，然后以这些来分割

运行结果：
在这里插入图片描述

re.split('a*', 'hello world')   # 对于一个找不到匹配的字符串而言，split 不会对其作出分割

运行结果：
在这里插入图片描述

2.9 正则表达式对象

2.9.1 re.RegexObject

re.compile() 返回 RegexObject 对象。

2.9.2 re.MatchObject

group() 返回被 RE 匹配的字符串。

start() 返回匹配开始的位置
end() 返回匹配结束的位置
span() 返回一个元组包含匹配 (开始,结束) 的位置

具体的正则表达式修饰符 - 可选标志、正则表达式模式、正则表达式实例这里不再详述

原文地址：https://blog.csdn.net/m0_53115174/article/details/143822280

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：类和对象——拷贝构造函数，赋值运算符重载（C++）
下一篇：【数字三角形——DP+找规律】

手机ip地址异常怎么解决
在现代社会中，手机已成为我们日常生活中不可或缺的一部分，无论是工作、学习还是娱乐，都离不开网络的支持。然而，有时我们会遇到手机IP地址异常的问题，这不仅会影响我们的网络体验，还可能带来安全隐患。本文将
阅读更多2024-11-17
Windows 小记 5 -- 判断账户是否是管理员账户
域用户（针对间接或者嵌套用户组，最佳的获取方式是通过令牌SID，如果用户账户已经登陆，则可以通过进程句柄获取令牌，否则，则需要通过凭据登陆获取令牌）此外需要注意，当账户没有启用时，可能是无法创建和登陆
阅读更多2024-11-17
Python 小高考篇（5）自定义函数
通过def关键词，可以自定义一个函数，之后再在代码内调用它。第一行代表定义一个函数，函数名字叫hello；第2行到第3行代表该函数需要执行的东西，第4行代表执行该函数。lambda是一种很简洁（偷懒）
阅读更多2024-11-17
MySQL慢日志
日志顾名思义就是查询慢的sql语句可以记录到一个日志文件里，至于有多慢才会被记录，默认是10秒，但也可以通过系统配置来更改，慢日志在做系统优化时是一个非常好用的工具。上面的操作只是对本次MySQL服务
阅读更多2024-11-17
凹凸/高度贴图、法线贴图、视差贴图、置换贴图异同
因为NormalMap只是改变的表面上的光照结果，并没有改变表面上的形状，不能实现自身内部的遮挡，因此不能表现平面上凹凸起伏比较大的场合。根据经验，这个凸起会很轻易的挡住我们的视线，让我们看不见那支牙
阅读更多2024-11-17
PMBOK® 第六版控制进度
制定了明确的计划后，对计划的控制尤为重要。例如，经常提到的“累积效应”，如果某个阶段的评分仅为0.9分，那么五个得分为0.9分的阶段，最终结果可能只是一个0.5分。
阅读更多2024-11-17
网络通信NetClient实现
上一集我们就完成了数据中心类的内容，那么我们开始需要进行网络的通信，我们这一集就要封装一个类来帮我们实现网络上的通信。
阅读更多2024-11-17
frp内网穿透介绍安装教程
内网穿透（Port Forwarding）是将公网上的IP地址映射到内部网络中的一台计算机的某个端口上，以便外部网络可以访问该计算机中运行的应用程序。内网穿透技术可以通过一些开源工具来实现，其中比较常
阅读更多2024-11-17
【网络】子网掩码
前面我们已经学习了网络的基础知识，对网络的基本框架已有认识，算是初步认识到网络了，如果上期我们的学习网络是步入基础知识，那么这次学习的板块就是基础知识的实践，我们今天的板块是学习网络重要之一，学习完这
阅读更多2024-11-17
网络物理隔离应用
其实公安的摄像头视频好几个王都有，视频量最大的在公安视频专网里面，还有一些就是社会资源的摄像头，比如一些酒店、网吧，他会有视频监控，这些视频监控，是要求你要把它导入到公安视频专网里面，视频专网跟互联网
阅读更多2024-11-17

Python学习笔记（2）正则表达式

1 正则表达式

1.1 正则表达式元字符和特性

1.1.1 字符匹配

1.1.2 量词

1.1.3 字符类

1.1.4 边界匹配

1.1.5 分组和捕获

2 Python的正则表达式处理模块

2.1 re.match函数

2.2 re.search方法

2.3 检索和替换

2.4 repl 参数

2.5 compile 函数

2.6 findall

2.7 re.finditer

2.8 re.split

2.9 正则表达式对象

2.9.1 re.RegexObject

2.9.2 re.MatchObject

相关文章

2.1 `re.match`函数

2.2 `re.search`方法