python爬虫 - 进阶正则表达式

正则表达式是一种强大的工具，可以帮助我们在文本处理中灵活高效地匹配、查找、替换各种字符和字符串模式。对于中文字符的处理，正则表达式尤其有用，因为它可以通过 Unicode 范围直接匹配常用的汉字及标点符号。此外，正则表达式中的贪婪和非贪婪模式提供了不同的匹配策略，使我们能够更灵活地控制匹配的长度和范围。这篇文章将通过一些示例介绍如何使用正则表达式匹配中文字符，以及如何利用贪婪和非贪婪模式进行不同方式的匹配。

一、匹配中文

正则表达式可以用来匹配各种字符，包括中文字符。匹配中文字符的核心是利用 Unicode 字符集中的中文范围。在正则表达式中，中文字符的匹配一般使用字符范围 [\u4e00-\u9fa5]，其中 \u4e00 到 \u9fa5 是 Unicode 中常见中文字符的范围。

（一）匹配单个中文字符

要匹配单个中文字符，可以使用 [\u4e00-\u9fa5]，它表示匹配一个中文字符。

示例：

import re
text = "这是一个测试"
# 匹配单个中文字符
result = re.findall(r'[\u4e00-\u9fa5]', text)
print(result)  # 输出: ['这', '是', '一', '个', '测', '试']

（二）匹配多个连续的中文字符

如果你想匹配多个连续的中文字符，可以使用 [\u4e00-\u9fa5]+，它表示匹配一个或多个连续的中文字符。

示例：

import re
text = "这是一个测试"
# 匹配多个连续的中文字符
result = re.findall(r'[\u4e00-\u9fa5]+', text)
print(result)  # 输出: ['这是一个测试']

（三）匹配中英文混合的文本中的中文字符

在处理包含中英文混合的文本时，可以用正则表达式只提取中文字符。

示例：

import re
text = "This is a test. 这是一个测试。"
# 匹配所有中文字符
result = re.findall(r'[\u4e00-\u9fa5]+', text)
print(result)  # 输出: ['这是一个测试']

（四）匹配中文标点符号

除了汉字，中文标点符号也有专门的 Unicode 范围。要匹配中文标点符号，可以使用 [\u3000-\u303F] 这个范围。

示例：

import re
text = "你好，世界！这是一个测试。"
# 匹配中文标点符号
result = re.findall(r'[\u3000-\u303F]', text)
print(result)  # 输出: ['，', '！', '。']

（五）匹配中文字符和标点符号

如果要同时匹配中文字符和中文标点，可以将这两部分结合在一起。例如，使用 [\u4e00-\u9fa5\u3000-\u303F]+ 来匹配。

示例：

import re
text = "你好，世界！这是一个测试。"
# 匹配中文字符和中文标点
result = re.findall(r'[\u4e00-\u9fa5\u3000-\u303F]+', text)
print(result)  # 输出: ['你好', '，', '世界', '！', '这是一个测试', '。']

（六）匹配所有 CJK (中文、日文、韩文) 字符

如果要匹配所有 CJK（中日韩）字符，可以使用 Unicode 字符集中的范围 [\u4e00-\u9FFF]。

示例：

import re
text = "中文, 한국어, 日本語"
# 匹配所有 CJK 字符
result = re.findall(r'[\u4e00-\u9FFF]+', text)
print(result)  # 输出: ['中文', '한국어', '日本語']

（七）匹配不包括中文的部分

可以使用反向匹配来排除中文部分。例如，匹配非中文字符的部分，可以使用 [^ \u4e00-\u9fa5]+。

示例：

import re
text = "这是1234一个测试test。"
# 匹配非中文的字符
result = re.findall(r'[^ \u4e00-\u9fa5]+', text)
print(result)  # 输出: ['1234', 'test']

（八）匹配中文总结

正则表达式通过 Unicode 范围可以轻松匹配中文字符。使用 [\u4e00-\u9fa5] 匹配常用汉字字符，同时可以通过调整范围和组合来匹配标点符号、CJK 字符以及中英文混合的内容。通过合理使用这些技巧，你可以在文本处理和解析过程中高效地提取和操作中文字符。

二、贪婪与非贪婪模式

在 Python 中，正则表达式的贪婪和非贪婪模式控制了匹配时字符的数量：

（一）贪婪模式

贪婪模式会尽可能多地匹配字符，直到整个表达式不再匹配为止。默认情况下，Python 正则表达式是贪婪的，即量词（如 *、+、{m,n}）会尝试匹配尽可能多的字符。

常见的贪婪量词：

*：匹配前面的字符 0 次或多次
+：匹配前面的字符 1 次或多次
{m,n}：匹配前面的字符至少 m 次，至多 n 次

示例：

import re

text = "abc123abc456"
result = re.search(r'a.*c', text)
print(result.group())  # 输出：abc123abc

在上面的示例中，.* 是贪婪匹配，会尽可能多地匹配字符，直到最后一个 c，因此匹配了 "abc123abc"。

（二）非贪婪模式

非贪婪模式，也称为惰性匹配，会尽可能少地匹配字符。你可以在贪婪量词后加上一个 ? 来实现非贪婪匹配。例如：*?、+?、{m,n}?。

非贪婪量词：

*?：匹配前面的字符 0 次或多次，但尽可能少地匹配
+?：匹配前面的字符 1 次或多次，但尽可能少地匹配
{m,n}?：匹配前面的字符至少 m 次，至多 n 次，但尽可能少地匹配

示例：

import re

text = "abc123abc456"
result = re.search(r'a.*?c', text)
print(result.group())  # 输出：abc

在上面的示例中，.*? 是非贪婪匹配，它会尽可能少地匹配字符，所以它匹配了 "abc"（第一个 a 到第一个 c 之间的内容）。

（三）贪婪与非贪婪小结

贪婪模式：默认模式，会尽可能多地匹配字符。
非贪婪模式：通过 ? 将贪婪量词转换为非贪婪，会尽可能少地匹配字符。
常见的用法是通过在量词后添加 ?，如 *? 或 +? 来启用非贪婪模式。

三、总结

通过本文的介绍，我们可以看到正则表达式在处理中文字符时的强大能力。从匹配单个或多个汉字，到捕获中英文混合文本中的中文部分，再到提取特定的中文标点符号，正则表达式都能轻松应对。同时，掌握贪婪和非贪婪模式的差异可以帮助我们在匹配字符时更加精准。在文本解析和数据清理任务中，熟练运用这些正则表达式技巧将为我们带来极大的便利和效率。

原文地址：https://blog.csdn.net/2401_86688088/article/details/142818516

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：四、远程登录到Linux服务器
下一篇：如何针对项目中的技术难点准备面试？——黑马点评为例

开发指南072-图片热点
/处理跳转： area.getAttribute('href');平台支持使用图像导航界面，例如展示如下一张图，用户点击对应位置触发对应动作。热点数据通过后台接口获取（注意处理权限，没有权限的热点不生
阅读更多2024-10-13
使用机器学习边缘设备的快速目标检测
这项机器学习研究探讨了一种低成本的边缘设备，该设备与具有计算机视觉功能的嵌入式系统集成，以提高目标检测和分类的推理时间和精度。研究的主要目标是减少推理时间并降低功耗，以支持一个竞技型类人机器人的嵌入式
阅读更多2024-10-13
【Windows】【DevOps】Windows Server 2022 安装ansible，基于powershell实现远程自动化运维部署入门到放弃！
文件URL：https://www.python.org/ftp/python/3.13.0/python-3.13.0-amd64.exe。直接拿linux主机测试ansible连接windows
阅读更多2024-10-13
C# 中循环的应用说明
一循环的概念说明二、循环类型三、循环控制语句四、无限循环
阅读更多2024-10-13
Linux `vmstat` 命令详解
vmstat（Virtual Memory Statistics）是 Linux 系统中的一个监控工具，用于报告系统的虚拟内存、进程、CPU 活动等信息。它能帮助用户了解系统的整体性能状况，尤其是内存
阅读更多2024-10-13
Linux下多任务编程（网络编程2）
本文介绍解决accpet和recv相互阻塞的问题，可以用多线程并发外也可以用epoll I/O多路复用的方式解决。
阅读更多2024-10-13
[单master节点k8s部署]37.微服务（一)springCloud 微服务
微服务架构的一个重要特点是，它与开发中使用的具体或无关。每个微服务都可以使用最适合其功能需求的语言或技术来实现。例如，一个微服务可以用Java编写，另一个微服务可以用Python、Go、Node.js
阅读更多2024-10-13
Zynq(3)使用外设MIO/EMIO
使用MIO/EMIO实现流水灯，着重介绍Zynq IP核的配置，解读vitis中的c语言程序，介绍MIO与EMIO的区别。
阅读更多2024-10-13
笔试算法总结
思路很简单，但是当时做题提交的时候，通过率总是18%。不知道为啥，后面我改成了Long类型，然后就通过了全部用例。（易错1：第一次提交没考虑0的情况）使用 StringBuilder 模拟栈的行为，通
阅读更多2024-10-13
快速学习一个算法，Transformer模型架构
它的主要思想是在同一时间通过多个独立的注意力头（Attention Head）来关注序列中不同部分的信息，然后将这些信息综合起来，生成更丰富的表示。自注意力机制的目的是对输入序列中的每个元素计算一个输
阅读更多2024-10-13