Python 正则表达式进阶用法：分组与引用详解

🕗 发布于 2024-11-14 10:25 python 正则表达式 数据库

Python 正则表达式进阶用法：分组与引用详解

正则表达式是一种用于字符串匹配和处理的强大工具。它不仅能识别简单的文本模式，还能通过更高级的特性来完成复杂的文本处理任务。本文将深入探讨 Python 正则表达式中的“分组”和“引用”——两个在高级匹配中至关重要的概念。

对于新手而言，本文将使用简单的代码示例和通俗易懂的解释，帮助您快速掌握分组与引用的进阶用法。

在这里插入图片描述

一、分组的基本概念

在正则表达式中，分组可以将匹配的内容划分为不同的部分，便于单独提取和操作。我们通过使用圆括号 () 来定义一个分组。每一组匹配到的内容可以通过组号（从1开始）访问，并且可以在正则表达式内部引用，也可以在替换中使用。

示例：匹配电话号码并提取区号

假设我们要匹配格式为 “(区号)号码” 的电话号码，如 (123) 456-7890。可以通过分组将区号和号码分开。

import re

text = "(123) 456-7890"
pattern = r"\((\d{3})\) (\d{3}-\d{4})"
match = re.search(pattern, text)
if match:
    print("区号：", match.group(1))
    print("号码：", match.group(2))

在上面的例子中：

\((\d{3})\) 匹配区号，圆括号中的内容被视为第一个分组，即 group(1)。
(\d{3}-\d{4}) 匹配电话号码，视为第二个分组，即 group(2)。

输出结果：

区号： 123
号码： 456-7890

二、分组的多种类型

分组不仅可以提取内容，还可以根据需求创建不同类型的分组。以下是 Python 正则表达式中常见的分组类型：

捕获组（Capturing Group）：默认的分组类型，用于提取匹配的内容。
非捕获组（Non-Capturing Group）：用于匹配，但不提取内容，语法是 (?:...)。
命名捕获组（Named Capturing Group）：可以为组定义名称，语法是 (?P<name>...)。
反向引用（Backreference）：在同一正则表达式中引用之前的分组。

非捕获组示例

假设我们要匹配电话号码，但只需要匹配格式，而不需要提取区号和号码，可以使用非捕获组：

import re

text = "(123) 456-7890"
pattern = r"(?:\(\d{3}\)) \d{3}-\d{4}"
match = re.search(pattern, text)
if match:
    print("匹配成功！")

由于使用了非捕获组，(\d{3}) 不会保存匹配的内容，只是单纯用于模式匹配。

命名捕获组示例

如果我们希望提取的内容更具描述性，可以为每个捕获组命名：

import re

text = "(123) 456-7890"
pattern = r"\((?P<area_code>\d{3})\) (?P<number>\d{3}-\d{4})"
match = re.search(pattern, text)
if match:
    print("区号：", match.group("area_code"))
    print("号码：", match.group("number"))

在这个例子中，area_code 和 number 是捕获组的名称，使代码更具可读性。

三、分组中的反向引用

反向引用（Backreference）是正则表达式中的一种高级操作，它允许我们在同一正则表达式中重新引用之前定义的分组。这对于需要查找重复的内容非常有用。

示例：匹配重复单词

假设我们有一个句子，并希望找出句子中连续出现的重复单词（如 “hello hello”）。可以通过反向引用来完成：

import re

text = "hello hello world"
pattern = r"\b(\w+)\b\s+\1"
match = re.search(pattern, text)
if match:
    print("找到重复单词：", match.group())

在上面的例子中：

\b(\w+)\b 是第一个分组，匹配单词。
\1 是反向引用，表示匹配与第一个分组相同的内容。

输出结果：

找到重复单词： hello hello

四、正则表达式的分组替换

在数据处理和文本清理中，我们经常需要替换符合条件的内容。正则表达式提供了替换操作，通过 re.sub() 方法可以替换匹配到的内容。

示例：将重复单词缩写为一个单词

假设我们要将重复的单词只保留一个，可以使用反向引用进行替换：

import re

text = "hello hello world"
pattern = r"\b(\w+)\b\s+\1"
result = re.sub(pattern, r"\1", text)
print(result)

在这里，r"\1" 表示使用第一个分组的内容来替换匹配到的重复单词。

输出结果：

hello world

通过命名分组进行替换

在复杂的文本处理中，使用命名分组可以让替换更具可读性。例如，我们想将电话号码格式从 “(123) 456-7890” 替换为 “123.456.7890”。

import re

text = "(123) 456-7890"
pattern = r"\((?P<area>\d{3})\) (?P<first>\d{3})-(?P<second>\d{4})"
result = re.sub(pattern, r"\g<area>.\g<first>.\g<second>", text)
print(result)

在这个例子中，g<name> 用于引用命名分组。输出结果：

123.456.7890

五、嵌套分组与多次引用

当我们需要处理复杂的模式匹配时，嵌套分组和多次引用可以非常有用。例如，假设我们要匹配一个带引号的文本，并提取其中的内容。

示例：匹配引号中的文本

import re

text = 'She said, "Hello World!"'
pattern = r'"([^"]+)"'
match = re.search(pattern, text)
if match:
    print("引号中的文本：", match.group(1))

在上面的例子中：

([^"]+) 表示匹配非引号字符，这样就可以获取引号中的内容。

输出结果：

引号中的文本： Hello World!

六、使用 `re.findall()` 获取所有分组匹配项

在有些情况下，我们希望获取文本中所有符合分组的内容。re.findall() 可以帮助我们获取所有匹配项，并返回一个包含匹配项的列表。

示例：获取所有日期

假设我们有一段文本，包含多组日期格式（如 “2023-11-05”），我们希望提取出所有的日期。

import re

text = "今天是 2023-11-05，明天是 2023-11-06"
pattern = r"(\d{4})-(\d{2})-(\d{2})"
matches = re.findall(pattern, text)
for match in matches:
    print("找到的日期：", "-".join(match))

在这里，re.findall() 会返回所有匹配的分组，并且每组内容作为一个元组返回。

输出结果：

找到的日期： 2023-11-05
找到的日期： 2023-11-06

七、常见的正则表达式分组应用场景

1. 提取文本片段

正则分组在数据清洗中非常实用，可以快速定位文本中的特定片段。比如提取日志中的 IP 地址、时间戳等。

2. 格式转换

通过分组和替换操作，正则可以帮助我们快速将日期、电话号码等格式转换成统一格式，便于后续处理。

3. 数据去重

在需要去重的文本处理中，正则分组可以帮助找到并清除重复内容，特别是在长文本处理和数据清洗中非常有效。

总结

本文介绍了 Python 正则表达式中分组与引用的进阶用法。总结来说，以下几点是理解分组和引用的关键：

捕获组与非捕获组：捕获组用于提取内容，非捕

获组仅匹配而不提取。
2. 反向引用：在正则表达式中重新引用之前的分组，用于查找重复内容。
3. 命名分组：为分组设置名称，提高代码可读性。
4. 替换操作：通过分组进行数据替换，实现灵活的数据清洗。

正则表达式的分组与引用虽然复杂，但却非常强大。只要掌握了这些概念，您将能够编写更具适应性的正则表达式来应对复杂的文本处理任务。

原文地址：https://blog.csdn.net/chusheng1840/article/details/143732372

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：基于微信小程序的在线疫苗预约的设计与实现，LW+源码+讲解
下一篇：ssm082基于java斗车交易系统设计与实现+vue(论文+源码)_kaic

【大数据学习 | flume】flume Sink Processors与拦截器Interceptor
比如：一个日志文件(多个系统的日志都在该文件中)，根据日志中某个字段值，比如type=1，是系统A日志，sink to hdfs；type=2，是系统B日志，sink to kafka，此时就可以使用
阅读更多2024-11-17
5. langgraph中的react agent使用 (从零构建一个react agent)
首先，我们需要定义 Agent 的状态，这包括 Agent 所持有的消息。Annotated,Sequence,TypedDict,我们需要定义工具节点和模型调用节点，以便在 Agent 工作流中使用
阅读更多2024-11-17
37.超级简易的计算器 C语言
超级简单，简单到甚至这个计算器输入都比较反人类。
阅读更多2024-11-17
TCP Analysis Flags 之 TCP Dup ACK
TCP 段大小为 0窗口大小非零且没有改变，或者有有效的 SACK 数据下一个期望的 Seq Num 和 LastACK Num 是非 0 的（即连接已经建立）没有设置 SYN、FIN、RST具体的代
阅读更多2024-11-17
【AI图像生成网站&Golang】雪花算法
使用更精准的时间单位。提供了自定义机器 ID 的能力。支持长时间运行，且避免了时钟回拨问题。改进点Snowflake 的问题Sonyflake 的优化符号位固定占用 1 位，没有实际用途去掉符号位，增
阅读更多2024-11-17
【go从零单排】Directories、Temporary Files and Directories目录和临时目录、临时文件
在 Go 语言中，path/filepath 包提供了一组用于处理文件路径的函数，特别是与文件系统路径相关的操作。这个包是 Go 标准库的一部分，主要用于跨平台的路径操作，确保在不同操作系统上（如 W
阅读更多2024-11-17
菜叶子芯酸笔记4：大模型训练、分布式训练、显存估算
大模型训练任务主要分为以下三种模型训练过程。预训练pretrain监督微调 supervised finetune training奖励模型 reward model。
阅读更多2024-11-17
前端面试笔试（四）
RADIUS是一种分布式的、客户端/服务器结构的信息交互协议，"100"是一个有效的数字，它等于十进制的4。哈希表有10个元素，采用的hash函数为H(key)=key%10，用线
阅读更多2024-11-17
力扣-Hot100-链表其一【算法学习day.34】
##我做这类文档一个重要的目的还是给正在学习的大家提供方向（例如想要掌握基础用法，该刷哪些题？）我的解析也不会做的非常详细，只会提供思路和一些关键点，力扣上的大佬们的题解质量是非常非常高滴！！！
阅读更多2024-11-17
机器学习实战笔记30-31：逻辑回归及对应调参实验代码
Class_weight:输入{0:1,1:3}则代表1类样本的每条数据在计算损失函数时都会*3，当输入balanced，则调整为真实样本比例的反比，以达到平衡，但实际情况中不常用。#UI多迭代10的
阅读更多2024-11-17

Python 正则表达式进阶用法：分组与引用详解