Python 中使用组合方式构建复杂正则

🕗 发布于 2024-11-08 23:40 python 开发语言 正则表达式

正则写复杂了很麻烦，难写难调试，只需要两个函数，就能用简单正则组合构建复杂正则：

比如输入一个字符串规则，可以使用 {name} 引用前面定义的规则：

# rules definition
rules = r'''
    protocol = http|https
    login_name = [^:@\r\n\t ]+
    login_pass = [^@\r\n\t ]+
    login = {login_name}(:{login_pass})?
    host = [^:/@\r\n\t ]+
    port = \d+
    optional_port = (?:[:]{port})?
    path = /[^\r\n\t ]*
    url = {protocol}://({login}[@])?{host}{optional_port}{path}?
'''

然后调用 regex_build 函数，将上面的规则转换成一个字典并输出：

# expand patterns in a dictionary
m = regex_build(rules, capture = True)

# list generated patterns
for k, v in m.items(): 
    print(k, '=', v)

结果：

protocol = (?P<protocol>http|https)
login_name = (?P<login_name>[^:@\r\n\t ]+)
login_pass = (?P<login_pass>[^@\r\n\t ]+)
login = (?P<login>(?P<login_name>[^:@\r\n\t ]+)(:(?P<login_pass>[^@\r\n\t ]+))?)
host = (?P<host>[^:/@\r\n\t ]+)
port = (?P<port>\d+)
optional_port = (?P<optional_port>(?:[:](?P<port>\d+))?)
path = (?P<path>/[^\r\n\t ]*)
url = (?P<url>(?P<protocol>http|https)://((?P<login>(?P<login_name>[^:@\r\n\t ]+)(:(?P<login_pass>[^@\r\n\t ]+))?)[@])?(?P<host>[^:/@\r\n\t ]+)(?P<optional_port>(?:[:](?P<port>\d+))?)(?P<path>/[^\r\n\t ]*)?)

用手写直接写是很难写出这么复杂的正则的，写出来也很难调试，而组合方式构建正则的话，可以将小的简单正则提前测试好，要用的时候再组装起来，就不容易出错，上面就是组装替换后的结果。

下面用里面的 url 这个规则来匹配一下：

# 使用规则 "url" 进行匹配
pattern = m['url']
s = re.match(pattern, 'https://name:pass@www.baidu.com:8080/haha')

# 打印完整匹配结果
print('matched: "%s"'%s.group(0))
print()

# 打印分组匹配结果
for name in ('url', 'login_name', 'login_pass', 'host', 'port', 'path'):
    print('subgroup:', name, '=', s.group(name))

输出：

match text with pattern "url"
matched: "https://name:pass@www.baidu.com:8080/haha"

subgroup: url = https://name:pass@www.baidu.com:8080/haha
subgroup: login_name = name
subgroup: login_pass = pass
subgroup: host = www.baidu.com
subgroup: port = 8080
subgroup: path = /haha

可以取完整结果，也可以按照规则名字，取得里面具体某个部件得匹配结果。

这下可以方便的写复杂正则表达式了。

再 Python 的正则表达式里 {xxx} 是用来表示长度的，里面都是数字，如果里面是变量名的话不会和原有规则冲突，因此这个写法是安全的。

实现代码：

import re

# 将 pattern 里形如 {name} 的文本，用 macros 里的预定义规则替换
def regex_expand(macros, pattern, guarded = True):
    output = []
    pos = 0
    size = len(pattern)
    while pos < size:
        ch = pattern[pos]
        if ch == '\\':
            output.append(pattern[pos:pos + 2])
            pos += 2
            continue
        elif ch != '{':
            output.append(ch)
            pos += 1
            continue
        p2 = pattern.find('}', pos)
        if p2 < 0:
            output.append(ch)
            pos += 1
            continue
        p3 = p2 + 1
        name = pattern[pos + 1:p2].strip('\r\n\t ')
        if name == '':
            output.append(pattern[pos:p3])
            pos = p3
            continue
        elif name[0].isdigit():
            output.append(pattern[pos:p3])
            pos = p3
            continue
        elif ('<' in name) or ('>' in name):
            raise ValueError('invalid pattern name "%s"'%name)
        if name not in macros:
            raise ValueError('{%s} is undefined'%name)
        if guarded:
            output.append('(?:' + macros[name] + ')')
        else:
            output.append(macros[name])
        pos = p3
    return ''.join(output)

# 给定规则文本，构建规则字典
def regex_build(code, macros = None, capture = True):
    defined = {}
    if macros is not None:
        for k, v in macros.items():
            defined[k] = v
    line_num = 0
    for line in code.split('\n'):
        line_num += 1
        line = line.strip('\r\n\t ')
        if (not line) or line.startswith('#'):
            continue
        pos = line.find('=')
        if pos < 0:
            raise ValueError('%d: not a valid rule'%line_num)
        head = line[:pos].strip('\r\n\t ')
        body = line[pos + 1:].strip('\r\n\t ')
        if (not head):
            raise ValueError('%d: empty rule name'%line_num)
        elif head[0].isdigit():
            raise ValueError('%d: invalid rule name "%s"'%(line_num, head))
        elif ('<' in head) or ('>' in head):
            raise ValueError('%d: invalid rule name "%s"'%(line_num, head))
        try:
            pattern = regex_expand(defined, body, guarded = not capture)
        except ValueError as e:
            raise ValueError('%d: %s'%(line_num, str(e)))
        try:
            re.compile(pattern)
        except re.error:
            raise ValueError('%d: invalid pattern "%s"'%(line_num, pattern))
        if not capture:
            defined[head] = pattern
        else:
            defined[head] = '(?P<%s>%s)'%(head, pattern)
    return defined

# 定义一套组合规则
rules = r'''
    protocol = http|https
    login_name = [^:@\r\n\t ]+
    login_pass = [^@\r\n\t ]+
    login = {login_name}(:{login_pass})?
    host = [^:/@\r\n\t ]+
    port = \d+
    optional_port = (?:[:]{port})?
    path = /[^\r\n\t ]*
    url = {protocol}://({login}[@])?{host}{optional_port}{path}?
'''

# 将上面的规则展开成字典
m = regex_build(rules, capture = True)

# 输出字典内容
for k, v in m.items(): 
    print(k, '=', v)

print()

# 用最终规则 "url" 匹配文本
pattern = m['url']
s = re.match(pattern, 'https://name:pass@www.baidu.com:8080/haha')

# 打印完整匹配
print('matched: "%s"'%s.group(0))
print()

# 按名字打印分组匹配
for name in ('url', 'login_name', 'login_pass', 'host', 'port', 'path'):
    print('subgroup:', name, '=', s.group(name))

完事，主要逻辑 84 行代码。

原文地址：https://blog.csdn.net/skywind/article/details/143636518

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：基于斐波那契数列的分数序列求和：C语言实现
下一篇：火山引擎云服务docker 安装

【Threejs】相机控制器动画
官方提供了一个基于目标点、刷新速度，在每次renderer中执行的动画，但实际开发中你可能会需要基于设定时间、目标点添加动画，并且有更多自定义成分的方式。
阅读更多2024-11-09
IMS高压发生器维修高压电源维修XRG100/1000
高压控制发生器的工作原理是管电压和管电流单独控制。高压部分通过对普通220 V电源进行滤波、斩波和逆变处理后变成PWM脉冲宽度调制控制信号,控制部分输出的控制高压信号进入发生器部分通过高压变压器升压处
阅读更多2024-11-09
CESS 正式加入政府区块链协会 (GBA) ，出席 Blockchain & Infrastructure 大会
北京时间 11 月 6 日，特朗普赢得 2024 年美国总统大选。与此同时，我们很高兴地宣布，GBA 是一个全球性协会，致力于将区块链专业人士汇聚在一起，共同推动区块链技术在政府、金融和公共基础设施等
阅读更多2024-11-09
Vue禁止打开控制台/前端禁止打开控制台方法/禁用F12/禁用右键
【代码】Vue禁止打开控制台/前端禁止打开控制台方法/禁用F12/禁用右键。
阅读更多2024-11-09
如何电脑连接电视，实现大屏自由！
接着，只需将HDMI线的一端接入电脑，另一端接入电视即可。在电脑上按下【Win+P】组合键，选择适合的显示模式——“扩展”或“复制”，并在电视上切换到相应的HDMI输入源。将VGA线连接电脑与电视，同
阅读更多2024-11-09
Vue数据响应式原理
Vue是一个结构的框架,也就是数据层、视图层、数据-视图层；响应式的原理就是实现当数据更新时，视图层也要相应的更新。
阅读更多2024-11-09
CentOS AppStream 8 手动更新 yum源
由于CentOS 8的官方支持已在2021年12月31日结束，官方镜像中的CentOS 8包已被移除。因此，如果您仍然需要运行CentOS 8并更新其yum源，您可以考虑使用以下步骤来配置一个可用的y
阅读更多2024-11-09
解决yum命令报错“Could not resolve host: mirrorlist.centos.org
这个主要是yum源出了问题或者服务器网络有问题，检查网络排除网络问题后，可更换源。我这里是centos7，用的源是华为云的源。
阅读更多2024-11-09
世优科技携手人民中科打造AI数字人智能体助力智慧校园
本次合作项目，是运用世优科技基于AI Agent打造的“世优波塔 ”AI数字人智能体，接入人民中科研发的“白泽”大模型，使用先进的跨模态智能理解技术，对文本、图像、视频等多种模态信息进行统一理解、统一
阅读更多2024-11-09
CentOS 7系统中更改YUM源为阿里云的镜像源
更换阿里的镜像源可以带来诸多好处，包括提高下载速度、提升稳定性、同步更新、简化配置、节省带宽资源以及增强系统安全性等。因此，对于使用CentOS系统的用户来说，更换阿里的镜像源是一个值得考虑的选择。
阅读更多2024-11-09

Python 中使用组合方式构建复杂正则

相关文章