正则表达式在python爬虫中常用的方法举例

🕗 发布于 2024-07-22 16:33 正则表达式 python 爬虫

在爬虫中，正则表达式被广泛用于从网页中提取特定信息。以下是一些常用的正则表达式方法举例，以及它们在爬虫中的典型应用场景：

1. 提取URL

import re

url_pattern = r'https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+'
urls = re.findall(url_pattern, html_content)

用于从网页中提取所有的HTTP或HTTPS链接。

2. 提取电子邮件地址

email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
emails = re.findall(email_pattern, html_content)

用于从文本中找出所有电子邮件地址。

3. 提取电话号码

phone_pattern = r'\b\d{3}[-.\s]?\d{3}[-.\s]?\d{4}\b'
phones = re.findall(phone_pattern, html_content)

用于匹配美国格式的电话号码。

4. 提取HTML标签内容

tag_pattern = r'>([^<]+)</a>'
contents = re.findall(tag_pattern, html_content)

提取<a>标签中的链接文本。

5. 提取HTML标签属性

src_pattern = r'<img src="([^"]+)"'
srcs = re.findall(src_pattern, html_content)

提取<img>标签中的src属性值，常用于获取图片URL。

6. 提取特定ID或类的内容

id_pattern = r'id="([^"]+)"'
class_pattern = r'class="([^"]+)"'
ids = re.findall(id_pattern, html_content)
classes = re.findall(class_pattern, html_content)

提取具有特定ID或类的元素。

7. 提取时间信息

time_pattern = r'\b(?:\d{1,2}[-/]\d{1,2}[-/]\d{2,4} \d{1,2}:\d{2}(:\d{2})?)\b'
times = re.findall(time_pattern, html_content)

匹配日期和时间格式的字符串。

8. 提取价格信息

price_pattern = r'\$\d*(?:,\d{3})*\.\d{2}'
prices = re.findall(price_pattern, html_content)

匹配以美元符号开头的价格信息。

9. 提取JSONP回调函数

jsonp_pattern = r'jsonp_\d+\((.*?)\)'
jsonp_data = re.search(jsonp_pattern, script_content).group(1)

从JSONP回调中提取JSON数据。

10. 替换字符串

clean_pattern = r'[^\w\s]'
cleaned_content = re.sub(clean_pattern, '', html_content)

删除所有非单词字符和非空格字符，用于清理HTML内容。

11. 提取CSS属性值

css_property_pattern = r':([^;]+)'
css_values = re.findall(css_property_pattern, css_content)

从CSS中提取属性值。

12. 提取JavaScript变量声明

js_var_pattern = r'var\s+(\w+) =\s+([^;]+);'
js_vars = re.findall(js_var_pattern, script_content)

匹配JavaScript中的变量声明。

这些示例展示了正则表达式在爬虫中的多样性和强大功能，它们可以帮助开发者提取几乎任何类型的数据。然而，正则表达式并不总是最佳工具，特别是对于复杂的HTML结构，使用像BeautifulSoup这样的解析库可能更加有效和易于维护。

原文地址：https://blog.csdn.net/weixin_43822401/article/details/140550503

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：开启未知惊喜之旅：盲盒一番赏小程序开发
下一篇：opengaussdb在oepnEuler上安装

K-means 算法、层次聚类、密度聚类对鸢尾花（Iris）数据进行聚类
K-Means：适合规则分布的大规模数据，快速聚类。层次聚类：适合小规模数据和需要层次结构的场景，如基因分析或市场细分。DBSCAN：适合处理复杂形状簇和含有噪声的数据，如地理空间数据或异常检测。距离
阅读更多2024-10-18
CI/CD（持续集成与持续交付）流水线
通过这些步骤，你可以配置一个集成了 Jenkins、GitLab Webhook、Nexus 和 RabbitMQ 的完整 CI/CD 流水线。集成 Jenkins、GitLab Webhook、Ne
阅读更多2024-10-18
离大谱！现在用Ai做写真都这么成熟了？AI绘画SD零成本制作影楼级人像写真教程，AI变现副业指南！
首先什么是AI写真，顾名思义的话可以说成是用AI生成写真照（这里我们使用的是开源免费的Stable Diffusion，简称SD），我们先暂且这么理解，后面会从第一性原理来讲明白更深层次的AI写真概念
阅读更多2024-10-18
Qt-系统处理鼠标相关事件(57)
Qt-系统处理鼠标相关事件的使用
阅读更多2024-10-18
Kaggle Python练习：字符串和字典（Exercise: Strings and Dictionaries）
enumerate() 是 Python 的一个内置函数，用于为可迭代对象（如列表、元组或字符串）提供一个自动计数器，同时遍历该对象。它返回一个包含索引和值的迭代器，常用于 for 循环中。（我们鼓励
阅读更多2024-10-18
LeetCode：LCP77.符文储备（排序 Java）
比较简单，排序，然后找出连续的最长值即可。
阅读更多2024-10-18
数据泄露危机：提升文件安全意识的紧迫性
因此,提升文件安全意识,加强数据保护措施,已成为企业管理中不可忽视的重要议题。在数据泄露威胁日益严峻的今天,提升文件安全意识并采取有效的管理措施已成为企业的当务之急。通过构建全面的文件安全管理体系,并
阅读更多2024-10-18
[C++刷题] 基础小知识点(1) 乘方函数pow()
[C++刷题] 基础小知识点(1) 乘方函数 pow pow()
阅读更多2024-10-18
Nature正刊！伯明翰大学和牛津大学等研究人员解锁全球森林树木在减缓气候变化中的新角色！
随着全球气候变化的加剧，甲烷作为一种重要的温室气体，其在大气中的作用日益受到关注。尽管甲烷的排放源和吸收机制已有一定的研究，但树木在甲烷循环中的具体角色仍存在较大不确定性。传统观点认为，湿地和部分高地
阅读更多2024-10-18
【无人机设计与控制】基于极光优化算法PLO的多无人机协同三维路径规划
本文提出了一种基于极光优化算法（PLO）的多无人机协同三维路径规划方法，旨在解决复杂环境中的路径规划问题。通过引入极光优化算法，多个无人机能够在障碍环境中实现协同路径规划，确保飞行路径最短且安全，避免
阅读更多2024-10-18