python爬虫之使用 Beautiful Soup

🕗 发布于 2024-10-19 23:51 python 爬虫 开发语言

Beautiful Soup 是 Python 中用于从 HTML 和 XML 文件中提取数据的库。它通常与 HTTP 请求库（如 requests）一起使用来构建网络爬虫。以下是一个详细的教程，教你如何使用 Beautiful Soup 来爬取网页内容。

1. 安装必要的库

首先，确保你已经安装了 beautifulsoup4 和 requests 库。如果没有安装，可以使用以下命令：

pip install beautifulsoup4 requests

2. 导入库

在代码中，首先导入所需的库：

import requests
from bs4 import BeautifulSoup

requests: 用于发送 HTTP 请求，获取网页的 HTML。
BeautifulSoup: 解析 HTML 并提取需要的数据。

3. 获取网页内容

接下来，使用 requests 发送 HTTP 请求并获取网页的内容：

url = 'https://example.com'
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    html_content = response.content
else:
    print("请求失败，状态码:", response.status_code)

response.content 获取的是网页的 HTML 源码。

4. 解析 HTML

使用 Beautiful Soup 解析获取的 HTML 内容：

soup = BeautifulSoup(html_content, 'html.parser')

'html.parser' 是 Python 内置的 HTML 解析器，你也可以使用 lxml 或 html5lib，但需要先安装相关库。
soup 是 BeautifulSoup 对象，它包含了整个 HTML 页面内容。

5. 查找元素

BeautifulSoup 提供了多种查找和筛选 HTML 元素的方法，常用的有：

5.1 查找第一个符合条件的元素 (`find`)

first_title = soup.find('h1')  # 查找第一个 h1 元素
print(first_title.text)  # 输出 h1 标签中的文本内容

5.2 查找所有符合条件的元素 (`find_all`)

all_paragraphs = soup.find_all('p')  # 查找所有 p 元素
for paragraph in all_paragraphs:
    print(paragraph.text)  # 输出每个 p 标签中的文本内容

5.3 查找带有特定属性的元素

specific_div = soup.find('div', class_='content')  # 查找 class 为 content 的第一个 div 标签
print(specific_div.text)

你可以使用 id、class、name 等属性来过滤特定的 HTML 元素。

6. 遍历 DOM 树

BeautifulSoup 提供了遍历 DOM 树的方法，让你能够灵活地定位和提取网页中的数据。

6.1 查找子节点 (`.children`)

for child in soup.body.children:
    print(child)

6.2 父节点 (`.parent`)

first_link = soup.find('a')
print(first_link.parent)  # 输出链接的父节点

6.3 兄弟节点 (`.next_sibling` / `.previous_sibling`)

first_paragraph = soup.find('p')
print(first_paragraph.next_sibling)  # 输出下一个兄弟节点

7. 提取元素属性

除了获取标签中的文本内容，还可以提取元素的属性（如 href、src 等）：

first_link = soup.find('a')  # 查找第一个 a 标签
link_href = first_link['href']  # 获取 href 属性
print(link_href)

8. 完整示例

下面是一个完整的示例，它爬取一个网页并提取页面中的所有链接和标题：

import requests
from bs4 import BeautifulSoup

# 目标 URL
url = 'https://example.com'

# 获取网页内容
response = requests.get(url)
if response.status_code == 200:
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # 提取网页标题
    page_title = soup.title.text
    print(f"页面标题: {page_title}")
    
    # 提取所有链接
    links = soup.find_all('a')
    for link in links:
        href = link.get('href')
        link_text = link.text
        print(f"链接文本: {link_text}, 链接地址: {href}")
else:
    print("请求失败，状态码:", response.status_code)

9. 处理分页和动态内容

9.1 处理分页

如果目标网页有分页，可以通过更改 URL 参数来爬取每一页：

for page in range(1, 5):  # 爬取前4页
    url = f'https://example.com/page/{page}'
    response = requests.get(url)
    # 解析并处理内容

9.2 处理动态内容

有些网页的内容是通过 JavaScript 动态加载的，这种情况 requests 和 BeautifulSoup 无法直接处理。解决方案包括使用 Selenium 进行浏览器模拟，或寻找 API 接口。

10. 遵守爬虫规则

在爬取网页时，请务必遵守网站的 robots.txt 规则，以及不要对服务器造成过大的负担。常见的做法是：

设置合适的爬取间隔时间，防止频繁请求：

import time
time.sleep(1)  # 爬取每个页面时暂停 1 秒

使用 headers 模拟浏览器访问，避免被封禁：

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)

11. 存储和处理数据

爬取的数据可以保存到文件或数据库中，常见的格式包括 CSV、JSON 或直接存储到数据库中。

11.1 保存为 CSV 文件

import csv

# 保存链接到 CSV 文件
with open('links.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['链接文本', '链接地址'])
    for link in links:
        href = link.get('href')
        link_text = link.text
        writer.writerow([link_text, href])

总结

Beautiful Soup 是一个非常强大的工具，可以方便地解析和提取网页中的数据。通过结合 requests 库，你可以构建功能强大的爬虫。希望这个教程对你有所帮助，祝你顺利完成爬虫任务！

原文地址：https://blog.csdn.net/yuwinter/article/details/142989887

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：[Linux#67][IP] 报头详解 | 网络划分 | CIDR无类别 | DHCP动态分配 | NAT转发 | 路由器
下一篇：.NET 6 API + Middleware + Audit rail

OpenLayers：构建现代Web地图应用
OpenLayers 是一个用于绘制地图的开源 JavaScript 库。它提供了丰富的 API 和工具集，允许开发者创建高性能的地图应用，并且支持多种图层源，如矢量数据、瓦片服务等。OpenLaye
阅读更多2024-10-20
Web 应用防火墙(WAF)
在现代Web应用开发中，作为反向代理的架构被广泛采用。这种架构具备高性能、易扩展的特点，但也带来了Web层的安全挑战。Web应用防火墙（WAF）作为专门防御Web应用层攻击的安全措施，能够为此架构增加
阅读更多2024-10-20
二叉平衡树（AVL树）Java语言实现
将A的左孩子B向右上旋转代替A成为根结点，将A结点向右下旋转成为B的右子树的根结点，而B的原右子树则作为A结点的左子树。将A的右孩子B向左上旋转代替A成为根结点，将A结点向左下旋转成为B的左子树的根结
阅读更多2024-10-20
深入了解路由
路由是网络中将数据包从源地址传送到目标地址的过程。它涉及网络设备（如路由器）根据某种算法和策略，决定数据包下一步应该去往的路径。路由的核心功能是通过多条路径之间进行选择，确保数据可以高效、可靠地从发送
阅读更多2024-10-20
OpenWRT 和 Padavan 路由器配置网络打印机实现远程打印
之前有给大家介绍过 Armbian 安装 CUPS 作为打印服务器，像是 N1 盒子、玩客云，甚至是随身 WiFi 都可以通过 CUPS 来进行打印。但是有些朋友不想专门为打印机添置一个设备，如果你恰
阅读更多2024-10-20
cadvisor
cAdvisor（容器顾问）可帮助容器用户了解正在运行的容器的资源使用情况和性能特征。它是一个运行守护进程，用于收集、汇总、处理和导出有关正在运行的容器的信息。具体来说，它为每个容器保存资源隔离参数、
阅读更多2024-10-20
SpringBoot车辆管理系统：设计与实施细节
一个成功的网站应明确建设网站的目的，确定网站的功能，确定网站规模、投入费用，进行必要的市场分析等。6、网络上的客户端和服务器可以用来编程任何独立的编程环境，也有中国，GB2312，BIG5，日文写作，
阅读更多2024-10-20
文字跑马灯：实现文字自动滚动策略的原理分析
在本文中，我们详细分析了如何实现文字跑马灯效果，通过判断文字内容是否超出容器，进而实现自动滚动的功能，为网站添加了一个引人注目的动画效果。下面我来进行总结一下，实现文字滚动效果有以下几个要点：判断文字
阅读更多2024-10-20
2062：【例1.3】电影票
已知一位小朋友的电影票价是10元，计算x位小朋友的总票价是多少？人数和电影票总价，中间用一个空格隔开。
阅读更多2024-10-20
用自己的数据集复现YOLOv5
2.改好模型配置文件和数据加载配置文件，分别在E:\project\MODEL\YOLO\yolov5-master\modelsyolov5s.yaml和E:\project\MODEL\YOLO\
阅读更多2024-10-20