如何优化 Selenium 和 BeautifulSoup 的集成以提高数据抓取的效率？

🕗 发布于 2024-07-25 18:48 selenium beautifulsoup 测试工具爬虫 python

摘要

在互联网时代，数据的价值日益凸显。对于电商网站如京东，其商品信息、用户评价等数据对于市场分析、产品定位等具有重要意义。然而，由于这些网站通常使用 JavaScript 动态生成内容，传统的爬虫技术难以直接获取到完整数据。本文将以爬取京东商品信息为例，探讨如何优化 Selenium 和 BeautifulSoup 的集成，以提高数据抓取的效率。

动态网页抓取的挑战

对于京东这样的电商平台，许多商品信息和用户评价是通过 JavaScript 动态加载的。传统的静态网页爬取方法无法获取到这些动态生成的内容。此外，电商平台通常具有复杂的反爬虫机制，如 IP 限制、请求频率限制等，进一步增加了数据抓取的难度。

Selenium 和 BeautifulSoup 的作用

Selenium 是一个自动化测试工具，能够模拟真实用户的浏览器行为，执行 JavaScript，获取动态生成的网页内容。BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 库，能够从复杂的 HTML 文档中提取数据。

示例代码

以下是一个爬取京东商品信息的示例代码，展示如何使用 Selenium 和 BeautifulSoup 集成进行数据抓取。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
import time

def init_driver():
    options = Options()
    options.add_argument("--disable-images")  # 禁用图片加载
    options.add_argument("--disable-javascript")  # 禁用 JavaScript
    driver = webdriver.Chrome(executable_path='path/to/chromedriver', options=options)
    return driver

def get_page_source(driver, url):
    driver.get(url)
    time.sleep(2)  # 等待页面加载
    return driver.page_source

def parse_page(html):
    soup = BeautifulSoup(html, 'html.parser')
    items = soup.find_all('div', class_='gl-item')
    for item in items:
        title = item.find('div', class_='p-name').get_text(strip=True)
        price = item.find('div', class_='p-price').get_text(strip=True)
        print(f'Title: {title}, Price: {price}')

def main():
    driver = init_driver()
    url = 'https://search.jd.com/Search?keyword=手机&enc=utf-8'
    html = get_page_source(driver, url)
    parse_page(html)
    driver.quit()

if __name__ == '__main__':
    main()

优化策略

1. 减少页面加载时间

通过禁用图片和 JavaScript 加载，可以显著减少页面加载时间。这不仅加快了页面获取速度，也减少了数据传输量。

2. 使用显式等待

使用 Selenium 的显式等待 (WebDriverWait) 而不是硬编码的 time.sleep()，可以更有效地等待页面加载完成。

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

wait = WebDriverWait(driver, 10)
element = wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'gl-item')))

3. 并发执行

使用多线程或异步编程来并发执行多个爬虫任务，从而提高整体的抓取效率。

import threading

def fetch_data(url):
    driver = init_driver()
    html = get_page_source(driver, url)
    parse_page(html)
    driver.quit()

urls = ['https://search.jd.com/Search?keyword=手机&enc=utf-8', 'https://search.jd.com/Search?keyword=电视&enc=utf-8']
threads = [threading.Thread(target=fetch_data, args=(url,)) for url in urls]
for thread in threads:
    thread.start()
for thread in threads:
    thread.join()

4. 使用代理和随机化

使用代理 IP 和随机化请求头可以避免 IP 被封禁，同时模拟真实用户行为

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.proxy import Proxy, ProxyType

# 代理服务器信息
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

# 创建 Proxy 对象
proxy = Proxy({
    'proxyType': ProxyType.MANUAL,
    'ftpProxy': f"{proxyHost}:{proxyPort}",
    'sslProxy': f"{proxyHost}:{proxyPort}",
    'httpProxy': f"{proxyHost}:{proxyPort}",
})

# 创建 ChromeOptions 对象
chrome_options = Options()
chrome_options.add_argument('--proxy-server=http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}')

# 初始化 WebDriver
driver = webdriver.Chrome(executable_path='path/to/chromedriver', options=chrome_options, proxy=proxy)

# 访问目标网页
driver.get("http://example.com")

# 后续操作...

5. 错误处理和重试机制

添加错误处理和重试机制，确保在遇到异常时能够自动重试。

import requests
from requests.exceptions import RequestException

def fetch_data_with_retry(url, max_retries=3):
    for i in range(max_retries):
        try:
            response = requests.get(url)
            response.raise_for_status()
            return response.text
        except RequestException as e:
            print(f'Request failed: {e}, Retrying...')
            time.sleep(1)  # 等待重试
    return None

文章所使用的代理由亿牛云提供，有需要小伙伴可以关注了解下：https://v.16yun.cn/accounts/phone_register/?sale_user=ZM_seven7

原文地址：https://blog.csdn.net/Z_suger7/article/details/140666314

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：解决 Android 应用安装错误：INSTALL_FAILED_BAD_PERMISSION_GROUP
下一篇：windows11 ,ubuntu20.04双系统，ubuntu没有wifi的解决方式

【学习日记】notebook添加JAVA支持
作者是个大学生这个专栏主要收集课时常用的软件以及女朋友上课用的软件的教程。需提前配置好java环境本篇仅对添加支持进行说明。新开了gitcode 用于上传安装包。解压进入解压后目录复制文件地
阅读更多2024-11-15
Docker与Podman全面比较
Docker和Podman作为两大容器引擎，各自拥有独特的特点和优势。本文将从溯源、特点、技术优势、应用实例和技术前景等方面对Docker和Podman进行全面比较。
阅读更多2024-11-15
算法学习blog：day2 继续记日记
4. 明日计划：至少五道题，并且要学会并实现今天的三道题，看这五道题的思路解法，下一天进行实现优化。除此之外pdf粗略看到了20页，明天继续看，后面才是重点。1.做了三道PAT 76，77，78，差一
阅读更多2024-11-15
基于Python的网上银行综合管理系统
【2025最新】基于python+django+vue+MySQL的网上银行综合管理系统，前后端分离。
阅读更多2024-11-15
自定义注解+拦截器+jwtFilter实现权限控制
GetterSUPER_ADMIN(1, "超级管理员"),SYSTEM_ADMIN(2, "系统管理员"),DOMESTIC_CONSUMER(3, &quo
阅读更多2024-11-15
前端面试题整理-vue指令开发
在 bind 钩子中，我为绑定的元素添加了一个点击事件监听器，当元素被点击时，执行复制操作。我当时在开发点击复制文本的功能，我有很多个元素都想有这个功能，但是我又不想每个元素都绑定一个 onClick
阅读更多2024-11-15
在使用ipc通信时，在渲染进程的Vue + TypeScript 开发过程，给window对象添加属性并赋值时，发生报错解决方法
在使用ipc通信时，在渲染进程的Vue + TypeScript 开发过程，给window对象添加属性并赋值时，发生报错解决方法
阅读更多2024-11-15
GESP4级考试语法知识（贪心算法（四））
GESP4级考试语法知识（贪心算法（四））
阅读更多2024-11-15
20241114在飞凌的OK3588-C的核心板上跑Linux R4时通过iperf3测试以太网卡的实际网速
创建一个eth0配置文件，配置文件的路径为：/etc/network/interfaces.d/eth0,设置动态ip的配置文件。虽然飞凌的OK3588-C的核心板使用的是千兆网卡RTL8211
阅读更多2024-11-15
【EmbeddedGUI】脏矩阵设计说明
脏矩阵设计说明
阅读更多2024-11-15