动态网站数据爬取——Selenium的使用

🕗 发布于 2024-11-21 18:07 爬虫 python

Selenium 是一个广泛使用的自动化工具，最初设计用于测试 Web 应用程序的功能，但它也被广泛用于爬虫开发，尤其是处理动态网页和需要 JavaScript 渲染的页面。它支持多种浏览器（如 Chrome、Firefox、Edge、Safari 等）并且可以模拟用户在浏览器中的一系列操作，如点击、滚动、输入等。

1.1 Selenium基本操作

1.1.1 浏览器启动

Selenium 能够通过 WebDriver 启动指定的浏览器实例，并进行自动化操作。WebDriver 是 Selenium 的核心组件之一，它提供了与浏览器交互的接口。在 Python 中，通常使用 selenium.webdriver 来启动浏览器。

from selenium import webdriver

# 启动 Chrome 浏览器
driver = webdriver.Chrome(executable_path='/path/to/chromedriver')

# 启动 Firefox 浏览器
# driver = webdriver.Firefox(executable_path='/path/to/geckodriver')

# 访问网页
driver.get('https://example.com')

# 获取页面标题
print(driver.title)

# 关闭浏览器
driver.quit()

解析：

webdriver.Chrome() 启动 Chrome 浏览器，参数 executable_path 用于指定 ChromeDriver 可执行文件的路径。不同浏览器需要不同的驱动（如 geckodriver 用于 Firefox）。
driver.get(url) 用于访问指定的网页 URL。
driver.quit() 用于关闭浏览器，结束 Selenium 会话。

1.1.2 元素定位

元素定位是与 Selenium 交互的关键。在爬虫中，我们需要准确找到网页中的元素，以便提取内容、点击链接或填写表单等。Selenium 提供了多种方式来定位网页元素。

常用的元素定位方法包括：

By.ID：通过元素的 ID 属性定位。
By.NAME：通过元素的 name 属性定位。
By.CLASS_NAME：通过元素的 class 属性定位。
By.TAG_NAME：通过元素的标签名定位。
By.CSS_SELECTOR：通过 CSS 选择器定位元素。
By.XPATH：通过 XPath 定位元素（非常强大，支持更复杂的选择）。

from selenium.webdriver.common.by import By

# 使用 ID 定位
element = driver.find_element(By.ID, 'loginButton')

# 使用 CLASS_NAME 定位
element = driver.find_element(By.CLASS_NAME, 'btn-primary')

# 使用 CSS_SELECTOR 定位
element = driver.find_element(By.CSS_SELECTOR, '.content > p')

# 使用 XPATH 定位
element = driver.find_element(By.XPATH, '//div[@class="content"]/p')

解析：

find_element() 方法用于定位单个元素。如果定位的元素不存在，Selenium 会抛出 NoSuchElementException 异常。
find_elements() 用于查找多个符合条件的元素，返回的是一个列表。

1.1.3 动作模拟

Selenium 允许我们模拟一系列用户操作，如点击、输入文本、鼠标悬停、键盘按键等。这些动作在爬取动态网页时尤其重要，因为很多网页的交互和数据加载依赖于用户操作。

点击操作：

button = driver.find_element(By.ID, 'submitButton')
button.click()

输入文本：

input_box = driver.find_element(By.NAME, 'username')
input_box.send_keys('myUsername')

# 清空输入框
input_box.clear()

# 输入密码
password_box = driver.find_element(By.NAME, 'password')
password_box.send_keys('myPassword')

鼠标悬停（使用 ActionChains）：

from selenium.webdriver.common.action_chains import ActionChains

# 鼠标悬停到某个元素上
element = driver.find_element(By.ID, 'hoverElement')
actions = ActionChains(driver)
actions.move_to_element(element).perform()

滚动页面：

driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

1.1.4 隐式和显式等待

在动态网页中，页面内容通常是异步加载的，直接操作可能会导致元素尚未加载完成而抛出异常。为了解决这个问题，Selenium 提供了等待机制。

隐式等待：每次查找元素时都会等待指定的时间（如果元素在指定时间内出现，则继续执行，否则抛出异常）。

# 设置隐式等待，单位为秒
driver.implicitly_wait(10)

显式等待：显式等待是在特定条件下等待某个元素出现或变为可操作状态。

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 显式等待元素加载，最多等待 10 秒
element = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.ID, 'dynamicElement'))
)

解析：

implicitly_wait() 设置了全局的隐式等待时间，Selenium 会在每次寻找元素时等待该时间。
WebDriverWait 和 expected_conditions 用于显式等待。presence_of_element_located 用于等待元素加载，visibility_of_element_located 用于等待元素可见。

1.2 处理动态加载的页面内容

动态加载的页面通常通过 JavaScript、AJAX 或 WebSocket 等技术实现内容的异步加载。在这种情况下，页面初始加载时并不会包含所有数据，数据通常是在用户操作后或页面滚动时通过异步请求加载。要抓取动态加载的内容，需要特定的技巧。

1.2.1 等待页面加载完成

在处理动态加载的网页时，首先需要等待页面或某些元素完全加载。可以使用 Selenium 的显式等待，确保在执行数据提取操作之前，目标内容已经被加载。

# 等待页面上的某个特定元素加载完成
element = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.ID, 'targetElement'))
)

1.2.2 模拟滚动加载内容

一些动态网页内容是在用户滚动页面时通过 JavaScript 动态加载的。这种情况下，我们可以模拟滚动操作，迫使浏览器加载更多数据。

# 模拟页面向下滚动
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

# 等待加载完成后再执行下一步操作
WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.ID, 'nextPageElement'))
)

1.2.3 获取 Ajax 请求的数据

许多动态页面通过 Ajax 请求从服务器获取数据。爬虫可以直接监听这些 Ajax 请求，并通过捕获请求的响应数据来提取内容，而不必等到页面完全渲染后再进行提取。

通过浏览器开发者工具获取 Ajax 请求 打开浏览器开发者工具的 "Network" 面板，刷新页面后，可以看到所有网络请求。找到与数据相关的 Ajax 请求，并记录该请求的 URL 和参数。
使用 Selenium 获取 Ajax 请求的数据 Selenium 允许通过 JavaScript 访问浏览器的开发者工具 API，从而获取 Ajax 请求的响应。

# 获取页面的所有网络请求
requests = driver.execute_script("return window.performance.getEntriesByType('resource');")
for request in requests:
    if "api" in request['name']:
        print(request['name'])

1.2.4 处理 JavaScript 渲染的内容

一些动态页面依赖于 JavaScript 渲染内容。如果内容通过 JavaScript 生成并插入到 DOM 中，Selenium 可以模拟浏览器执行 JavaScript 脚本并返回渲染后的页面。

# 获取渲染后的页面内容
html_content = driver.page_source

此时，driver.page_source 返回的是执行 JavaScript 后的页面 HTML，包含了所有动态加载的内容。

1.2.5 处理验证码与反爬虫机制

有时，网站会通过验证码或反爬虫机制（如IP封锁、请求头检查等）来防止爬虫抓取数据。在这种情况下，可以使用一些技巧绕过反爬虫机制。

使用代理：通过代理池来绕过IP封锁。
模拟真实浏览器：通过更改请求头，模拟真实浏览器的访问行为。
OCR识别验证码：使用 OCR（如 Tesseract）识别验证码并提交。

总结

Selenium 是一个非常强大的工具，适用于处理动态网页的爬取。它能够模拟用户的浏览器操作，包括点击、输入、滚动等操作，从而触发数据的加载。在处理动态加载的网页时，Selenium 的显式等待、滚动操作和 JavaScript 执行都能够帮助开发者提取渲染后的数据。

随着动态网页的逐渐增多，爬虫开发者越来越依赖 Selenium 来抓取复杂的网页。

原文地址：https://blog.csdn.net/u012263104/article/details/143822961

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：get_dumines() 函数,用于将分类变量转换为哑变量
下一篇：借助OpenAI优化Selenium脚本：提高稳定性与可维护性

Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
阅读更多2024-11-23
解决vm虚拟机中ctrl键粘滞问题（一直处于按下状态）
虚拟机中点击鼠标左键没有问题，单独按下键盘也没有问题，但是如果按下键盘的同时在按下鼠标左键就会卡住。而且100%稳定复现。发现问题原因：vm版本的问题，我的版本是17.5.0，升级成17.5.2 bu
阅读更多2024-11-23
第十章 JavaScript的应用
10.1.1 JavaScript简介1 简单性JavaScript 设计之初就考虑到了非专业程序员的使用，因此它的语法相对简单，容易上手。2 动态性JavaScript 是一种解释型语言，代码可以在
阅读更多2024-11-23
非root用户安装CUDA
4.下载完成后执行.run文件，需要添加两个参数，一个是--override，用于跳过某些检查或限制；另一个是--toolkitpath，它表示安装路径，必须是自己目录下面的路径，如果是根目录就会安装
阅读更多2024-11-23
Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
【代码】## Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
阅读更多2024-11-23
【通俗理解】Jensen不等式与变分分布q(z)在积分计算中的应用
Jensen不等式 #变分分布 #积分计算 #期望 #凸函数 #优化问题 #下界估计 #机器学习。
阅读更多2024-11-23
「Mac玩转仓颉内测版27」基础篇7 - 字符串类型详解
本篇将介绍 Cangjie 中的字符串类型，包括字符串的定义、字面量形式、插值表达、常用操作及应用场景，帮助开发者熟练掌握字符串的使用。
阅读更多2024-11-23
数据科学与SQL：组距分组分析 | 区间分布问题
绝对值分布分析也可以理解为组距分组分析。对于某个指标而言，一个记录对应的指标值的绝对值，肯定落在所有指标值的绝对值的最小值和最大值构成的区间内，根据一定的算法，在把这个区间划分为等距离的几个小区间，，
阅读更多2024-11-23
c++编译报C1004错误的原因及解决办法
可能是你的代码文件最后没有正确的结束符，或者是缺少了一些必要的头文件或语句。默认磁盘驱动器没有足够的空间用于临时文件，需要大约两倍于源文件的空间。编译器到达了源文件尾但未解析构造。计算结果为假的 #i
阅读更多2024-11-23
mysql 去重补全取出重复变量函数和存储过程
mysql 去重补全取出重复变量函数和存储过程
阅读更多2024-11-23