网页自动化测试和爬虫：Selenium库入门与进阶

🕗 发布于 2024-11-07 04:33 爬虫 selenium 测试工具

网页自动化测试和爬虫：Selenium库入门与进阶

在现代Web开发和数据分析中，自动化测试和数据采集成为了开发流程中的重要部分。Python 的 Selenium 库是一种强大的工具，不仅用于网页自动化测试，也在网页爬虫中得到了广泛的应用。本文将带你从 Selenium 的基础用法入手，逐步深入到进阶技巧，帮助你轻松应对网页自动化任务。

一、Selenium简介与安装

Selenium 是一个浏览器自动化工具，可以模拟用户操作，如点击按钮、填入表单、滚动页面等。它支持多种浏览器（如 Chrome、Firefox 等），使其成为自动化测试和动态页面数据采集的强力工具。

1. 安装Selenium

使用 pip 安装 Selenium：

pip install selenium

另外，还需下载相应浏览器的驱动程序，比如 chromedriver 或 geckodriver。以 Chrome 为例，你可以从 ChromeDriver官网下载对应的驱动，并将其路径加入到系统 PATH 中。

2. 快速启动

以下代码展示了如何用 Selenium 启动一个浏览器并访问指定网页。

from selenium import webdriver

# 启动 Chrome 浏览器
driver = webdriver.Chrome()

# 访问网页
driver.get("https://www.example.com")

# 输出网页标题
print(driver.title)

# 关闭浏览器
driver.quit()

二、基本操作：定位元素

Selenium 提供了多种方式来定位页面中的元素，从最常用的 id 和 class name 到更高级的 CSS 选择器和 XPath。以下是一些常见的元素定位方法：

from selenium.webdriver.common.by import By

# 按 ID 查找元素
element = driver.find_element(By.ID, "element_id")

# 按 class name 查找元素
element = driver.find_element(By.CLASS_NAME, "element_class")

# 按 name 查找元素
element = driver.find_element(By.NAME, "element_name")

# 使用 CSS 选择器
element = driver.find_element(By.CSS_SELECTOR, ".class > #id")

# 使用 XPath
element = driver.find_element(By.XPATH, "//tag[@attribute='value']")

三、模拟用户操作

1. 输入文本

可以用 .send_keys() 向输入框内输入文本内容，例如登录页面中的账号和密码：

# 找到输入框并输入文本
input_box = driver.find_element(By.ID, "username")
input_box.send_keys("my_username")

2. 点击按钮

按钮可以通过 .click() 方法触发点击事件。

# 点击登录按钮
login_button = driver.find_element(By.ID, "login")
login_button.click()

3. 清空文本框

使用 .clear() 方法可以清除文本框中的内容：

input_box.clear()

四、等待与超时

有时页面加载或元素显示需要一定时间，Selenium 提供了三种等待方式，以确保操作在元素完全加载后再执行：

1. 隐式等待

隐式等待在定位元素时会等待设定时间，使 Selenium 有足够时间找到元素。

driver.implicitly_wait(10)  # 10秒

2. 显式等待

显式等待允许我们设定特定条件，例如等待元素可点击或可见。

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 等待某个按钮可点击
button = WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.ID, "button_id")))
button.click()

3. 强制等待

强制等待可以暂停代码执行指定时间，但通常不推荐长期使用，因为它不够灵活。

import time

time.sleep(5)  # 强制等待5秒

五、处理弹窗、iframe和多窗口

1. 处理弹窗（Alert）

弹窗可以通过 alert 方法接受或取消。

alert = driver.switch_to.alert
alert.accept()  # 接受弹窗
alert.dismiss()  # 取消弹窗

2. 切换到 iframe

如果需要操作 iframe 内的元素，需先切换到该 iframe。

# 切换到 iframe
iframe = driver.find_element(By.ID, "iframe_id")
driver.switch_to.frame(iframe)

# 操作 iframe 内部的元素
# ...

# 切换回默认内容
driver.switch_to.default_content()

3. 处理多窗口

在多窗口环境中，可以使用 window_handles 切换窗口。

# 获取所有窗口句柄
handles = driver.window_handles

# 切换到新窗口
driver.switch_to.window(handles[1])

六、网页爬虫应用：抓取动态数据

Selenium 强大的自动化功能，使其在数据爬取中非常适合处理需要用户交互的页面。以下是一个使用 Selenium 抓取动态内容的简单示例：

from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# 打开网页并输入搜索关键词
driver.get("https://www.google.com")
search_box = driver.find_element(By.NAME, "q")
search_box.send_keys("Selenium 教程")
search_box.send_keys(Keys.RETURN)

# 获取搜索结果
results = driver.find_elements(By.CSS_SELECTOR, "h3")
for result in results:
    print(result.text)

七、使用无头浏览器

无头浏览器允许我们在没有浏览器窗口的情况下运行 Selenium，提高运行速度和效率，尤其适合服务器端应用。

from selenium.webdriver.chrome.options import Options

# 设置无头模式
options = Options()
options.add_argument("--headless")
driver = webdriver.Chrome(options=options)

driver.get("https://www.example.com")
print(driver.title)
driver.quit()

八、进阶技巧

1. 滚动页面

某些页面加载内容的方式是通过滚动触发的。可以使用 JavaScript 指令来实现页面滚动。

# 滚动到底部
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

# 滚动至某个元素
target = driver.find_element(By.ID, "target_id")
driver.execute_script("arguments[0].scrollIntoView();", target)

2. 模拟鼠标悬停

在一些页面中，悬停可以显示更多内容，使用 ActionChains 可以实现鼠标悬停操作。

from selenium.webdriver.common.action_chains import ActionChains

element = driver.find_element(By.ID, "hover_element")
ActionChains(driver).move_to_element(element).perform()

3. 模拟键盘操作

Selenium 可以模拟键盘事件，如全选、复制、粘贴等：

from selenium.webdriver.common.keys import Keys

input_box = driver.find_element(By.ID, "input_box")
input_box.send_keys(Keys.CONTROL, 'a')  # 全选
input_box.send_keys(Keys.CONTROL, 'c')  # 复制
input_box.send_keys(Keys.CONTROL, 'v')  # 粘贴

九、Selenium 使用建议

减少等待时间：尽量使用显式等待，避免使用固定时长的强制等待，以提高执行效率。
无头模式：在爬取数据时使用无头模式，以节省资源并加快速度。
异常处理：使用 try-except 块捕捉可能的异常，以确保代码在出现错误时不会停止。
避免频繁刷新：对于动态内容尽量避免使用频繁的页面刷新，可能会导致网站将请求封锁。

十、总结

Selenium 是一个功能全面的网页自动化测试工具，既可用于网页功能的自动化测试，又能在网页爬虫中抓取动态数据。掌握了以上基本与进阶技巧，相信你已经可以用 Selenium 轻松应对各种网页交互场景。在实际项目中，通过合理地使用等待和浏览器选项，Selenium 可以成为非常高效、稳定的数据获取和测试工具。

原文地址：https://blog.csdn.net/liaoqingjian/article/details/143457366

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：可选链操作符（Optional Chaining）
下一篇：Python 自动化运维：安全与合规最佳实践

【含文档】基于ssm+jsp的高校财务处理系统（含源码+数据库+lw）
管理员登录高校财务处理系统后，能对首页、个人中心、财务管理、会计科目管理、账户管理、财务账簿管理、凭证录入管理、凭证过账管理、初期录入管理、利润统计管理、资产负债管理、现金流量管理等功能进行详细操作。
阅读更多2024-11-14
30道Spring高频面试题，学完吊打面试官(实用干货！！！)
本文旨在为准备参加Spring框架面试的开发者提供全面的指导。Spring作为Java企业级开发的主流框架，以其轻量级、依赖注入、AOP（面向切面编程）和模块化等特性而广受欢迎。
阅读更多2024-11-14
Python代码实现了一个基于YOLOv5-Lite模型的目标检测系统
这段Python代码实现了一个基于YOLOv5-Lite模型的目标检测系统，并结合了舵机控制功能，能够对视频流中的目标（在这里可能是不同类型的垃圾）进行检测，同时可以根据检测结果控制两个舵机的转动。总
阅读更多2024-11-14
力扣662：二叉树的最大宽度
力扣662：二叉树的最大宽度。C语言
阅读更多2024-11-14
Qt 编写插件plugin，支持接口定义信号
本教程基于该链接的内容进行升级，在编写插件的基础上，支持接口类定义信号。环境：Qt5.12.12 + MSVC2017。
阅读更多2024-11-14
【CSS】什么是BFC？
块级格式化上下文（Block Formatting Context，简称BFC）是CSS布局中的一种重要概念，它决定了块级盒子如何在其容器内排列，以及浮动元素对其周围元素的影响。理解BFC可以帮助解决
阅读更多2024-11-14
2024年网络安全（黑客技术）三个月自学手册
网络安全可以基于攻击和防御视角来分类，我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。走安全行业的工程方向的，技术上面其实有很大的重叠
阅读更多2024-11-14
gitlab-development-kit部署gitlab《二》
Brewfile 注释的可以手动安装。
阅读更多2024-11-14
C++builder中的人工智能（28）：FANN: Fast Artificial Neural Networks快速人工神经网络（ANNs）
这篇文章全面介绍了快速人工神经网络（ANNs）的世界，探讨了它们在现代计算智能中的重要地位、核心特点、应用领域以及未来发展。快速人工神经网络库（Fast Artificial Neural Netwo
阅读更多2024-11-14
c++写一个死锁并且自己解锁
刷算法题：第一遍：1.看5分钟，没思路看题解2.通过题解改进自己的解法，并且要写每行的注释以及自己的思路。3.思考自己做到了题解的哪一步，下次怎么才能做对(总结方法)4.整理到自己的自媒体平台。5.再
阅读更多2024-11-14

网页自动化测试和爬虫：Selenium库入门与进阶