SeleniumBase在无头模式下绕过验证码的完整指南

🕗 发布于 2024-10-09 13:07 SeleniumBase Selenium 验证码无头模式爬虫代理

概述

在现代Web爬虫技术中，SeleniumBase 是一款强大的自动化测试工具，能够模拟用户行为，进行高效的数据采集。然而，验证码（CAPTCHA）常常成为爬虫项目中的一个难题，尤其是在无头模式（Headless Mode）下，验证码绕过变得更加复杂。

本篇文章将详细讲解如何在SeleniumBase的无头模式下绕过验证码，使用代理IP（以爬虫代理为例）并通过设置User-Agent和Cookie等手段，提升爬虫的效率和成功率。

1. 无头模式下验证码绕过的挑战

无头模式指的是浏览器在后台运行，没有图形化界面的展示。这种模式下爬虫可以更高效地运行，减少系统资源的消耗。但是，许多网站使用验证码来阻止自动化程序的访问，尤其是无头浏览器更容易被识别为“机器人行为”。

验证码绕过的挑战源自于网站对自动化行为的检测，这些检测基于浏览器的指纹信息、IP地址的频繁请求，以及缺少用户行为的模拟。因此，使用代理IP、设置User-Agent 和 Cookie 等方法可以帮助我们模拟正常用户行为，并提高验证码的通过率。

2. 绕过验证码的策略

2.1 无头模式浏览器设置

使用SeleniumBase时，可以通过设置浏览器选项进入无头模式。以下是如何启用无头模式并修改浏览器的配置，以减少被检测为自动化请求的可能性。

from seleniumbase import BaseCase
from selenium.webdriver.chrome.options import Options

class BypassCaptchaTest(BaseCase):
    def setUp(self):
        super().setUp()
        options = Options()
        options.add_argument('--headless')  # 开启无头模式
        options.add_argument('--disable-gpu')
        options.add_argument('--no-sandbox')
        options.add_argument('--disable-blink-features=AutomationControlled')  # 禁用自动化检测
        # 设置User-Agent，模拟正常用户
        options.add_argument('--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36')
        self.driver = self.get_new_driver(options=options)
    
    def tearDown(self):
        self.driver.quit()  # 关闭浏览器并清理资源

2.2 使用代理IP

通过使用代理IP可以隐藏爬虫的真实IP地址，避免因频繁访问而被目标网站屏蔽。这里以爬虫代理为例，展示如何配置代理IP。

代理IP的配置如下：

域名：proxy_domain
端口：proxy_port
用户名：username
密码：password

在SeleniumBase中配置代理IP的代码如下：

# 在options中设置代理IP 亿牛云爬虫代理 www.16yun.cn
options.add_argument('--proxy-server=http://username:password@proxy_domain:proxy_port')

通过代理IP的轮换，我们可以有效规避网站对IP地址的限制，提高爬虫的持久性。

2.3 设置User-Agent和Cookie

User-Agent 是浏览器向服务器发送的请求中携带的客户端信息，通常包括操作系统、浏览器版本等，通过修改User-Agent可以模仿各种设备和浏览器。与此同时，Cookie 可用于保持登录状态和会话的连续性，减少验证码的频繁触发。

代码示例：

# 设置User-Agent
options.add_argument('--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36')

# 设置Cookie，保持登录状态
self.driver.add_cookie({'name': 'session_id', 'value': 'session_value'})

这些配置能够有效降低验证码的触发概率，提升爬虫的效率。

3. 代码示例：访问大众点评网站并绕过验证码

以下是一个完整的代码示例，目标网站设置为大众点评，并结合了无头模式、代理IP、User-Agent和Cookie的配置，模拟用户搜索操作，进行数据抓取。

from seleniumbase import BaseCase
from selenium.webdriver.chrome.options import Options

class BypassCaptchaWithProxy(BaseCase):
    def setUp(self):
        super().setUp()
        options = Options()
        options.add_argument('--headless')  # 无头模式
        options.add_argument('--disable-gpu')
        options.add_argument('--no-sandbox')
        options.add_argument('--disable-blink-features=AutomationControlled')  # 禁用自动化检测标志
        # 设置User-Agent，模拟普通用户
        options.add_argument('--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36')
        # 配置代理IP（亿牛云爬虫代理 www.16yun.cn）
        options.add_argument('--proxy-server=http://username:password@proxy_domain:proxy_port')
        
        self.driver = self.get_new_driver(options=options)
    
    def test_bypass_captcha(self):
        # 访问大众点评网站
        self.driver.get("https://www.dianping.com")
        # 设置Cookie（具体Cookie值可通过抓包工具获取）
        self.driver.add_cookie({'name': 'session_id', 'value': 'session_value'})

        # 模拟用户输入并点击搜索
        search_box = self.driver.find_element_by_id('J-search-input')  # 获取搜索框
        search_box.send_keys("餐厅")  # 输入搜索内容
        search_button = self.driver.find_element_by_class_name('search-btn')  # 获取搜索按钮
        search_button.click()  # 点击搜索

        # 检查页面是否加载成功，并绕过验证码
        assert "美食" in self.driver.page_source  # 验证页面是否包含"美食"字样
    
    def tearDown(self):
        self.driver.quit()  # 关闭浏览器

代码解析：

无头模式：通过 --headless 选项开启无头模式。
代理IP：使用了爬虫的代理服务来隐藏真实IP，并通过 --proxy-server 配置代理IP。
User-Agent：通过 --user-agent 伪装成真实浏览器用户，减少被网站检测为爬虫的风险。
Cookie：手动添加Cookie，保持会话和登录状态，避免频繁触发验证码。
模拟用户行为：在大众点评网站上，模拟了输入关键词“餐厅”并点击搜索按钮的操作。

4. 提高爬虫效率的技巧

为了进一步提升爬虫效率，除了上面提到的技术，还有以下几个实用技巧：

代理池轮换：通过定期更换代理IP，可以有效避免IP封禁的风险。
合适的延迟：在爬取多个页面时，适当设置请求之间的延迟，模拟真实用户的操作，避免被检测为机器人行为。
分布式爬虫：通过分布式系统实现并发爬取，提高数据抓取的速度和效率。

结论

本文详细讲解了如何使用SeleniumBase在无头模式下绕过验证码，结合代理IP、User-Agent 和 Cookie 的配置，可以有效提高爬虫的成功率和效率。通过具体的代码示例展示了如何在实际场景中（如访问大众点评）应用这些技术，以便应对现代网站的反爬虫机制。

这些策略和代码为爬虫开发者提供了强有力的工具，帮助应对验证码和反爬虫机制带来的挑战。

原文地址：https://blog.csdn.net/ip16yun/article/details/142782133

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

通过祖先序列重建辅助工程化UDP-糖基转移酶-文献精读64
三萜类化合物在医药和农业领域有广泛的应用。通过UDP-糖基转移酶（UGTs）催化三萜类化合物的糖基化是一种重要方法，用于生产具有增强功能的有价值衍生物。然而，已报道的仅有少数UDP-葡萄糖基转移酶能够
阅读更多2024-10-10
【C++网络编程】（一）Linux平台下TCP客户/服务端程序
cstdlib>：提供了一些常用的标准库函数，源自 C 的stdlib.h，这些函数与程序控制、内存分配、随机数生成等功能相关。：终止程序执行，status用来返回退出状态码，0表示正常退出，非
阅读更多2024-10-10
Chatgpt 原理解构
例如，通过改进算法和模型结构，让 ChatGPT 具备更人性化的推理能力，包括因果关系推理、逻辑演绎能力，更好地把握长对话的上下文、对复杂情境的准确识别和更精细化的情绪感知。然而，它也带来了一些挑战，
阅读更多2024-10-10
【公共祖先】二叉树专题
公共祖先这一类题目，难度不大，但是非常实用，也是面试问到概率比较大的一类题目。为什么实用呢？主要在Git领域：git pull这个命令默认是使用merge方式将远端别人的修改拉倒本地，如果带上参数，g
阅读更多2024-10-10
安卓上的iso 是哪几个gain 相乘
在安卓的相机系统中，表示感光度，它实际上反映的是图像传感器对光线的整体响应度。ISO 值的调整可以通过增益（gain）的调节实现，增益会放大传感器采集的信号强度。
阅读更多2024-10-10
《Linux运维总结：基于ARM64+X86_64架构CPU使用docker-compose一键离线部署mongodb 7.0.14容器版分片集群》
《Linux运维总结：基于ARM64+X86_64架构CPU使用docker-compose一键离线部署mongodb 7.0.14容器版分片集群》
阅读更多2024-10-10
股指期货和股指期权有什么区别？
而股指期权呢，它交易的是一份权利，就像是一张可以兑奖的彩票，本身就有价值。所以到期的时候啊，那些虚的、平的、实值太小的期权一般都不会交割的，只有一小部分实值期权才会被执行。这压力可就大了，得时刻盯着市
阅读更多2024-10-10
论文阅读：On determining the hinterlands of China‘s foreign trade container ports
集装箱港口腹地的边界线，只要存在，就可以作为未来港口发展和基础设施规划的参考点。在早期划定中国港口腹地的努力中，要么考虑的港口数量有限，要么仅根据港口总吞吐量划定腹地。因此，这些研究都没有让我们清楚地
阅读更多2024-10-10
JVM篇（学习预热 - 云原生时代的JVM（GraalVM））（持续更新迭代）
阿里云使用GraalVM来加速它们的Java应用程序，并且利用GraalVM的云支持，在云环境中运行它们的应用程。GraalVM的即时编译器采用了新型的JIT技术，能够在运行时对代码进行优化，从而提高
阅读更多2024-10-10
Redis：分布式 - 哨兵
讲解Redis分布式应用，哨兵
阅读更多2024-10-10