解决selenium爬虫被浏览器检测问题

🕗 发布于 2024-09-20 21:55 selenium 爬虫测试工具

在这里插入图片描述

文章目录

专栏导读
1.问题解析
2.代码解析(Edge/Chrome通用)
3.完整代码（可直接复制使用）

专栏导读

✍ 作者简介：i阿极，CSDN 数据分析领域优质创作者，专注于分享python数据分析领域知识。
✍ 其他专栏：《数据分析案例》，《机器学习案例》

😊😊😊如果觉得文章不错或能帮助到你学习，可以点赞👍收藏📁评论📒+关注哦！👍👍👍

1.问题解析

对于selenium模拟网页登录被检测到的原因，很多博主大佬对此都有其解释。这里就不再阐述。
但是为了让本博主和小伙伴们方便并快速找到原因，以下是AI给出的答案：

使用Selenium爬虫被检测到的原因主要有以下几点：

请求头信息差异
默认请求头差异：Selenium在默认情况下发送的请求头信息与真实浏览器略有不同，这可能导致服务器识别出非人类访问。例如，Selenium的WebDriver在发送请求时，可能会包含特定的标识（如window.navigator.webdriver），这些标识可以被网站用来检测是否使用了自动化工具。
可定制性不足：虽然Selenium允许自定义请求头，但相比真实浏览器，其请求头可能缺乏足够的“人性化”信息，如referer字段、用户代理（User-Agent）字符串的多样性等。
访问模式异常
访问频率过高：Selenium爬虫通常具有较高的访问频率，这与人类用户的访问行为存在显著差异。如果爬虫在短时间内对同一网站进行大量请求，很容易被服务器识别为异常行为。
行为模式固定：由于Selenium爬虫是程序化操作，其行为模式相对固定，如固定的点击顺序、输入速度等，这与人类用户的随机性操作形成对比，增加了被检测的风险。
浏览器指纹差异
浏览器指纹：每个浏览器都有其独特的指纹信息，包括操作系统、浏览器版本、插件列表等。Selenium爬虫通常使用单一的浏览器配置进行大量请求，这可能导致其浏览器指纹与大多数真实用户不同，从而被网站识别。
其他反爬虫机制
IP地址限制：如果Selenium爬虫频繁使用同一IP地址进行访问，该IP地址可能会被网站加入黑名单，从而限制或封禁其访问。
Cookie验证：部分网站在登录后会在每个请求中要求携带相关的Cookie信息，如果Selenium爬虫无法正确处理这些Cookie，也可能导致被检测。
应对措施
为了减少Selenium爬虫被检测的风险，可以采取以下措施：
自定义请求头：尽可能模拟真实浏览器的请求头信息，包括User-Agent、referer等字段。
设置合理的访问间隔：在请求之间设置随机间隔时间，模拟人类的自然访问规律。
使用代理IP：通过代理IP进行访问，隐藏真实的IP地址，避免被服务器封禁。
修改WebDriver属性：通过修改Selenium WebDriver的默认属性，如禁用window.navigator.webdriver标识，减少被检测的风险。
模拟用户行为：在爬虫中加入模拟用户行为的元素，如随机点击、滚动页面等，使爬虫行为更接近真实用户。

2.代码解析(Edge/Chrome通用)

2.1 设置Edge浏览器选项:

option = webdriver.EdgeOptions()

这行代码创建了一个EdgeOptions对象，该对象用于配置Microsoft Edge浏览器的启动选项。这是在使用Selenium与Edge浏览器交互时的第一步。

2.2 尝试启用后台模式

option.add_experimental_option("detach", True)

这行代码尝试通过添加实验性选项"detach"并设置为True来让浏览器在后台运行。然而，需要注意的是，"detach"并不是Selenium官方支持的Edge浏览器选项，且其效果可能因Selenium版本和浏览器实现而异。在某些情况下，这个选项可能不起作用或不被识别。

2.3 排除启用自动化模式的标志

option.add_experimental_option("excludeSwitches", ["enable-automation"])

这行代码通过添加实验性选项"excludeSwitches"并传入一个包含"enable-automation"的列表来尝试隐藏自动化痕迹。"enable-automation"是一个Chrome（及可能也适用于Edge，因为它们共享很多相同的命令行选项）的标志，用于启用自动化模式，该模式可能会改变浏览器的行为或允许网站检测到自动化。

2.4 禁用自动化扩展

option.add_experimental_option("useAutomationExtension", False)

这行代码通过设置"useAutomationExtension"为False来禁用Selenium的自动化扩展。这个扩展可能会暴露Selenium的存在，从而被网站检测到。

2.5 设置用户代理

option.add_argument(  
    "User-Agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.46")

这行代码通过add_argument方法添加一个命令行参数来设置浏览器的用户代理（User-Agent）。用户代理是一个在HTTP请求中发送的头部，用于告诉服务器客户端的操作系统、浏览器版本等信息。这里设置为一个模拟Chrome浏览器的用户代理，以尝试绕过一些基于用户代理的检测。

2.6 实例化浏览器驱动对象并应用配置

driver = webdriver.Edge(options=option)

这行代码使用之前配置的EdgeOptions对象（option）来实例化一个Edge浏览器的WebDriver对象。这个WebDriver对象将用于控制Edge浏览器进行自动化测试或爬虫操作。

2.7 在页面加载时执行JavaScript代码

driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {  
    "source": """  
    Object.defineProperty(navigator, 'webdriver', {  
      get: () => undefined  
    })  
    """  
})

这行代码使用Chrome DevTools Protocol（CDP）的Page.addScriptToEvaluateOnNewDocument命令来在页面加载时自动执行一段JavaScript代码。这段代码通过Object.defineProperty方法重写了navigator.webdriver属性，使其getter函数返回undefined。这样做可以隐藏Selenium的存在，因为一些网站可能会通过检查navigator.webdriver属性来判断是否在使用自动化工具。这是绕过网站自动化检测的一种常用方法。

3.完整代码（可直接复制使用）

option = webdriver.EdgeOptions()
option.add_experimental_option("detach", True)
option.add_experimental_option("excludeSwitches", ["enable-automation"])
option.add_experimental_option("useAutomationExtension", False)
option.add_argument(
    "User-Agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.46")
# 实例化浏览器驱动对象，并将配置浏览器选项
driver = webdriver.Edge(options=option)
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
    "source": """
            Object.defineProperty(navigator, 'webdriver', {
              get: () => undefined
            })
            """
})

📢文章下方有交流学习区！一起学习进步！💪💪💪
📢首发CSDN博客，创作不易，如果觉得文章不错，可以点赞👍收藏📁评论📒
📢你的支持和鼓励是我创作的动力❗❗❗

原文地址：https://blog.csdn.net/AOAIYI/article/details/142388993

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：蓝桥杯-STM32G431RBT6（解决LCD与LED引脚冲突的问题）
下一篇：极越联手百度这你受得了吗！SU7还能稳坐“7字辈”头把交椅？

Java项目:校园宿舍管理系统(优质版)(Springboot3+Maven+Mybatis Plus+Vue3+ Element Plus+Mysql)
Springboot3+Maven+Mybatis Plus+Vue3+ Element Plus+Mysql 开发的前后端分离的校园宿舍管理系统。
阅读更多2024-11-16
IntelliJ IDEA新建项目或导入未识别为maven解决
1.首先，我的情况是我新建了一个springboot项目，然后选择类型是Maven但是建立后不是maven项目。当然，前提是你的maven已经在idea上做好配置了。2.打开项目后，从File --》
阅读更多2024-11-16
Gin HTML 模板渲染
Gin HTML模板入门
阅读更多2024-11-16
未来的车网互动如何重塑我们的城市生活
设想一下，在一个寒冷的冬日，你的车辆通过车网互动得知前方桥梁可能结冰，它会自动降低速度，并提醒你注意驾驶安全。公众的参与同样重要，只有当越来越多的车辆加入到车网互动系统中，才能真正发挥其潜力，提高整个
阅读更多2024-11-16
人工智能技术的应用前景及其对生活和工作方式的影响
人工智能技术的应用前景广阔，它不仅在医疗、企业和日常生活中带来了显著的变化，还将继续推动社会的创新和发展。面对 AI 技术带来的机遇和挑战，我们需要共同努力，确保技术的发展能够造福人类社会，创造一个更
阅读更多2024-11-16
《AI技术，让生活更简单》
想象一下，你回到家，灯自动亮了，空调调到你喜欢的温度，冰箱告诉你牛奶快没了，甚至还能帮你预约超市送货。这不是科幻电影，这就是AI技术正在做的事情。
阅读更多2024-11-16
sychronized锁
sychronized 关键字能成为锁的原因，是因为它提供了**内置锁（Intrinsic Lock）**机制，用于线程同步，确保同一时刻只有一个线程能够访问被标记为 synchronized 的代码
阅读更多2024-11-16
SpringBoot 2.2.10 无法执行Test单元测试
同样的Idea版本，现有的项目却可以执行，按照C老师的提示增加对junit5的引用支持，依然没有，StackOverflow上也是提示增加依赖，依赖加完之后执行报错一个 EnginListener N
阅读更多2024-11-16
springMVC 全局异常统一处理
进⾏异常处理，具有集成简单、有良好的扩展性、对已有代码没有⼊侵性等优点，但该⽅法仅能获取到异常信息，若在出现异常时，对需要获取除异常以外的数据的情况不适⽤。Unchecked Exception，⽽
阅读更多2024-11-16
thinkphp6配置多应用项目及多域名访问路由app配置
ThinkPHP 多应用模式初探
阅读更多2024-11-16