Python爬虫 | 什么是反爬虫技术与机制

🕗 发布于 2024-11-08 12:57 python 爬虫

反爬虫机制详解

1. 理解反爬虫机制

在讨论反爬虫技术之前，我们首先需要了解常见的反爬虫机制：

IP限制：限制单个IP的访问频率。
User-Agent检测：禁止非浏览器的访问。
Cookie/Session验证：要求登录或保持会话。
动态内容：使用JavaScript动态加载内容。
验证码：要求人工输入验证码。
蜜罐陷阱：设置虚假链接诱导爬虫。

2. 反爬虫技术

2.1 IP代理池

使用代理IP是绕过IP限制的有效方法。你可以构建一个代理IP池，并在每次请求时随机选择一个代理IP。

import requests
from random import choice

proxies = [
    {'http': 'http://1.2.3.4:80'},
    {'http': 'http://5.6.7.8:8080'},
    # 添加更多代理IP
]

def get_random_proxy():
    return choice(proxies)

url = 'https://example.com'
response = requests.get(url, proxies=get_random_proxy())

2.2 User-Agent轮换

许多网站会检查User-Agent来识别爬虫。通过随机切换User-Agent，我们可以模拟不同的浏览器访问。

import requests
from random import choice

user_agents = [
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.1 Safari/605.1.15',
    # 添加更多User-Agent
]

def get_random_ua():
    return choice(user_agents)

url = 'https://example.com'
headers = {'User-Agent': get_random_ua()}
response = requests.get(url, headers=headers)

2.3 处理Cookie和Session

对于需要登录的网站，我们可以使用requests的Session对象来维护会话状态。

import requests

session = requests.Session()
# 登录
login_data = {'username': 'your_username', 'password': 'your_password'}
session.post('https://example.com/login', data=login_data)
# 访问需要登录的页面
response = session.get('https://example.com/protected_page')

2.4 处理动态内容

对于使用JavaScript动态加载内容的网站，我们可以使用Selenium等工具来模拟浏览器行为。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument("--headless")  # 无头模式
driver = webdriver.Chrome(options=chrome_options)
driver.get('https://example.com')
# 等待动态内容加载
driver.implicitly_wait(10)
# 获取动态加载的内容
content = driver.find_element_by_id('dynamic-content').text
driver.quit()

2.5 验证码处理

对于简单的验证码，我们可以使用OCR技术进行识别。对于复杂的验证码，可能需要使用机器学习模型或人工识别服务。

import pytesseract
from PIL import Image

def solve_captcha(image_path):
    image = Image.open(image_path)
    return pytesseract.image_to_string(image)

captcha_text = solve_captcha('captcha.png')

2.6 处理蜜罐陷阱

为了避免陷入蜜罐陷阱，我们可以实现一个智能的URL过滤器，只访问与目标相关的URL。

import re

# 假设我们只对包含特定关键词的URL感兴趣
url_filter = re.compile(r'\bkeyword\b')

def filter_urls(url):
    return url_filter.search(url) is not None

原文地址：https://blog.csdn.net/weixin_39347873/article/details/143592472

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：OpenSSL 生成根证书、中间证书和网站证书
下一篇：生产环境中使用：带有核函数的 SVM 处理非线性问题

Rust性能优化与调试之性能基准测试
在 Criterion 中创建多个测试组，通过分组功能生成针对不同环境（例如小规模数据 vs 大规模数据、冷缓存 vs 热缓存）的详细分析报告，帮助开发者在不同场景下优化性能。为保证测试结果的实用性，
阅读更多2024-11-08
ABC377
我们手动来看例子：5,6,3,1,2,4 -> 2,4,3,5,6,1 -> 4,5,3,6,1,2 -> 6,1,3,2,4,5。按顺序插入，插入的时候去看每个位置到之前的叶子节
阅读更多2024-11-08
Linux文本操作三大利器总结：sed、awk、grep
Linux文本操作三大利器总结：sed、awk、grep
阅读更多2024-11-08
第三章：TDengine 常用操作和高级功能
TDengine 是一个专门为物联网（IoT）和大数据场景设计的高性能时序数据库。除了基本的创建数据库、表、插入和查询数据之外，TDengine 还提供了许多其他常用操作和高级功能。
阅读更多2024-11-08
50岁+人群月活超1亿，短剧迎来新对手，小程序游戏“收割”中老年
年轻人玩的游戏太复杂了，基本的下载都很麻烦，小程序游戏操作方便，随时点开就可以在上面下象棋、打麻将，方便多了，”现年55岁的小刘叔叔告诉AgeTravel。过去受到中老年玩家欢迎的游戏产品，往往都具备
阅读更多2024-11-08
在 Bash 中获取 Python 模块变量列
在 Bash 中获取 Python 模块的变量列表可以通过使用 python -c 来运行 Python 代码并输出变量名列表。
阅读更多2024-11-08
斗破QT编程入门系列之二：认识Qt：编写一个HelloWorld程序（四星斗师）
窗口左侧有上下两个子窗口，上方的目录树显示了项目内文件的组织结构，显示当前项目的名称，项目的名称都成目录树的一个跟节点，Qt Creator可以打开多个项目，但是只有一个活动项目（Active Pro
阅读更多2024-11-08
Bash Shell - 获取日期、时间
以下代码将date的执行结果存储在today变量中。date 是获取日期和时间的命令。可以获取几周前/几周后或几个月前/之后的时间。选择使用 quotes(`)或$使用date获取日期。
阅读更多2024-11-08
深入理解 Linux 内存管理：free 命令详解
Linux 系统中 free 命令的使用及其输出各个字段的含义，理解物理内存和交换分区的使用情况，计算内存使用率，free 命令的其他重要选项及其组合使用方法，交换分区的作用、清除方法及其对性能的影响
阅读更多2024-11-08
GPU 服务器：超酷算力担当→科技界的宝藏神器！
这 GPU 服务器的厉害之处，很大程度上就靠它那超强的算力。电影制作的时候，GPU 服务器能快速搞特效处理，像《阿凡达》里的虚拟场景和特效制作，没 GPU 算力可不行。#GPU 服务器#高性能计算#图
阅读更多2024-11-08