如何让Python爬虫在遇到异常时继续运行

🕗 发布于 2024-07-21 22:05 python 爬虫 try/except 爬虫代理代理IP

概述

在数据收集和数据挖掘中，爬虫技术是一项关键技能。然而，爬虫在运行过程中不可避免地会遇到各种异常情况，如网络超时、目标网站变化、数据格式不一致等。如果不加以处理，这些异常可能会导致爬虫程序中断，影响数据采集效率和完整性。本文将概述如何使用Python编写一个健壮的爬虫，确保其在遇到异常时能够继续运行。我们将通过使用try/except语句处理异常，结合代理IP技术和多线程技术，以提高爬虫的采集效率。

细节

1. 异常处理

异常处理是编写健壮爬虫程序的基础。在Python中，可以使用try/except语句捕获并处理可能出现的异常，确保程序在遇到问题时不会崩溃，而是能继续执行其他任务。

2. 使用代理IP

为了避免爬虫被目标网站封禁或限制，可以使用代理IP。通过代理服务器，爬虫可以伪装成不同的IP地址，分散请求的来源，提高爬取的成功率。本文将使用爬虫代理服务。

3. 多线程技术

多线程可以显著提高爬虫的采集效率。通过同时运行多个线程，爬虫可以在同一时间发出多个请求，从而加快数据采集速度。

示例代码

以下是一个实现了异常处理、代理IP、多线程技术的Python爬虫示例代码：

import requests
from concurrent.futures import ThreadPoolExecutor
import time
import sqlite3

# 代理IP配置 亿牛云爬虫代理加强版
proxy_host = "www.16yun.cn"  # 代理IP地址
proxy_port = "8000"              # 代理端口
proxy_user = "user123"           # 用户名
proxy_pass = "pass123"           # 密码

# 设置User-Agent
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

# 目标URL列表
urls = ["http://example.com/page1", "http://example.com/page2", ...]

# 设置代理
proxies = {
    "http": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}",
    "https": f"https://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}",
}

# 数据库配置
db_name = "crawler_data.db"

# 初始化数据库
def init_db():
    conn = sqlite3.connect(db_name)
    cursor = conn.cursor()
    cursor.execute('''
        CREATE TABLE IF NOT EXISTS pages (
            id INTEGER PRIMARY KEY AUTOINCREMENT,
            url TEXT NOT NULL,
            content TEXT NOT NULL,
            status_code INTEGER NOT NULL,
            timestamp DATETIME DEFAULT CURRENT_TIMESTAMP
        )
    ''')
    conn.commit()
    conn.close()

# 存储数据到数据库
def save_to_db(url, content, status_code):
    conn = sqlite3.connect(db_name)
    cursor = conn.cursor()
    cursor.execute('''
        INSERT INTO pages (url, content, status_code)
        VALUES (?, ?, ?)
    ''', (url, content, status_code))
    conn.commit()
    conn.close()

# 抓取URL并处理
def fetch_url(url, max_retries=5):
    retries = 0
    while retries < max_retries:
        try:
            response = requests.get(url, headers=headers, proxies=proxies, timeout=10)
            response.raise_for_status()  # 如果响应状态码不是200, 引发HTTPError异常
            print(f"成功抓取: {url}")
            save_to_db(url, response.text, response.status_code)
            return
        except requests.RequestException as e:
            retries += 1
            print(f"抓取失败: {url}, 错误信息: {e}, 重试次数: {retries}")
            time.sleep(1)  # 等待一秒后重试
    print(f"最终抓取失败: {url}，超过最大重试次数: {max_retries}")

# 使用多线程进行爬取
def run_crawler(urls, max_workers=5):
    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        executor.map(fetch_url, urls)

if __name__ == "__main__":
    init_db()  # 初始化数据库
    start_time = time.time()
    run_crawler(urls)
    print(f"总共用时: {time.time() - start_time} 秒")

# 这个脚本通过使用 try/except 来处理请求过程中的各种异常情况，
# 并通过代理IP技术来提高抓取成功率。同时，通过多线程技术提高了抓取效率。
# 在抓取失败后，会重复抓取直到成功或达到最大重试次数（5次）。
# 设置了User-Agent，并将抓取的内容存储到SQLite数据库中。

代码说明：

代理IP配置：设置亿牛云爬虫代理的主机、端口、用户名和密码。
设置User-Agent：在请求头中添加User-Agent字段。
目标URL列表：定义需要抓取的URL列表。
设置代理：通过proxies字典设置HTTP和HTTPS代理。
数据库配置：选择SQLite作为数据库，并定义数据库名称db_name。
初始化数据库：init_db函数创建一个表pages，包含URL、内容、状态码和时间戳。
存储数据到数据库：save_to_db函数将抓取到的内容存储到数据库中。
抓取URL并处理：fetch_url函数尝试抓取URL，最多重试5次。使用try/except处理异常，成功抓取后将内容存储到数据库。
使用多线程进行爬取：run_crawler函数使用ThreadPoolExecutor实现多线程抓取。
主程序：调用init_db函数初始化数据库，然后调用run_crawler函数并计算总共用时。

结论

通过合理地使用异常处理、代理IP和多线程技术，可以显著提高Python爬虫的健壮性和效率。异常处理确保爬虫在遇到问题时能够继续运行，代理IP技术可以避免爬虫被封禁，而多线程技术则可以大幅提升数据采集的速度。希望本文的介绍和示例代码能为您的爬虫开发提供有用的参考。

原文地址：https://blog.csdn.net/ip16yun/article/details/140516604

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：SpringBoot是如何简化Spring开发的，以及SpringBoot的特性以及源码分析
下一篇：C语言指针超详解——最终篇一

sql server 查看io资源使用
如果输出physical reads 或者 read-ahead reads 大于0 ，则表示有物理读取。
阅读更多2024-11-14
opencv入门学习总结
import cv2 # 返回当前安装的 OpenCV 库的版本信息并且是字符串格式 print(cv2 . getVersionString()) """作用：它可以
阅读更多2024-11-14
stable-diffusion-3 ，每天免费试用
官方space，童叟无欺，科学试用。
阅读更多2024-11-14
AI绘画经验（stable-diffusion）
在Stable Diffusion中，编码器将图像压缩成一个较小的Latent特征向量，这个向量包含了图像的关键信息，并且可以作为U-Net的输入。在Stable Diffusion中，文本编码器用于
阅读更多2024-11-14
【Linux网络编程】Socket编程--TCP：echo server | 多线程远程命令执行
【Linux网络编程】Socket编程--TCP：echo server | 多线程远程命令执行
阅读更多2024-11-14
vLLM×Milvus：如何高效管理GPU内存，减少大模型幻觉
大语言模型（LLM）是功能丰富且强大的 AI 系统，能够解决各个领域内的众多问题。它们的发展速度非常快，新模型不断被频繁推出。通常，新推出的 LLM 在处理各种任务时的性能更好。例如 Mistral、
阅读更多2024-11-14
一个功能强大的文档解析和转换工具，支持PDF、DOCX、PPTX和Markdown等
Docling是一个功能强大的文档解析和转换工具，支持多种文档格式，提供先进的PDF理解功能，并允许用户将文档转换为Markdown和JSON格式。它还具有元数据提取、OCR支持、无缝集成以及其他高级
阅读更多2024-11-14
计算机网络：运输层 —— TCP 协议概述与 TCP 报文段首部格式
传输控制协议（Transmission Control Protocol，TCP）协议是互联网上最常用的传输层协议之一，它负责提供可靠的端到端数据传输服务。TCP 协议采用连接导向的通信方式，通过三次
阅读更多2024-11-14
MySQL常见面试题
MySQL常见面试题
阅读更多2024-11-14
《Redis 实战基础、持久化机制及与 MySQL 一致性解决方案》
本文探讨了Redis的持久化机制及其在不同场景下的应用，并简要介绍了与MySQL数据同步的一致性解决方案。希望这些内容能帮助读者更好地理解和使用Redis，提升应用系统的性能和可靠性。
阅读更多2024-11-14