Python多线程爬虫入门：让你的爬虫跑得更快

🕗 发布于 2024-11-19 11:19 爬虫

一、前言

在互联网时代，数据是最有价值的资源之一。而网页爬虫是获取数据的一种非常重要的工具。在这篇文章中，我们将学习如何用 Python 编写一个多线程网页爬虫，适合小白快速上手！

二、多线程进程

单线程串行：一步一步做事情

单线程程序一次只能执行一个任务。所有任务按顺序执行，下一个任务必须等待当前任务完成。这种方式实现简单，但效率较低，尤其是在处理需要等待（如 I/O 操作）的时候。

多线程并发：同时做多件事

多线程允许程序同时执行多个任务。对于 I/O 密集型任务（如文件读写、网络请求等），多线程可以大幅提高效率，因为线程在等待 I/O 完成时可以切换到其他任务。
多进程并行：每个任务单独运行在一个进程中

多进程类似于多线程，但每个任务运行在独立的进程中，拥有自己的内存空间。多进程适用于 CPU 密集型任务（如计算密集型操作），因为多个进程可以充分利用多核 CPU 的能力。

三、python多线程的使用

1、python创建多线程的方法

使用 threading.Thread 创建线程，这是最基本的方式，直接创建 Thread 对象并启动线程。

import  threading  # 导入线程模块，用于创建和管理线程
import time  # 导入时间模块，用于添加延迟

# 定义两个线程要执行的函数
def print_hello():
    for _ in range(10):
        print("hello")
        time.sleep(0.2) # 休眠0.2秒，模拟延迟，确保线程交替执行

def print_world():
    for _ in range(10):
        print("world")
        time.sleep(0.1) # 休眠0.1秒，模拟延迟，确保线程交替执行

# 创建线程对象
hello = threading.Thread(target=print_hello)
world = threading.Thread(target=print_world)

# 启动线程
hello.start()
world.start()

# 等待线程执行完毕
hello.join()
world.join()

四、改写爬虫程序，变成多线程爬取

1、写一个爬虫程序，爬取博客园的网页

import threading  # 导入线程模块，用于创建和管理线程
import time  # 导入时间模块，用于延迟操作
import requests  # 导入requests库，用于发送HTTP请求

# 创建一个包含50个URL的列表，URL是通过格式化字符串生成的
# 这些URL指向博客园的不同页面
urls = [f"https://www.cnblogs.com/#p{page}" for page in range(1, 50+1)]

# 定义一个函数，接受一个URL作为参数，爬取该URL的内容
def craw(url):
    r = requests.get(url)  # 发送GET请求到指定的URL
    print(url, len(r.text))  # 打印URL以及响应内容的长度（即页面的字符数）

# 调用craw函数，爬取第一个URL，打印该页面的内容长度
craw(urls[0])

2、接下来我们写我们的线程函数，首先写单线程的函数

def single_thread():# 定义一个函数 single_thread，用于单线程爬取多个 URL
    print("single_thread begin")
    for url in urls:# 遍历 urls 列表中的每个 URL，调用 craw 函数进行爬取
        craw(url)
    print("single_thread end")

# 调用 single_thread 函数，开始执行单线程爬取任务
single_thread()

3、继续写我们的多线程函数

def multi_thread():# 定义一个函数 multi_thread，用于通过多线程爬取多个 URL
    print("多线程 开始")
    threads = []

    for url in urls:# 遍历 urls 列表中的每个 URL，创建一个线程并将其添加到 threads 列表
        threads.append(threading.Thread(target=craw, args=(url,)))
    # 启动所有线程
    for thread in threads:
        thread.start()
    # 等待所有线程完成
    for thread in threads:
        thread.join()

    print("多线程 结束")
# 调用 multi_thread 函数，开始执行多线程爬取任务
multi_thread()

4、速度对比

在单线程与多线程中，爬取相同的内容的时间肯定是不同的，此时我们就可以使用time模块来进行计时，分别统计单线程爬取的时间与多线程爬取的时间进行对比

if __name__ == '__main__':   # 判断是否是直接运行当前脚本。如果是，下面的代码将执行。如果是作为模块导入，则不会执行。
    start = time.time()  # 记录当前时间（单线程开始前的时间），用于计算单线程执行时间
    single_thread()  # 调用 single_thread 函数，开始执行单线程任务
    end = time.time()  # 记录当前时间（单线程结束后的时间）
    print(f"单线程需要时间{end - start}second")  # 打印单线程执行时间，end - start 计算出程序执行所需的时间

    start = time.time()
    multi_thread()
    end = time.time()
    print(f"多线程需要时间{end - start}second")

时间对比：

经过对比，我们可以发现，使用多线程的爬虫速度比单线程快了20多倍！当然，具体性能提升的幅度也取决于任务的类型和网络条件，但可以肯定的是，掌握多线程爬虫将让你在爬取大量网页时事半功倍。

多线程不是万能的，它适用于 I/O 密集型任务，对于 CPU 密集型的计算任务，可能多进程更合适。但是在爬虫的场景下，多线程无疑是提高效率的好帮手。

五、代码编写实现生产者消费者爬虫

继续使用上节课的代码来进行，首先改写我们的craw函数，让函数返回获取到的url文本，代码如下：

import threading  # 导入线程模块，用于实现并发操作
import time  # 导入时间模块，便于控制程序的执行时间
import requests  # 导入requests库，用于发送HTTP请求获取网页内容
from bs4 import BeautifulSoup  # 导入BeautifulSoup库，用于解析HTML网页

# 生成需要爬取的多个URL地址，创建一个包含50个页面的URL列表
urls = [f"https://www.cnblogs.com/#p{page}" for page in range(1, 50+1)]

# 生产者函数：发送HTTP请求并获取网页的HTML内容
def craw(url):
    r = requests.get(url)  # 发送GET请求获取网页内容
    return r.text  # 返回网页的HTML源码

# 消费者函数：解析HTML网页，提取所需的链接信息
def parse(html):
    soup = BeautifulSoup(html, "html.parser")  # 使用BeautifulSoup解析HTML内容
    links = soup.find_all("a", class_="post-item-title")  # 查找所有class为'post-item-title'的<a>标签
    # 返回包含链接和链接文字的元组列表
    return [(link["href"], link.get_text()) for link in links]

# 主程序入口
if __name__ == '__main__':
    # 调用craw函数获取网页内容，并将内容传给parse函数进行解析，输出每一个链接及其文字
    for result in parse(craw(urls[2])):
        print(result)

六、结语

今天我们通过一个简单的例子，学习了如何用 Python 编写一个多线程网页爬虫。希望你能通过这篇文章，快速入门多线程编程，让自己的爬虫项目跑得更快！如果你有任何问题或疑问，欢迎在评论区留言，我们一起讨论，互相进步！

原文地址：https://blog.csdn.net/qq_65009672/article/details/143860332

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：华为ID机试 -- 分糖果 E100
下一篇：富格林：安全指正规防欺诈套路

Flink学习连载文档第一篇--Flink集群的安装
Flink支持多种安装模式。local（本地）——本地模式standalone——独立模式，Flink自带集群，开发测试环境使用standaloneHA—独立集群高可用模式，Flink自带集群，开发测
阅读更多2024-11-22
小R的随机播放顺序
小R有一个特殊的随机播放规则。他首先播放歌单中的第一首歌，播放后将其从歌单中移除。如果歌单中还有歌曲，则会将当前第一首歌移到最后一首。这个过程会一直重复，直到歌单中没有任何歌曲。为了实现这个播放规则，
阅读更多2024-11-22
【无标题】
shell脚本判断服务是否安装及运行状态。
阅读更多2024-11-22
R语言debug01-安装bibliometrix出现错误
使用install.packages(“webshot2”)是可以打开成功的，但是仍然出现报错！在一台新电脑上安装bibliometrix，因为有经验，觉得不会出什么问题。更新重新安装都尝试了，仔细
阅读更多2024-11-22
单例模式与QT中的C++实现
单例模式在Qt中的实现
阅读更多2024-11-22
C语言菜鸟入门·关键字·void的用法
在 C 语言中，void 是一个关键字，用于表示“无类型”或“没有值”。
阅读更多2024-11-22
MySQL 的 Change Buffer 是什么？它有什么作用？
是 MySQL InnoDB 存储引擎中的一个缓存机制，它用于缓存对非主键索引（Secondary Indexes）页的更改。这个缓存区的主要目的是延迟对这些索引页的写操作，以减少磁盘 I/O，从而提
阅读更多2024-11-22
1.langchain中的prompt模板(Prompt Templates)
通过本教程，我们学习了如何使用 LangChain 的和来创建和处理文本提示。这些工具可以帮助我们灵活地生成和管理多轮对话和动态内容。希望这个教程对你有所帮助！如果有任何问题，欢迎随时提问。
阅读更多2024-11-22
经验笔记：git checkout 与 git switch
在使用 Git 进行版本控制时，和git switch是两个常用的命令，用于分支管理和文件恢复。虽然它们有一些相似之处，但各自的功能和使用场景有所不同。本文将详细介绍这两个命令的用法、区别和实际应用示
阅读更多2024-11-22
Git推送+拉去+uwsgi+Nginx服务器部署项目
本文介绍了一个项目从开发到部署的全过程，重点关注Git版本控制系统的使用，包括代码的推送、拉取操作，以及使用uwsgi与Nginx服务器进行项目部署的步骤。
阅读更多2024-11-22