Pythony——多线程简单爬虫实现

🕗 发布于 2024-11-19 15:31 爬虫

简单爬虫实现

import requests
from bs4 import BeautifulSoup

# 生成要爬取的网页地址列表，这里是博客园的分页地址，从第1页到第50页
urls = [f"https://www.cnblogs.com/#p{i}" for i in range(1, 50 + 1)]


# 生产者函数——负责下载网页内容
def craw(url):
    这个函数接收一个网页的URL作为参数，使用requests库发送GET请求获取该网页的内容，并以文本形式返回。
    r = requests.get(url)# 要下载内容的网页URL
    return r.text#返回获取到的网页文本内容

# 消费者函数——拿着生产者下载好的网页内容，进行解析
def parse(html):
    """
    此函数接收从网页下载的HTML文本内容作为参数，使用BeautifulSoup库对其进行解析，
    提取出所有class名为post-item-title的超链接a标签，然后遍历这些标签，将每个标签的href链接内容
    和标签文字内容以元组的形式提取出来并返回
    """
    # 指定为html解析器 从网页上下载下来的HTML文本内容
    soup = BeautifulSoup(html, "html.parser")  

    # 提取出所有class名为post-item-title 的 超链接 a标签
    links = soup.find_all("a", class_="post-item-title")
    # 遍历links元组，将超链接a标签的href链接内容 和 标签文字内容提取输出
    
    return [(link["href"], link.get_text()) for link in links]
    # 返回一个包含元组的列表，每个元组包含一个超链接的href值和对应的文字内容


# 主程序入口，当脚本直接运行时执行以下代码
if __name__ == '__main__':
    """
    在这里我们调用了craw函数去下载urls列表中第3个网址（索引为2）的网页内容，
    然后将下载好的内容传递给parse函数进行解析，最后遍历parse函数返回的结果并打印出来。
    """
    for result in parse(craw(urls[2])):
        print(result)

生产者消费者函数

import threading
import time
import random
import queue
import blog_spider

# 定义生产者线程要执行的函数，用于从URL队列中获取URL，爬取网页内容并放入HTML队列
def do_craw(url_queue: queue.Queue, html_queue: queue.Queue):#url_queue: 存储待爬取URL的队列， html_queue: 用于存储爬取到的网页HTML内容的队列
 
    """
    这个函数是生产者线程要执行的函数。
    不断从URL队列中获取URL，调用blog_spider.craw函数爬取网页的内容，
    然后将爬取到的HTML内容放入HTML队列中，并打印相关的内容。
  
    """
    while True:
        # 从URL队列中获取一个URL
        url = url_queue.get()
        # 调用blog_spider模块中的craw函数爬取该URL对应的网页内容
        html = blog_spider.craw(url)
        # 将爬取到的网页内容放入HTML队列
        html_queue.put(html)
        # 打印当前线程的名称、正在爬取的URL以及URL队列剩余的大小
        print(threading.current_thread().name, f"craw {url}", "url_queue.size=", url_queue.qsize())
        time.sleep(random.randint(1, 2))#休眠一段时间

# 定义消费者线程要执行的函数，用于从HTML队列中获取网页内容
def do_parse(html_queue: queue.Queue, fout):#html_queue: 存储网页HTML内容的队列
    """
    此函数是消费者线程要执行的任务函数。
    它会不断从HTML队列中获取网页内容，调用blog_spider.parse函数对其进行解析，fout: 用于写入解                    
析结果的文件对象
    将解析结果写入到指定的文件中，并打印相关的内容。
    """
    while True:
        # 从HTML队列中获取一个网页内容
        html = html_queue.get()
        # 调用blog_spider模块中的parse函数对网页内容进行解析，得到解析结果
        results = blog_spider.parse(html)
        for result in results:
            fout.write(str(result) + "\n")
        # 打印当前线程的名称、解析结果的数量以及HTML队列剩余的大小
        print(threading.current_thread().name, f"results.size", len(results), "html_queue_size=", html_queue.qsize())
        time.sleep(random.randint(1, 2))#休眠一段时间

# 主程序入口，当脚本直接运行时执行以下代码
if __name__ == '__main__':
    # 创建一个用于存储待爬取URL的队列
    url_queue = queue.Queue()
    # 创建一个用于存储爬取到的网页HTML内容的队列
    html_queue = queue.Queue()

    # 将blog_spider模块中定义的所有URL放入URL队列
    for url in blog_spider.urls:
        url_queue.put(url)

    # 开启生产者线程
    for idx in range(3):
        # 创建一个新的线程，指定其执行的任务函数为do_craw，并传入相应的参数
        t = threading.Thread(target=do_craw, args=(url_queue, html_queue), name=f"craw{idx}")
        t.start()

    # 开启消费者线程和创建用于存储解析结果的文本文件
    fout = open("spider_data.txt", "w")
    for idx in range(2):
        # 创建一个新的线程，指定其执行的任务函数为do_parse，并传入相应的参数
        t = threading.Thread(target=do_parse, args=(html_queue, fout), name=f"parse{idx}")
        t.start()

原文地址：https://blog.csdn.net/2303_76544787/article/details/143866524

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：pytorch的模型load
下一篇：多线程4：线程池、并发、并行、综合案例-抢红包游戏

Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
阅读更多2024-11-23
解决vm虚拟机中ctrl键粘滞问题（一直处于按下状态）
虚拟机中点击鼠标左键没有问题，单独按下键盘也没有问题，但是如果按下键盘的同时在按下鼠标左键就会卡住。而且100%稳定复现。发现问题原因：vm版本的问题，我的版本是17.5.0，升级成17.5.2 bu
阅读更多2024-11-23
第十章 JavaScript的应用
10.1.1 JavaScript简介1 简单性JavaScript 设计之初就考虑到了非专业程序员的使用，因此它的语法相对简单，容易上手。2 动态性JavaScript 是一种解释型语言，代码可以在
阅读更多2024-11-23
非root用户安装CUDA
4.下载完成后执行.run文件，需要添加两个参数，一个是--override，用于跳过某些检查或限制；另一个是--toolkitpath，它表示安装路径，必须是自己目录下面的路径，如果是根目录就会安装
阅读更多2024-11-23
Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
【代码】## Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
阅读更多2024-11-23
【通俗理解】Jensen不等式与变分分布q(z)在积分计算中的应用
Jensen不等式 #变分分布 #积分计算 #期望 #凸函数 #优化问题 #下界估计 #机器学习。
阅读更多2024-11-23
「Mac玩转仓颉内测版27」基础篇7 - 字符串类型详解
本篇将介绍 Cangjie 中的字符串类型，包括字符串的定义、字面量形式、插值表达、常用操作及应用场景，帮助开发者熟练掌握字符串的使用。
阅读更多2024-11-23
数据科学与SQL：组距分组分析 | 区间分布问题
绝对值分布分析也可以理解为组距分组分析。对于某个指标而言，一个记录对应的指标值的绝对值，肯定落在所有指标值的绝对值的最小值和最大值构成的区间内，根据一定的算法，在把这个区间划分为等距离的几个小区间，，
阅读更多2024-11-23
c++编译报C1004错误的原因及解决办法
可能是你的代码文件最后没有正确的结束符，或者是缺少了一些必要的头文件或语句。默认磁盘驱动器没有足够的空间用于临时文件，需要大约两倍于源文件的空间。编译器到达了源文件尾但未解析构造。计算结果为假的 #i
阅读更多2024-11-23
mysql 去重补全取出重复变量函数和存储过程
mysql 去重补全取出重复变量函数和存储过程
阅读更多2024-11-23

Pythony——多线程简单爬虫实现

简单爬虫实现

生产者消费者函数

相关文章