Python爬虫（6） --深层爬取

🕗 发布于 2024-07-25 13:44 python 爬虫 开发语言

深层爬取

在前面几篇的内容中，我们都是爬取网页表面的信息，这次我们通过表层内容，深度爬取内部数据。

接着按照之前的步骤，我们先访问表层页面：

指定url
发送请求
获取你想要的数据
数据解析

我们试着将以下豆瓣读书页面的书籍进一步爬取：

https://book.douban.com/tag/%E4%BA%92%E8%81%94%E7%BD%91

在这里插入图片描述

在浏览器点击这本书，我们要通过这个页面进去这本书的详细页面爬取它的详细信息，它的详细页面链接在href标签中。

爬取

指定url

url = "https://book.douban.com/tag/%E4%BA%92%E8%81%94%E7%BD%91"

发送请求

import fake_useragent
import requests
head = {
    "User-Agent": fake_useragent.UserAgent().random
}
resp = requests.get(url, headers=head)

获取想要的数据

from lxml import etree
res_text = resp.text

数据解析

tree = etree.HTML(res_text)
a_list = tree.xpath("//ul[@class='subject-list']/li/div[2]/h2/a")

定位到位置之后，我们要取到具体的href标签中的链接，再次进行访问请求：

在这里插入图片描述

进入深层

爬取这个详细页面的内容：

for a in a_list:
    # 1、url
    book_url = "".join(a.xpath("./@href"))
    # 2、发送请求
    book_res = requests.get(book_url, headers=head)
    # 3、获取想要的信息
    book_text = book_res.text
    # 4、数据解析
    book_tree = etree.HTML(book_text)

    book_name = "".join(book_tree.xpath("//span[@property='v:itemreviewed']/text()"))

    author = "".join(book_tree.xpath("//div[@class='subject clearfix']/div[2]/span[1]/a/text()"))
    publish = "".join(book_tree.xpath("//div[@class='subject clearfix']/div[2]/a[1]/text()"))
    y = "".join(book_tree.xpath("//span[@class='pl' and text()='出版年:']/following-sibling::text()[1]"))
    page = "".join(book_tree.xpath("//span[@class='pl' and text()='页数:']/following-sibling::text()[1]"))
    price = "".join(book_tree.xpath("//span[@class='pl' and text()='定价:']/following-sibling::text()[1]"))
    bind = "".join(book_tree.xpath("//span[@class='pl' and text()='装帧:']/following-sibling::text()[1]"))
    isbn = "".join(book_tree.xpath("//span[@class='pl' and text()='ISBN:']/following-sibling::text()[1]"))

完整代码显示

# 通过表层内容 深度爬取内部数据
import time
import fake_useragent
import requests
from lxml import etree

head = {
    "User-Agent": fake_useragent.UserAgent().random
}

if __name__ == '__main__':

    # 1、url
    url = "https://book.douban.com/tag/%E4%BA%92%E8%81%94%E7%BD%91"

    # 2、发送请求
    resp = requests.get(url, headers=head)
    time.sleep(5)  #请求时停留5秒，不然请求太快可能会被网页拒绝

    # 3、获取想要的数据
    res_text = resp.text
    # print(res_text)

    # 4、数据解析
    tree = etree.HTML(res_text)

    a_list = tree.xpath("//ul[@class='subject-list']/li/div[2]/h2/a")

    for a in a_list:
        time.sleep(3)
        # 1、url
        book_url = "".join(a.xpath("./@href"))
        # 2、发送请求
        book_res = requests.get(book_url, headers=head)
        # 3、获取想要的信息
        book_text = book_res.text
        # 4、数据解析
        book_tree = etree.HTML(book_text)

        book_name = "".join(book_tree.xpath("//span[@property='v:itemreviewed']/text()"))

        author = "".join(book_tree.xpath("//div[@class='subject clearfix']/div[2]/span[1]/a/text()"))
        publish = "".join(book_tree.xpath("//div[@class='subject clearfix']/div[2]/a[1]/text()"))
        y = "".join(book_tree.xpath("//span[@class='pl' and text()='出版年:']/following-sibling::text()[1]"))
        page = "".join(book_tree.xpath("//span[@class='pl' and text()='页数:']/following-sibling::text()[1]"))
        price = "".join(book_tree.xpath("//span[@class='pl' and text()='定价:']/following-sibling::text()[1]"))
        bind = "".join(book_tree.xpath("//span[@class='pl' and text()='装帧:']/following-sibling::text()[1]"))
        isbn = "".join(book_tree.xpath("//span[@class='pl' and text()='ISBN:']/following-sibling::text()[1]"))
        print(book_name, author, publish, y, page, price, bind, isbn)

    # print(a_list)

    pass

总结

其实与爬取视频的操作相差不大，先定位页面位置，再找到深层页面的链接，获取想要的信息。

原文地址：https://blog.csdn.net/m0_74896766/article/details/140674463

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：笔记本检测工具 | 爱回收笔记本质检系统 v1.9.6
下一篇：DeviceNet转Porfinet协议转化网关功能与配置方法

B-树特点以及插入、删除数据过程
查找插入位置：通过树的层级结构，从根节点到叶子节点进行查找，确定插入位置。插入元素：如果目标叶子节点有空间，直接插入元素。节点分裂：如果插入导致节点超出最大容量，将节点分裂并将中间元素推送到父节点。递
阅读更多2024-11-15
JWT深度解析：Java Web中的安全传输与身份验证
JSON Web Token（JWT）是一种轻量级的身份验证和授权标准，它允许在各方之间安全地传输信息。JWT作为一种安全传输信息和身份验证的解决方案，在Java Web开发中扮演着重要角色。它通过紧
阅读更多2024-11-15
AR眼镜方案_AR智能眼镜阵列/衍射光波导显示方案
采用光波导技术的AR眼镜显示方案，核心结构通常由光机、波导和耦合器组成。光机内的微型显示器通过一系列透镜将光线耦入波导镜片，使光线在波导中以全反射形式传播，并最终通过耦合器投射到人眼。因此，系统尺寸得
阅读更多2024-11-15
Invar-RAG：基于不变性对齐的LLM检索方法提升生成质量
在检索增强型生成（Retrieval-Augmented Generation, RAG）系统中直接应用大型语言模型（Large Language Models, LLMs）时面临的挑战。特征局部性问
阅读更多2024-11-15
决策树基本 CART Python手写实现
【代码】决策树基本 CART Python手写实现。
阅读更多2024-11-15
Redis
String：简单键值存储，适合计数器、单一属性缓存。Hash：结构化存储，适用于存储对象数据（如用户信息）。List：有序队列，适合消息队列、任务队列。Set：无序集合，用于去重、唯一性统计、共同好
阅读更多2024-11-15
2、家庭网络发展现状
也就是wifi网络的更远覆盖，众所周知，经过节点mesh组网之后，速率会有一定下降，这也就是说mesh组网必须是5G组网或者有线组网，这样才可保证用户的体验，否则即使延伸了wifi信号覆盖，也会导致速
阅读更多2024-11-15
游戏引擎学习第10天
RDTS是一种低级的、高精度的方式，用于访问处理器的时间戳计数器。它广泛用于性能分析、基准测试和高精度计时。需要注意的是，在使用时可能会受到 CPU 频率变化和多核同步等问题的影响，在这种情况下，RD
阅读更多2024-11-15
Spring Data Redis常见操作总结
Spring Data Redis常见操作总结
阅读更多2024-11-15
css三角制作（二十课）
CSS 这根神奇的魔法棒，就能把三角变出来 so easy！
阅读更多2024-11-15