python爬虫之下载小说（3）

🕗 发布于 2024-04-18 15:20 python 爬虫 开发语言

import requests
from bs4 import BeautifulSoup

def geturl():
    url = 'https://www.biqg.cc/book/6909/'  # 目标访问网站url
    header = {"User-Agent":
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36 Edg/123.0.0.0"}
    req = requests.get(url = url, headers = header)
    req.encoding = "utf-8"
    html = req.text
    bes = BeautifulSoup(html,"lxml")
    texts = bes.find("div", class_="listmain")
    chapters = texts.find_all("a") #该函数可以返回list下的标签为a的所有信息
    words = [] #创建空的列表，存入每章节的url与章节名称
    ##对标签a内的内容进行提取
    for chapter in chapters:
        name = chapter.string #取出字符串，可以看出字符串只有章节号与章节名称，刚好符合我们所需
        #其中存在一条这个语句，我们需要把他剔除，所以加入if判断<a rel="nofollow" href="javascript:dd_show()">&lt;&lt;---展开全部章节---&gt;&gt;</a>
        #url:  https://www.biqg.cc/book/6909/2109.html
        #get("href"):  /book/6909/2109.html
        #split("/")[-1]:  2109.html
        if "book" in chapter.get("href"):
            url1 = url + chapter.get("href").split("/")[-1]
            word = [url1, name] #以列表格式存储
            words.append(word) #最终加入总的大列表中并返回
    return words

if __name__ == '__main__':
    target = geturl()
    header = {"User-Agent":
                  "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36 Edg/123.0.0.0"}
    for tar in target:
        print(tar)
        req = requests.get(url=tar[0],headers = header)
        req.encoding = 'utf-8'
        html = req.text
        bes = BeautifulSoup(html,"lxml")
        texts = bes.find("div", id="chaptercontent",class_ = "Readarea ReadAjax_content")
        texts_list = texts.text.split("\xa0"*4)
        texts_list = texts.text.split("\u3000" * 2)
        with open("D:/novels/"+ tar[1] + ".txt","w") as file:  #写入文件路径 + 章节名称 + 后缀
            for line in texts_list:
                file.write(line+"\n")

原文地址：https://blog.csdn.net/m0_61973119/article/details/137876362

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：微服务面试
下一篇：康耐视visionpro-CogBlobTool工具操作详细说明

乐观锁CAS机制的原理
CAS操作是一种原子性操作，原子性是指一个操作要么完全执行成功，要么完全不执行，没有中间状态。在CAS操作中，一个共享变量的比较和交换是作为一个原子操作来执行的，这意味着在比较和交换的过程中，不会出现
阅读更多2024-11-10
goframe开发一个企业网站 redis队例13
【代码】goframe开发一个企业网站 redis队例12。
阅读更多2024-11-10
蓝牙FTP 协议详解及 Android 实现
蓝牙 FTP（File Transfer Profile，文件传输协议）是经典蓝牙协议之一，专门用于设备之间的文件传输。基于 OBEX（Object Exchange）通信层，FTP 协议允许用户在支
阅读更多2024-11-10
Android Studio 多工程公用module引用
3.在需要引用共享module的工程中，通过settings.gradle文件配置module的路径，并在对应工程的build.gradle文件中添加对共享module的依赖。完成这些步骤后，同步你的
阅读更多2024-11-10
Linux服务器-守护进程
理解守护进程的工作原理和如何管理它们，对于管理 Linux 系统和开发后台服务应用至关重要。
阅读更多2024-11-10
【Java SE】record类
`record` 概念：`Java 16` 引入的一种特殊形式类，其状态不可变，而且公共可读。
阅读更多2024-11-10
C#入门013 表达式，语句详解 2
程序所执行的操作是通过语句来表达的。常见的操作包括声明变量、赋值、调用方法、遍历集合以及根据给定的条件转向另一个代码块。程序中语句执行的顺序被称为控制流或执行流。控制流可能在每次程序运行时都会有所不同
阅读更多2024-11-10
Flutter自定义矩形进度条实现详解
使用实现自定义绘制支持平滑的动画效果可自定义外观（颜色、大小、圆角等）使用路径度量实现精确的进度显示支持渐变色效果通过这个实现，我们不仅创建了一个美观的UI组件，还学习了Flutter中自定义绘制和动
阅读更多2024-11-10
每日一题C语言算法题——计算6
本文通过一个编程题目探讨了在中国文化中象征顺利的数字6，并展示了如何计算由连续的6组成的数字序列的和，即6+66+666+...+666...666（n个6，5
阅读更多2024-11-10
基于SpringBoot和Vue的公司文档管理系统设计与开发(源码+定制+开发)
博主介绍： ✌我是阿龙，一名专注于Java技术领域的程序员，全网拥有10W+粉丝。作为CSDN特邀作者、博客专家、新星计划导师，我在计算机毕业设计开发方面积累了丰富的经验。同时，我也是掘金、华为云、
阅读更多2024-11-10

python爬虫之下载小说（3）

相关文章