python爬取小说内容

🕗 发布于 2024-11-26 14:26 python 开发语言

结合第三方模块requests，文件I0、正则表达式，通过函数封装爬虫应用采集数据 CSDN中对代码进行总结: 1.需求分析:如何确定采集的URL地址和数据的 2.代码实现:描述包含详细注释的代码 3.结果呈现:截图展示采集数据

需求分析

目录采集地址：我在精神病院学斩神完整版在线免费阅读_我在精神病院学斩神小说_番茄小说官网

查看每章是否有下一页

（1）采集目录

"""
采集章节数据
"""
#导入模块
import requests
import json
import re


def fetch_chapter_data(url):
    """
    发起请求获取章节数据
    """
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0"
    }
    # 发起伪造请求
    response = requests.get(url, headers=headers)
    # 设置响应编码
    response.encoding = "UTF-8"
    return response.text


def extract_chapters(content):
    """
    从响应内容中提取章节名称和链接
    """
    #正则表达式
    p = r'href="([^"]+)"[^>]*>(第\d+章.+?)</a>'
    #全部匹配的方式提取数据
    chs = re.findall(p, content, re.DOTALL)
    #拼接链接和章节名称
    chapter = dict()
    for ch in chs:
        chapter[ch[1]] = "https://fanqienovel.com" + ch[0]
    print(chapter)
    return chapter


def save_chapters_to_file(chapters, filename):
    """
    将章节数据保存到文件
    """
    with open(filename, mode="wt", encoding="utf-8") as file:
        json.dump(chapters, file)


def main():
    """
    调用相应函数 
    """
    url = "https://fanqienovel.com/page/6982529841564224526"
    content = fetch_chapter_data(url)
    chapters = extract_chapters(content)
    save_chapters_to_file(chapters, "chapters.txt")
    print("章节数据已成功保存至chapters.txt")


if __name__ == "__main__":
    main()

运行结果

（2）采集章节内容

"""
采集章节
"""
import requests,re
import time,random
import json

#1.加载需要采集的目录
with open("chapters.txt",mode="rt",encoding="UTF-8") as file:
    chs = json.load(file)
    #print(chs)
#2.循环遍历，发起伪造请求
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0"}
for title,url in chs.items():
    print(f"准备采集:{title}")
    #发起伪造请求
    response = requests.get(url,headers=headers)
    #设置编码
    response.encoding = "UTF-8"
    # 分析数据格式
    content = response.text
    #print("------------------------")
    #定义正则，匹配数据
    p =r'<div class="muye-reader-content noselect">(.*?)</div>'
    content = re.search(p,content,re.DOTALL)
    content = content.group(1).strip()
    # # #数据筛选
    p2 = r'<p.*?>(.*?)</p>'
    content = re.findall(p2,content,re.DOTALL)
    p3 = r'\\[^\s]*'
    content = re.sub(p3, '', ''.join(content))
    # print(content)
    with open("斩神.txt",mode="at",encoding="UTF-8") as file:

        #保存到文件
        file.write("\n\n---------------------\n\n")
        file.write("\n\n"+title+"\n\n")
        file.write(content)
    #模拟用户请求，每次请求完成休眠3~5s
    time.sleep(random.randint(3, 5))
    print(f"{title}章节采集完成")

运行结果

原文地址：https://blog.csdn.net/2301_80811863/article/details/143993958

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Altium Designer学习笔记 16-20 PCB封装调用_3D封装_网表导入常见问题
下一篇：原生Android调用uniapp项目中的方法

如何还原 HTTP 请求日志中的 URL 编码参数？详解 %40 到 @
%40 是 URL 编码后的 @ 符号，说明请求体中的参数被编码后记录下来了。这是因为在 HTTP 请求中，某些特殊字符（如 @, &, =）会被 URL 编码以确保安全性。但是看着不直观，如
阅读更多2024-11-27
JavaScript核心语法（5）
这篇文章讲一下ES6中的核心语法：扩展运算符和模块化。
阅读更多2024-11-27
医疗数据质量安全，数据安全解决方案，医院关心的数据安全问题，信息安全方案（Word原件）
3.4.2网络可信接入3.4.3应用身份识别3.4.4抵御SQL注入3.4.5虚拟补丁防护3.4.6阻断漏洞攻击
阅读更多2024-11-27
ssm_mysql_医院院内物资管理系统
在当今的中国改革开放经济体制下，中国经济正以快速稳健的步伐前行。并且随着经济的发展，各领域的信息化管理也得到了充足的发展，而且愈发普及。现如今，几乎所有的行业中都有计算机的身影，甚至在其业务中占据着较
阅读更多2024-11-27
Day3 洛谷Day3 1161+1179+1200+1304
洛谷零基础刷题Day3 1161+1179+1200+1304
阅读更多2024-11-27
C# WinForm怎么使用COM组件
用Visual Studio的自动代码补全功能，然后这里显示两个方法，每个都试试，然后就知道是谁了。然后在引用管理器的 COM 分页下选择自己要添加的COM组件，当然前提是你已经用。命令注册过了此
阅读更多2024-11-27
外网访问多人协作 OnlyOffice 文档服务器
OnlyOffice 文档服务器是一款强大的在线办公套件，这款文档服务器包含了文档、电子表格和演示文稿的查看器和编辑器，能够支持实时协作编辑和多人协作。
阅读更多2024-11-27
C# 创建快捷方式文件和硬链接文件
平常我们最常window桌面上点击的左下角带小箭头的文件就是快捷方式了，大家都很熟悉它。快捷方式是Windows提供的一种快速启动程序、打开文件或文件夹的方法。它是应用程序或文件夹、文件的快速链接。快
阅读更多2024-11-27
11.26 深度学习-激活函数
神经元死亡：由于$$ReLU$$在$$x≤0$$时输出为$$0$$，如果某个神经元输入值是负，那么该神经元将永远不再激活，成为“死亡”神经元。# 数值不稳定性：在计算过程中，如果$$z_i$$的数值过
阅读更多2024-11-27
LeetCode数组题
1.数组有序，且最大值出现在数组的两端，可以考虑用双指针法，这里是重点考虑结果集也需要一个指针k指向结果集终止位置，不能依靠fast指针进行填充，因为当出现slow指针数平方大于fast时，fast位
阅读更多2024-11-27

python爬取小说内容

相关文章