【Python实战】---- 爬取 CSDN 专栏文章列表

🕗 发布于 2024-09-21 13:01 python 开发语言

1. 场景

需求就是专栏中文章随着时间写的越多，如果后边需要去查找的时候比较麻烦，比如一些不常用的 git 命令，或者有些开发场景的细节，在之前已经开发完了，现在忘记部分细节，需要在之前的输出文章中去查找，当几十几百篇文章时，查找就比较麻烦，但是如果没发布一篇文章，自己去更新专栏的文章目录又是一个比较繁琐的事情，因此写了一个小的爬取程序，在每次发布新的文章时，运行此程序，就可以更新文章目录，方便后期在需要的时候能够快速查找。

2. 引入使用模块

requests 获取网页的内容；
re 使用正则匹配文章的发布日期；
time 用于每次获取网页后的等待，防止被 CSDN 识别为爬虫；
datetime 用于文章发布日期的排序格式化；
BeautifulSoup HTML 解析。

import requests
import re
import time
from datetime import datetime
from bs4 import BeautifulSoup

3. 获取专栏文章

原文地址：https://blog.csdn.net/m0_38082783/article/details/142390325

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：oracle 11g SYSAUX表空间清理
下一篇：智慧医院必不可少的10个信息化系统！

OpenHarmony（鸿蒙南向开发）——标准系统方案之瑞芯微RK3568移植案例(下)
调试AP模块时，无法正常开启AP功能的解决方法。
阅读更多2024-09-21
前端设计之主页面、书架页面、数据分析页面
下面的代码我把导入第三方包相关的代码都省略了。
阅读更多2024-09-21
基于AlexNet实现猫狗大战
卷积神经网络（Convolutional Neural Network，简称CNN），是一种深度学习模型，特别适用于处理图像、视频等数据。它的核心思想是利用卷积层（Convolutional laye
阅读更多2024-09-21
go语言Map详解
Go语言中提供的映射关系容器为map，其内部使用散列表（hash）实现map是一种无序的基于key-value的数据结构，Go语言中的map是引用类型，必须初始化才能使用。它提供了高效的查找、插入和删
阅读更多2024-09-21
【Mysql-索引总结】
索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构，它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录，可以根据目录
阅读更多2024-09-21
通过 MQDescriptorSync 实现 HIDL 大数据传递的最佳实践
以下内容来自 Audio HIDL 播放流程，经过了部分修改，但尚未经过测试。
阅读更多2024-09-21
Python 课程14-TensorFlow
虽然 Keras 提供了简洁的fit()方法进行训练，但你也可以通过自定义训练循环更灵活地控制训练过程。# 自定义训练循环# 前向传播# 反向传播你可以使用 TensorFlow 创建自定义层或激活函
阅读更多2024-09-21
python生成词云图
make_dict 将词语的数组，转换成字典，key是词语，value是该词出现的频率，并且按照词频进行从高到低排序。tokenizer函数，接受一段文本，利用jieba分词工具，对文本进行语法分析，
阅读更多2024-09-21
国庆节有什么值得入手的好物？盘点五款必入的数码好物分享！
随着国庆佳节的日益临近，许多朋友早已摩拳擦掌，计划在国庆长假期间，将心仪已久的宝贝一一收入囊中，购物车里满载着对未来生活的美好憧憬。此外，Runner 3搭载了市场主流的蓝牙5.3技术，确保了连接的快
阅读更多2024-09-21
安科瑞产品在银行智慧用电监测平台的设计与应用
包括过载监测、异常监测、温度监测、漏电监测、用电量统计功能，详见前文。用电数据监控模块主要监控银行用电每个支路的三相用电、单相用电的电压、电流、负载、线路温度、能耗、有功无功、漏电、短路、剩余
阅读更多2024-09-21

【Python实战】---- 爬取 CSDN 专栏文章列表

1. 场景

2. 引入使用模块

3. 获取专栏文章

相关文章