自学内容网 自学内容网

【Python实战】---- 爬取 CSDN 专栏文章列表

1. 场景

需求就是专栏中文章随着时间写的越多,如果后边需要去查找的时候比较麻烦,比如一些不常用的 git 命令,或者有些开发场景的细节,在之前已经开发完了,现在忘记部分细节,需要在之前的输出文章中去查找,当几十几百篇文章时,查找就比较麻烦,但是如果没发布一篇文章,自己去更新专栏的文章目录又是一个比较繁琐的事情,因此写了一个小的爬取程序,在每次发布新的文章时,运行此程序,就可以更新文章目录,方便后期在需要的时候能够快速查找。

2. 引入使用模块

  1. requests 获取网页的内容;
  2. re 使用正则匹配文章的发布日期;
  3. time 用于每次获取网页后的等待,防止被 CSDN 识别为爬虫;
  4. datetime 用于文章发布日期的排序格式化;
  5. BeautifulSoup HTML 解析。
import requests
import re
import time
from datetime import datetime
from bs4 import BeautifulSoup

3. 获取专栏文章


原文地址:https://blog.csdn.net/m0_38082783/article/details/142390325

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!