自学内容网 自学内容网

【爬虫篇】通过请求方式爬取豆瓣网页信息

个人理解,爬虫有两种方式,一种是自动测试化,一种是通过找请求,那么这里就用发请求的方式爬取网页信息,仅供技术参考。

网页信息:

python代码:

# -*- coding: utf-8 -*-
import requests as rq
from bs4 import BeautifulSoup

#伪装请求头
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.67"
}

#这只是一页:需要循环获取
for i in range(0,250,25):
    #携带设置的请求头 格式化每次访问的链接
    context=rq.get(f"https://movie.douban.com/top250?start={i}&filter=", headers=headers).text
    #拿到当前页的信息
    soup=BeautifulSoup(context,"html.parser")
    #获取所有class叫title且标签是span的
    title_All=soup.findAll("span",attrs={"class","title"})
    #循环输出
    for ti in title_All:
        #把英文版本的去掉
        if "/" not in ti.string:
            print(ti.string)

效果:

 


原文地址:https://blog.csdn.net/qq_52545155/article/details/140508101

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!