【爬虫篇】通过请求方式爬取豆瓣网页信息
个人理解,爬虫有两种方式,一种是自动测试化,一种是通过找请求,那么这里就用发请求的方式爬取网页信息,仅供技术参考。
网页信息:
python代码:
# -*- coding: utf-8 -*-
import requests as rq
from bs4 import BeautifulSoup
#伪装请求头
headers={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.67"
}
#这只是一页:需要循环获取
for i in range(0,250,25):
#携带设置的请求头 格式化每次访问的链接
context=rq.get(f"https://movie.douban.com/top250?start={i}&filter=", headers=headers).text
#拿到当前页的信息
soup=BeautifulSoup(context,"html.parser")
#获取所有class叫title且标签是span的
title_All=soup.findAll("span",attrs={"class","title"})
#循环输出
for ti in title_All:
#把英文版本的去掉
if "/" not in ti.string:
print(ti.string)
效果:
原文地址:https://blog.csdn.net/qq_52545155/article/details/140508101
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!