python爬虫入门（二）之Requests库

🕗 发布于 2024-07-07 20:49 python 爬虫 开发语言

一、储备篇

1、requests库让我们可以通过python代码去构建和发送HTTP请求

2、第三方库，要先安装

python终端，输入pip install requests

successfully installed：安装成功

requirement already satisfied: 说明已经安装过，无需再安装

若没有pip（python包管理工具）

则可以先去http://pip.pypa.io/en/stable/installation/学习下载安装

3、

import requests
response=requests.get("http://books.toscrape.com") #发送get请求，这是一个专门给练习爬虫的网站
#协议名（http://或https://）+网址 == 完整的URL
#用requests库的函数发送请求时，请求头的信息会被自动生成（主机域名（URL参数中），客户端是谁（自动生成），客户端想要什么类型的数据）

#若想对某些信息进行更改的话，可以额外传入一个headers的参数
head={"User-Agent":"Mozilla/5.0(Windows NT 10.0;Win64;x64"} #数据类型是字典，键值对可写清楚要传入的信息
#User-Agent: Mozilla/5.0(Windows NT 10.0;Win64:x64)可帮我们把爬虫程序伪装成正常浏览器（浏览器类型及版本，以及电脑操作系统等）
response=requests.get("http://books.toscrape.com",headers=head)

print(response)   #打印出来是一个response类的实例，代表着服务器发回给我们的响应，包含的属性有:
print(response.status_code) #状态码属性
print(response.ok)  #ok属性，true表示请求成功
if response.ok:
    print("请求成功")
    #获取响应体的内容
    print(response.text) #text属性，会以字符串存储响应内容
else:
    print("请求失败")

二、实战篇

爬取豆瓣top250数据：

#1、安装requests库: 终端输入pip install requests

#2、引入requests库:
import requests

#豆瓣用418回应爬虫，自己只希望服务于正常的浏览器
#伪装:
#抄作业: 选一个网页->右键检查->Network-> 刷新网页->点击任意请求->展开request haeders->找到并复制user-agent
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36"}
response=requests.get("https://movie.douban.com/top250",headers=headers)
print(response)
print(response.status_code) #表示客户端错误，可以通过链接developer.mozilla.org查看文档
print(response.text)

原文地址：https://blog.csdn.net/2302_79795489/article/details/140205506

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：ChatGPT对话：Python程序自动模拟操作网页，无法弹出下拉列表框
下一篇：Laravel HTTP客户端：网络请求的瑞士军刀

python爬虫入门（二）之Requests库

一、储备篇

二、实战篇

相关文章