Python_爬虫1_Requests库入门

🕗 发布于 2024-11-17 23:10 python 爬虫 开发语言

Requests库

7个主要方法

Requests库的get()方法

HTTP协议采用URL作为定位网络资源的标识。

Requests库

>>> import requests

# 获取网页
>>> r = requests.get("http://www.baidu.com")

# 获取网页状态码，200表示成功
>>> print(r.status_code)
200

>>> type(r)
<class 'requests.models.Response'>

>>> r.headers
{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, ection': 'Keep-Alive', 'Transfer-Encoding': 'chunked', 'Server':}

7个主要方法

方法	说明
requests.requst()	构造一个请求，最基本的方法，是下面方法的支撑
requests.get()	获取HTML网页，对应HTTP中的GET方法
requests.post()	向HTML网页提交POST信息，对应HTTP中的POST方法
requests.head()	获取HTML网页的头信息，对应HTTP中的HEAD方法
requests.put()	向HTML提交PUT方法，对应HTTP中的PUT方法
requests.patch()	向HTML网页提交局部请求修改的的请求，对应HTTP中的PATCH方法
requests.delete()	向HTML提交删除请求，对应HTTP中的DELETE方法

Requests库的get()方法

r = requests.get(url)

1、构造一个向服务器请求资源的Request对象 $\Rightarrow$ Request

2、返回一个包含服务器资源的Response对象 $\Rightarrow$ Response $\Rightarrow$ Response对象包含爬虫返回的内容

requests.get(url,params=None,**kwargs)

url：获取html的网页的url

params：url中的额外的参数，字典或字节流格式，可选

**kwargs：12个控制访问的参数

def get(url,params=None,**kwargs):
    """Send a GET request.
    
    :param url: URL for the new :class:'Request' object.
    :param params: (optional) Dictionary or bytes to be sent in the query string for the
    :param \*\*kwargs: Optional arguments that ''request'' takes.
    :return: class:'Request <Request>' object
    :rtype: requests.Request
    """

    kwargs.setdefault('allow_radirects', True)
    return request('get', url, params=params, **kwargs)

Response对象的属性

属性	说明
r.status_code	HTTP请求返回状态码，200表示连接成功，404表示失败
r.text	HTTP响应的字符串形式，即，url对应的页面内容
r.encoding	从HTTP　header中猜测的响应内容的编码方式
r.apparent_encoding	从内容中分析响应内容的编码方式(备选编码方式)
r.content	HTTP响应内容的二进制形式

r.encoding：如果header中不存在charset，则认为编码为 ISO-8859-1。

r.apparent_encoding：根据网页内容分析出的编码方式。

爬取网页的通用代码框架

理解requests库的异常

异常	说明
requests.ConnectionError	网络连接异常，如DNS查询失败，拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常

专门与异常打交道

import requests
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()  # 如果不是200，引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"

if __name__ == "__main__":
    url = "http://www.daidu.dom"
    print(getHTMLText(url))

爬取网页的通用代码框架最大的作用是能够使用户访问或爬取网页变得更有效更稳定更可靠

HTTP协议及Requests库方法

HTTP协议

HTTP，Hypertext Transfer Protocol，超文本传输协议。

HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。

请求与响应：用户发起请求，服务器做相关响应。

无状态：第一次跟第二次请求之间并没有相关的关联。

应用层协议：该协议工作再TCP协议之上。

HTTP协议采用URL作为定位网络资源的标识。

URL格式：http://host[:post][path]

host：合法的Internet主机域名或IP地址

port：端口号，缺省端口为80

path：请求资源的路径

HTTP URL实例：

http://www.bit.edu.cn

http://220.181.111.188/duty

HTTP URL理解：

URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。

HTTP协议对资源的操作

方法	说明
GET	请求获取URL位置的资源
HEAD	请求获取URL位置资源的响应消息报告，即获取该资源的头部消息
POST	请求向URL位置的资源后附加新的数据
PUT	请求向URL位置存储一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置的资源，即改变该处资源的部分内容
DELETE	请求删除URL位置存储的资源

理解PATCH和PUT的区别

假设URL位置有一组数据UserInfo，包括UserID、UserName等20个字段。

需求：用户修改了UserName，其他不变。

采用PATCH，仅向URL提交UserName的局部更新请求。
采用PUT，必须将所有20个字段一并提交到URL，未提交字段被删除。

PATCH的最主要好处：节省网络带宽

HTTP协议与Requsets库

HTTP协议方法	Requsets库方法	功能一致性
GET	requests.get()	一致
HEAD	requests.post()	一致
POST	requests.head()	一致
PUT	requests.put()	一致
PATCH	requests.patch()	一致
DELETE	requests.delete()	一致

Requsets库的head()方法

r = requests.head('http://httpbin.org/get')
r.headers # 展示反馈头部信息的内容
r.text # 展示全部内容，但发现内容是空

head()方法可以用很少的网络流量获取网络资源的概要信息。

Requsets库的post()方法

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post('http://httpbin.org/post', data = payload)
print(r.text)

当我们向UPL去POST一个字典，或者POAT键值对的时候，那么键值对会默认地被存储到表单的字段下。

r = requests.post('http://httpbin.org/post', data = 'ABC')
print(r.text)

如果我们不提交键值对，就提交一个字符串ABC，那么我们就发现ABC被存到了data的相关的字段下。

post方法根据用户提交内容的不同在服务器上会做数据的相关的整理。

put方法也是一样，它与post方法类似，只不过它能够将原有的数据覆盖掉。

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.put('http://httpbin.org/post', data = payload)
print(r.text)

Requests库主要方法解析

requests.requst()

requests.requst(method,url,**kwargs)

method：请求方式，对应get/put/post等7种

url：拟获取页面的url链接

**kwargs：控制访问的参数，共13个

method：请求方式

r = requests.requst('GET',url,**kwargs)
r = requests.requst('HEAD',url,**kwargs)
r = requests.requst('POST',url,**kwargs)
r = requests.requst('PUT',url,**kwargs)
r = requests.requst('PATCH',url,**kwargs)
r = requests.requst('delete',url,**kwargs)
r = requests.requst('OPTIONS',url,**kwargs)

OPTIONS，事实上是向服务器获取一些服务器跟客户端能够打交道的参数，这里面并不与获取资源直接相关，因此平时中使用的少。

**kwargs：控制访问的参数，均为可选项

params：字典或字节序列，作为参数增加到url中

kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('http://python123.io/ws', params = kv)
print(r.url)

# 运行结果 http://python123.io/ws?key1=value1&key2=value2

data：字典、字节序列或文件对象，作为Request的内容

kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('POST','http://python123.io/ws', data = kv)
body = '主体内容'
r = requests.request('POST','http://python123.io/ws', data = body)

json：JSON格式的数据，作为Request的内容

kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('POST','http://python123.io/ws', json = kv)

headers：字典，HTTP定制头

hd = {'user-agent': 'Chrome/10'}
r = requests.request('POST','http://python123.io/ws', headers = hd)

cookies：字典或CookieJar，Request中的cookies
auth：元组，支持HTTP认证功能
files：字典类型，传输文件

fs = {'file': open'data.xls', 'rb'}
r = requests.request('POST','http://python123.io/ws', files = fs)

timeout：设定超时时间，秒为单位

r = requests.request('POST','http://python123.io/ws', timeout = 10)

proxies：字典类型，设定访问代理服务器，可以增加登录认证

pxs = { 'http':'http://user:pass@10.10.10.1:1234',
        'https','http://10.10.10.1:4321'}
r = requests.request('POST','http://python123.io/ws', proxies = pxs)

allow_redirects：True/False，默认为True，重定向开关
stream：True/False，默认为True，获取内容立即下载开关
verify：True/False，默认为True，认证SSL证书开关
cert：本地SSL证书路径

requests.get()

requests.get(url,params=None,**kwargs)

url：获取页面中的url链接

params：url中的额外参数，字典或字节流格式，可选

**kwargs：12个控制访问的参数（request中除了params参数之外的）

requests.head()

requests.head(url,**kwargs)

url：拟获取页面中的url链接

**kwargs：13个控制访问的参数（与request一样）

requests.post()

requests.post(url,data = None, json = None,**kwargs)

url：拟更新页面的url链接

data：字典、字节序列或文件，Request的内容

json：JSON格式的数据，Request的内容

**kwargs：11个控制访问的参数（除了data和json，其他11个request一样的参数放最后）

requests.put()

requests.put(url,data = None,**kwargs)

url：拟更新页面的url链接

data：字典、字节序列或文件，Request的内容

**kwargs：12个控制访问的参数（除了data，其他12个request一样的参数放最后）

requests.patch()

requests.patch(url,data = None,**kwargs)

url：拟更新页面的url链接

data：字典、字节序列或文件，Request的内容

**kwargs：12个控制访问的参数（除了data，其他12个request一样的参数放最后）

requests.delete()

requests.delete(url,**kwargs)

url：拟删除页面的url链接

**kwargs：13个控制访问的参数（request一样）

原文地址：https://blog.csdn.net/Jay_NanX/article/details/143680451

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：mysql中explain之possible_keys、key及key_len介绍
下一篇：IPv6 NDP 记录

calico网络原理、组网方式
在这种情况下，Calico 可以使用 IP-in-IP（IPIP）隧道来封装数据包，从而在不支持 BGP 的网络环境中实现节点间的 Pod 通信。通过 BGP，Calico 可以在节点之间动态传播 P
阅读更多2024-11-18
Golang defer关键字
第一个例子中，当defer语句被执行时，它都会捕获t当前值的副本，并不是t的地址。由于t是在循环遍历的，每次迭代都会创建t的副本，而不是t的地址。由于t是在循环中逐一遍历的，每次迭代都会创建t的新副本
阅读更多2024-11-18
自动语音识别（ASR）与文本转语音（TTS）技术的应用与发展
自动语音识别（Automatic Speech Recognition，简称 ASR）是一种将人类语音转换为文本的技术。其目标是让计算机“听懂”人类的语言，将语音信息准确地转化为文字输出。ASR 技术
阅读更多2024-11-18
利用RAGflow和LM Studio建立食品法规问答系统
食品企业在管理标准、法规，特别是食品原料、特殊食品法规时，难以通过速查法规得到准确的结果。随着AI技术的发展，互联网上出现很多AI知识库的解决方案。经过一轮测试，找到问题抓手、打通业务底层逻辑、对齐行
阅读更多2024-11-18
2023 年 5 月青少年软编等考 C 语言二级真题解析
2023 年 5 月青少年软编等考 C 语言二级真题解析。
阅读更多2024-11-18
Java毕业设计----基于深度学习的目标检测实现
在TensorFlow中，通常使用的损失函数有交叉熵损失（cross_entropy_loss）或者均方误差损失（mean_squared_error），而常见的优化器有Adam优化器（AdamOpt
阅读更多2024-11-18
本草智控：中药实验管理的智能时代
目前，界面设计已经成为对软件质量进行评价的一条关键指标，一个好的用户界面可以使用户使用系统的信心和兴趣增加，从而使工作效率提高，JSP技术是将JAVA语言作为脚本语言的，JSP网页给整个服务器端的JA
阅读更多2024-11-18
新功能介绍
近期基于客户实际需求，基于现有的数合建模平台，开发了基于API接口的数据接入功能，旨在帮助您轻松地将各种API接口的数据结构化并存储到数据库中。支持主子表结构，能够自动生成数据库结构，并提供直观的界面
阅读更多2024-11-18
C++——类和对象（part2）
像Stack这样的类，虽然也都是内置类型，但是_a指向了资源，编译器⾃动生成的赋值运算符重载完成的值拷贝/浅拷贝不符合我们的需求，所以需要我们⾃⼰实现深拷贝(对指向的资源也进行拷贝)。6. 传值返回
阅读更多2024-11-18
Poetry 完整安装与项目环境搭建指南
pip 安装适合新手，操作简单直观官方脚本安装更加完整和可控配合虚拟环境使用更加规范无论选择哪种安装方式，Poetry 都能帮助我们更好地管理 Python 项目，提高开发效率和项目质量。建议新项目都
阅读更多2024-11-18

Python_爬虫1_Requests库入门

Requests库

7个主要方法

Requests库的get()方法

Response对象的属性

爬取网页的通用代码框架

理解requests库的异常

HTTP协议及Requests库方法

HTTP协议

HTTP协议采用URL作为定位网络资源的标识。

URL格式：http://host[:post][path]

HTTP URL实例：

HTTP URL理解：

HTTP协议对资源的操作

理解PATCH和PUT的区别

HTTP协议与Requsets库

Requsets库的head()方法

Requsets库的post()方法

Requests库主要方法解析

requests.requst()

method：请求方式

**kwargs：控制访问的参数，均为可选项

requests.get()

requests.head()

requests.post()

requests.put()

requests.patch()

requests.delete()

相关文章