Python_爬虫1_Requests库入门
目录
Requests库
>>> import requests
# 获取网页
>>> r = requests.get("http://www.baidu.com")
# 获取网页状态码,200表示成功
>>> print(r.status_code)
200
>>> type(r)
<class 'requests.models.Response'>
>>> r.headers
{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, ection': 'Keep-Alive', 'Transfer-Encoding': 'chunked', 'Server':}
7个主要方法
方法 | 说明 |
---|---|
requests.requst() | 构造一个请求,最基本的方法,是下面方法的支撑 |
requests.get() | 获取HTML网页,对应HTTP中的GET方法 |
requests.post() | 向HTML网页提交POST信息,对应HTTP中的POST方法 |
requests.head() | 获取HTML网页的头信息,对应HTTP中的HEAD方法 |
requests.put() | 向HTML提交PUT方法,对应HTTP中的PUT方法 |
requests.patch() | 向HTML网页提交局部请求修改的的请求,对应HTTP中的PATCH方法 |
requests.delete() | 向HTML提交删除请求,对应HTTP中的DELETE方法 |
Requests库的get()方法
r = requests.get(url)
1、构造一个向服务器请求资源的Request对象 Request
2、返回一个包含服务器资源的Response对象 Response Response对象包含爬虫返回的内容
requests.get(url,params=None,**kwargs)
url:获取html的网页的url
params:url中的额外的参数,字典或字节流格式,可选
**kwargs:12个控制访问的参数
def get(url,params=None,**kwargs):
"""Send a GET request.
:param url: URL for the new :class:'Request' object.
:param params: (optional) Dictionary or bytes to be sent in the query string for the
:param \*\*kwargs: Optional arguments that ''request'' takes.
:return: class:'Request <Request>' object
:rtype: requests.Request
"""
kwargs.setdefault('allow_radirects', True)
return request('get', url, params=params, **kwargs)
Response对象的属性
属性 | 说明 |
---|---|
r.status_code | HTTP请求返回状态码,200表示连接成功,404表示失败 |
r.text | HTTP响应的字符串形式,即,url对应的页面内容 |
r.encoding | 从HTTP header中猜测的响应内容的编码方式 |
r.apparent_encoding | 从内容中分析响应内容的编码方式(备选编码方式) |
r.content | HTTP响应内容的二进制形式 |
r.encoding:如果header中不存在charset,则认为编码为 ISO-8859-1。
r.apparent_encoding:根据网页内容分析出的编码方式。
爬取网页的通用代码框架
理解requests库的异常
异常 | 说明 |
---|---|
requests.ConnectionError | 网络连接异常,如DNS查询失败,拒绝连接等 |
requests.HTTPError | HTTP错误异常 |
requests.URLRequired | URL缺失异常 |
requests.TooManyRedirects | 超过最大重定向次数,产生重定向异常 |
requests.ConnectTimeout | 连接远程服务器超时异常 |
requests.Timeout | 请求URL超时,产生超时异常 |
专门与异常打交道
import requests
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status() # 如果不是200,引发HTTPError异常
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常"
if __name__ == "__main__":
url = "http://www.daidu.dom"
print(getHTMLText(url))
爬取网页的通用代码框架最大的作用是能够使用户访问或爬取网页变得更有效更稳定更可靠
HTTP协议及Requests库方法
HTTP协议
HTTP,Hypertext Transfer Protocol,超文本传输协议。
HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。
请求与响应:用户发起请求,服务器做相关响应。
无状态:第一次跟第二次请求之间并没有相关的关联。
应用层协议:该协议工作再TCP协议之上。
HTTP协议采用URL作为定位网络资源的标识。
URL格式:http://host[:post][path]
host:合法的Internet主机域名或IP地址
port:端口号,缺省端口为80
path:请求资源的路径
HTTP URL实例:
http://www.bit.edu.cn
http://220.181.111.188/duty
HTTP URL理解:
URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源。
HTTP协议对资源的操作
方法 | 说明 |
GET | 请求获取URL位置的资源 |
HEAD | 请求获取URL位置资源的响应消息报告,即获取该资源的头部消息 |
POST | 请求向URL位置的资源后附加新的数据 |
PUT | 请求向URL位置存储一个资源,覆盖原URL位置的资源 |
PATCH | 请求局部更新URL位置的资源,即改变该处资源的部分内容 |
DELETE | 请求删除URL位置存储的资源 |
理解PATCH和PUT的区别
假设URL位置有一组数据UserInfo,包括UserID、UserName等20个字段。
需求:用户修改了UserName,其他不变。
- 采用PATCH,仅向URL提交UserName的局部更新请求。
- 采用PUT,必须将所有20个字段一并提交到URL,未提交字段被删除。
PATCH的最主要好处:节省网络带宽
HTTP协议与Requsets库
HTTP协议方法 | Requsets库方法 | 功能一致性 |
---|---|---|
GET | requests.get() | 一致 |
HEAD | requests.post() | 一致 |
POST | requests.head() | 一致 |
PUT | requests.put() | 一致 |
PATCH | requests.patch() | 一致 |
DELETE | requests.delete() | 一致 |
Requsets库的head()方法
r = requests.head('http://httpbin.org/get')
r.headers # 展示反馈头部信息的内容
r.text # 展示全部内容,但发现内容是空
head()方法可以用很少的网络流量获取网络资源的概要信息。
Requsets库的post()方法
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post('http://httpbin.org/post', data = payload)
print(r.text)
当我们向UPL去POST一个字典,或者POAT键值对的时候,那么键值对会默认地被存储到表单的字段下。
r = requests.post('http://httpbin.org/post', data = 'ABC')
print(r.text)
如果我们不提交键值对,就提交一个字符串ABC,那么我们就发现ABC被存到了data的相关的字段下。
post方法根据用户提交内容的不同在服务器上会做数据的相关的整理。
put方法也是一样,它与post方法类似,只不过它能够将原有的数据覆盖掉。
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.put('http://httpbin.org/post', data = payload)
print(r.text)
Requests库主要方法解析
requests.requst()
requests.requst(method,url,**kwargs)
method:请求方式,对应get/put/post等7种
url:拟获取页面的url链接
**kwargs:控制访问的参数,共13个
method:请求方式
r = requests.requst('GET',url,**kwargs)
r = requests.requst('HEAD',url,**kwargs)
r = requests.requst('POST',url,**kwargs)
r = requests.requst('PUT',url,**kwargs)
r = requests.requst('PATCH',url,**kwargs)
r = requests.requst('delete',url,**kwargs)
r = requests.requst('OPTIONS',url,**kwargs)
OPTIONS,事实上是向服务器获取一些服务器跟客户端能够打交道的参数,这里面并不与获取资源直接相关,因此平时中使用的少。
**kwargs:控制访问的参数,均为可选项
- params:字典或字节序列,作为参数增加到url中
kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('http://python123.io/ws', params = kv)
print(r.url)
# 运行结果 http://python123.io/ws?key1=value1&key2=value2
- data:字典、字节序列或文件对象,作为Request的内容
kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('POST','http://python123.io/ws', data = kv)
body = '主体内容'
r = requests.request('POST','http://python123.io/ws', data = body)
- json:JSON格式的数据,作为Request的内容
kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('POST','http://python123.io/ws', json = kv)
- headers:字典,HTTP定制头
hd = {'user-agent': 'Chrome/10'}
r = requests.request('POST','http://python123.io/ws', headers = hd)
- cookies:字典或CookieJar,Request中的cookies
- auth:元组,支持HTTP认证功能
- files:字典类型,传输文件
fs = {'file': open'data.xls', 'rb'}
r = requests.request('POST','http://python123.io/ws', files = fs)
- timeout:设定超时时间,秒为单位
r = requests.request('POST','http://python123.io/ws', timeout = 10)
proxies:字典类型,设定访问代理服务器,可以增加登录认证
pxs = { 'http':'http://user:pass@10.10.10.1:1234',
'https','http://10.10.10.1:4321'}
r = requests.request('POST','http://python123.io/ws', proxies = pxs)
- allow_redirects:True/False,默认为True,重定向开关
- stream:True/False,默认为True,获取内容立即下载开关
- verify:True/False,默认为True,认证SSL证书开关
- cert:本地SSL证书路径
requests.get()
requests.get(url,params=None,**kwargs)
url:获取页面中的url链接
params:url中的额外参数,字典或字节流格式,可选
**kwargs:12个控制访问的参数(request中除了params参数之外的)
requests.head()
requests.head(url,**kwargs)
url:拟获取页面中的url链接
**kwargs:13个控制访问的参数(与request一样)
requests.post()
requests.post(url,data = None, json = None,**kwargs)
url:拟更新页面的url链接
data:字典、字节序列或文件,Request的内容
json:JSON格式的数据,Request的内容
**kwargs:11个控制访问的参数(除了data和json,其他11个request一样的参数放最后)
requests.put()
requests.put(url,data = None,**kwargs)
url:拟更新页面的url链接
data:字典、字节序列或文件,Request的内容
**kwargs:12个控制访问的参数(除了data,其他12个request一样的参数放最后)
requests.patch()
requests.patch(url,data = None,**kwargs)
url:拟更新页面的url链接
data:字典、字节序列或文件,Request的内容
**kwargs:12个控制访问的参数(除了data,其他12个request一样的参数放最后)
requests.delete()
requests.delete(url,**kwargs)
url:拟删除页面的url链接
**kwargs:13个控制访问的参数(request一样)
原文地址:https://blog.csdn.net/Jay_NanX/article/details/143680451
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!