Python爬虫知识体系-----Urllib库的使用

🕗 发布于 2024-07-23 07:36 python 爬虫 开发语言 笔记新能源

数据科学、数据分析、人工智能必备知识汇总-----Python爬虫-----持续更新：`https://blog.csdn.net/grd_java/article/details/140574349`

文章目录

1. `基本使用`

本库无需用pip安装，是python本身自带的库，可以直接使用

模拟浏览器访问服务器的数据

进入百度，查看网页源码

这就是我们要获取的数据

通过urllib获取数据,了解编码问题

首先我们先导包，我们需要用urllib模块的request
之后我需要用request中的urlopen函数访问对应url，并返回一个响应体，我们将其保存到response变量中
有了响应体对象后，通过read方法，将源码数据读取出来。上图中我们可以看到，确实读取出来了，但是是以b'开头的，表示读取的是字节形式的二进制文件，我们会发现读取的数据都不是正常用户可以看懂的字符，而是十六进制编码

response服务器返回的数据解析，返回结果乱码的原因

response的数据类型是HttpResponse
我们需要将返回的数据由字节码转为我们能看懂的字符串，也就是解码decode操作，因为response自动进行了字符串转字节码，也就是编码encode操作
responose对象常用的函数

read() #字节形式读取二进制 扩展：rede(5)返回前几个字节
readline() #读取一行
readlines() #一行一行读取 直至结束
getcode() #获取状态码
geturl() #获取url
getheaders() #获取headers，响应头，状态信息
urllib.request.urlretrieve() #请求网页,请求图片,请求视频

进行解码操作

我们可以在页面源码中，看到它的编码格式是utf-8

所以我们只需要对其进行utf-8格式的解码即可

# _*_ coding : utf-8 _*_
# @Time : 2024/7/21 星期日 16:12
# @Author : Taylor Sinclair（殷志鹏）
# @File : basicUsing
# @Project : test
# @Description : 使用urllib获取百度首页源码

'''导包(start)'''
import urllib.request;
'''导包(end)'''

# 1. 定义一个url，我们访问的地址
url = "http://www.baidu.com";
# 2. 模拟浏览器向服务器发送请求并获取响应体
response = urllib.request.urlopen(url);
# 3. 读取响应体内容，并对其进行utf-8解码
content = response.read().decode('utf-8');
print(content);

urllib.request.urlretrieve()下载

此函数有两个参数，url表示要下载的内容的url地址，而filename表示下载完成后，我们要保存的地址和文件类型（文件后缀名）

下载网页：我们将百度首页的html文件，下载到当前文件夹的百度.html文件中

'''导包(start)'''
import urllib.request;
'''导包(end)'''

# 1. 定义一个url，我们访问的地址
url = "http://www.baidu.com";
# 2. 模拟浏览器向服务器发送请求并将html文件下载保存到百度.html文件中
response = urllib.request.urlretrieve(url,"百度.html");

下载图片

因为我们现在还没有学到后面的知识，所以我们先手动获取一张图片的地址

只需要将函数的url参数换为图片的地址即可

'''导包(start)'''
import urllib.request;
'''导包(end)'''
# 1. 定义一个url，我们访问的地址
url = "https://wxls-cms.oss-cn-hangzhou.aliyuncs.com/online/2024-04-18/218da022-f4bf-456a-99af-5cb8e157f7b8.jpg";
# 2. 模拟浏览器向服务器发送请求并将html文件下载保存到百度.html文件中
response = urllib.request.urlretrieve(url,"图片.jpg");

下载视频

还是找到一个视频（我们这里初学者，爬取时不要去找什么类似哔哩哔哩这样需要特殊处理的，我们就找一些简单的，直接用url可以爬取的，例如好看视频的），按下f12，选中视频控件，然后双击src中的视频路径，将其复制下来

然后就可以通过url下载到这个视频

'''导包(start)'''
import urllib.request;
'''导包(end)'''

# 1. 定义一个url，我们访问的地址
url = "https://vdept3.bdstatic.com/mda-qdqxvr04ju7kwxez/cae_h264/1714102071853507436/mda-qdqxvr04ju7kwxez.mp4?v_from_s=hkapp-haokan-hbe&auth_key=1721564882-0-0-26db109d9d14804c8ba64ac44d474da6&bcevod_channel=searchbox_feed&pd=1&cr=0&cd=0&pt=3&logid=1682548574&vid=2405378101862107884&klogid=1682548574&abtest=101830_2-102148_2-17451_1"
# 2. 模拟浏览器向服务器发送请求并将html文件下载保存到百度.html文件中
response = urllib.request.urlretrieve(url,"视频.mp4");

2. `请求对象的定制`

UA

User Agent(用户代理)：简称UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等

这是我们爬虫的第一道大关，简称UA校验，简单来说，如果我们不做特殊处理，他能识别到我们是假数据，而不是真实的用户，从而进行反爬

为了解决这个问题，我们需要进行伪装，获取正确的UA

如果不操作UA，直接访问https://www.baidu.com，就会被反爬

可以看到，我没有设置UA，爬取的数据是反爬处理过的数据，不是我们想要的

获取UA

打开我们想要爬取的url，按下f12，进入network，然后刷新页面，在network中找到对应url请求，在请求头中，找到UA

复制UA，存放到python代码的字典中，注意，字典的名字并不硬性要求为headers，这里只是为了代码可读性而起名为headers

请求对象的定制

有了headers后，我们就可以用url和headers定制一个请求对象，也就是Request请求对象

有了这个对象，我们访问指定url时，直接使用这个request对象即可，可以发现，爬取到了想要的数据，而不是反爬处理的数据

'''导包(start)'''
import urllib.request
'''导包(end)'''

# 1. 定义一个url，我们访问的地址,这里使用的协议是https，是加了ssh的安全协议，会直接反爬
url = "https://www.baidu.com"
# 2. 定制请求头header，将UA放入
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:128.0) Gecko/20100101 Firefox/128.0"}
# 3. 定制请求对象,有了这个对象，我们就可以用这个请求对象访问指定url了，而这个请求对象，设置了我们定制的headers
request = urllib.request.Request(url, headers=headers)
# 4. 使用定制的请求对象访问
response = urllib.request.urlopen(request)
print(response.read().decode("utf8"))

3. `编解码`

1. `get请求方式：urllib.parse.quote（）`

问题

我们请求数据时，使用的是Unicode编码（也有例外）,例如我们百度周杰伦时

url应该是https://www.baidu.com/s？wd=%E5%91%A8%E6%9D%B0%E4%BC%A6，其中%E5%91%A8%E6%9D%B0%E4%BC%A6是周杰伦的Unicode编码
而不是https://www.baidu.com/s?wd=周杰伦

我们不知道某些字符的Unicode编码怎么办呢？就可以使用urllib.parse.quote（）函数，这个函数会将字符转为Unicode编码

urllib.parse.quote("周杰伦")#结果为：%E5%91%A8%E6%9D%B0%E4%BC%A6

解决办法

将需要使用Unicode编码的部分，全部使用quote函数生成，然后拼接

'''导包(start)'''
import urllib.request
import urllib.parse
'''导包(end)'''
# 1. 定义一个url，我们访问的地址,这里使用的协议是https，是加了ssh的安全协议，会直接反爬
url = "https://www.baidu.com/s?wd="
paras = urllib.parse.quote("周杰伦")
url+=paras
# 2. 定制请求头header，将UA放入
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:128.0) Gecko/20100101 Firefox/128.0"}
# 3. 定制请求对象,有了这个对象，我们就可以用这个请求对象访问指定url了，而这个请求对象，设置了我们定制的headers
request = urllib.request.Request(url="url", headers=headers)
# 4. 使用定制的请求对象访问
response = urllib.request.urlopen(request)
print(response.read().decode("utf8"))

2. `urllib.parse.urlencode()`

问题

当只有一个参数的时候，自然可以使用urllib.parse.quote（）来解决
但是有多个参数呢？总不能一个个拼接吧
因此，urllib.parse.urlencode()就可以一次性转多个参数

'''导包(start)'''
import urllib.request
import urllib.parse
'''导包(end)'''
# 1. 定义一个url，我们访问的地址,这里使用的协议是https，是加了ssh的安全协议，会直接反爬
url = "https://www.baidu.com/s?" # url中无需手动拼接参数了
data = {"wd":"周杰伦","sex":"男"} # 将需要的参数放在字典中
paras = urllib.parse.urlencode(data); # 使用函数将其转为Unicode编码
url+=paras # 拼接URL
print(url)

4. `post请求方式`

1. `基本使用`

以百度翻译为例

进入百度翻译进行抓包，我们输入单词spider，可以发现，每输入一个字母都会进行Post请求，返回文件时sug，里面我们请求的表单，就是我们输入的单词

而响应体中，就是搜索到的翻译

一定要找对接口，这是爬虫的一大难点，如果无法找到正确的接口，就无法获取正确的数据

所以我们现在就有了爬虫的目标，url是https://fanyi.baidu.com/sug，请求方式是Post，请求参数是"kw":“spider”

具体实现

注意，Post请求需要额外提交表单，也就是代码中的data字典。所白了和get请求不同，参数不是拼接在url的？后面，而是需要放到请求体的data中
data需要编码，首先urlencode将其编为Unicode，然后进行encode编码，编为utf-8
如果返回的是json数据，需要用json.loads函数进行转换才能不乱码

'''导包(start)'''
import urllib.request
import urllib.parse
import json
'''导包(end)'''
# 1. 定义一个url，我们访问的地址,这里使用的协议是https，是加了ssh的安全协议，会直接反爬
url = "https://fanyi.baidu.com/sug" # url中无需手动拼接参数了
data = {"kw":"spider"} # 将需要的参数放在字典中
# 2. 定制请求头header，将UA放入
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, likeGecko) Chrome/74.0.3729.169 Safari/537.36"}
# 3. Post请求的参数必须编码,首先urlencode将其编为Unicode，然后进行encode编码，编为utf-8
data = urllib.parse.urlencode(data).encode("utf-8")
# 4. 定制Post请求头，需要额外传入data，请求参数表
request = urllib.request.Request(url=url, data=data,headers=headers)
# 5. 使用定制的请求对象访问
response = urllib.request.urlopen(request)
# 6. 获取读取到的数据
content = response.read().decode("utf-8")
# 7. 将返回数据转为json输出
print("直接输出会乱码",content)
obj = json.loads(content)
print("转为json数据输出即可",obj)

2. `处理第二种反爬手段`

百度详细翻译为例

依然是百度翻译，只不过这次我们前往旧版本进行抓包，的抓包是https://fanyi.baidu.com/v2transapi?from=en&to=zh这个，它里面是单词更加详细的释义

它的请求表单更多

我们直接复制出来的数据是不规范的

我们通过一些文本工具，例如Notepad++来进行正则表达式的查找和替换

(.*) (.*)代表前面有若干个任意字符，后面有若干个任意字符，中间是一堆空格（直接复制原数据中间的空格），“\1”:\2表示替换为前面第一个小括号匹配到的值加双引号，中间替换为冒号

"from":"en"
"to":"zh"
"query":"spider"
"simple_means_flag":"3"
"sign":"63766.268839"
"token":"f1ebb176f73e77bc705c404803d693c0"
"domain":"common"
"ts":"1721619631760"

现在我们用python发送请求

会发现被反爬了，只要被反爬，就考虑是不是他需要的东西我们没有给够

找到它的请求头

用文本软件改成key:value格式

放到代码的headers中，但是注意要将"Accept-Encoding":"gzip, deflate, br, zstd"注释掉，因为这句指定了编码格式，这里没有我们常用的utf-8格式

不将其注释掉会报这个错误

所以一定要注释掉

然后就可以爬到数据了

'''导包(start)'''
import urllib.request
import urllib.parse
import json
'''导包(end)'''
# 1. 定义一个url，我们访问的地址,这里使用的协议是https，是加了ssh的安全协议，会直接反爬
url = "https://fanyi.baidu.com/v2transapi?from=en&to=zh" # url中无需手动拼接参数了
data = {"from":"en",
"to":"zh",
"query":"spider",
"simple_means_flag":"3",
"sign":"63766.268839",
"token":"f1ebb176f73e77bc705c404803d693c0",
"domain":"common",
"ts":"1721619631760"} # 将需要的参数放在字典中
# 2. 定制请求头header，将UA放入
headers = {"Host":"fanyi.baidu.com",
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:128.0) Gecko/20100101 Firefox/128.0",
"Accept":"*/*",
"Accept-Language":"zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2",
# "Accept-Encoding":"gzip, deflate, br, zstd",
"Content-Type":"application/x-www-form-urlencoded; charset=UTF-8",
"Acs-Token":"1721545207246_1721619631762_cdhky/lsyn0MwcIYubxg6g+yGB7DWVkvHHhzEF4G/zcEHCTNSb+RWz1TzDIehhT0nRMmJ9iOG0UTlCwvejzWeFbqDj0oiIHda9ly0lnIom+SdYR9JWNykRa5+vLO2b5OOpNmeq7DzPRxGnhopulH0pTglWMPVnViHVFDQI5dKr3/IXBRVuAmdI3Be0YchzL49xTKBc2T46mceMQXmYBsRKMc7VJg+/+yMSqPPD5ukSCJ+ulvWC6cVgzdbyg3hXuOK6NgROzB1BB2PdzzTBrhRVWS/iOKWwcB1y1/YmMrVGWavgMMYB+IYqm8wp0pB00qCD1/RXRyn+tlWHhHyUsmsyQmFg5YRyesvTHE08RE+KRRcGAGQ07jtfRAeOKqzHlVihlaYs8xaqcyoMi2ihGIHpq0gUB4xV2R2Og+5d2dzcUuVCUwTknsvHTiKkci3QKFK8VVKHQqGzBfab+JYgZfTA==",
"X-Requested-With":"XMLHttpRequest",
"Content-Length":"134",
"Origin":"https://fanyi.baidu.com",
"Connection":"keep-alive",
"Referer":"https://fanyi.baidu.com/",
"Cookie":'BIDUPSID=014FB2528D0EFCB53D0516AA9DDB229D; PSTM=1708246679; H_PS_PSSID=60359_60465_60492_60502; BAIDUID=014FB2528D0EFCB53D0516AA9DDB229D:SL=0:NR=10:FG=1; BDUSS=25VSy16NGhRV0xIfk5Kcy02SVdPaDZBWW9CcUNTNkM5UFdPZzJXTmthQn5kZnBsRVFBQUFBJCQAAAAAAAAAAAEAAAC9HTU-ztLM~czs0uIAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAH~o0mV~6NJlT; H_WISE_SIDS=60359_60465_60492_60502; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; ZFY=Qxrlg:B2RssHj4jywgOL:BJKmhUwoOwa7GUA2JeI:BD0Xc:C; BA_HECTOR=81a48425a401212l212h202l8i6npi1j9pgid1u; RT="z=1&dm=baidu.com&si=d748cf44-d8fb-4cf8-bfe9-88bf5213250c&ss=lywevcbe&sl=a&tt=goe&bcn=https%3A%2F%2Ffclog.baidu.com%2Flog%2Fweirwood%3Ftype%3Dperf&ld=yve1&ul=z3kl&hd=z3tg"; delPer=0; PSINO=2; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; ab_sr=1.0.1_NjNiODA3MTZjNzE4ZjA2YjUyNWFhNGU1ODc2ZDQ0MTQ1YmE4ODUzYTE4YzJkYjkzMWVhNWFhMmJkNDFlZWMwN2Q4YjU2YWQyOTdmZmE4MjE1YjY2YzQ3YjIzODM2NGEwYTY2NjM1YmI3MjRjODYyNGQ1M2RhZjA4NzUzYjQ3NjVlNjM4ZGY5MzJkYTllOTEwNmYxMDFlYzBmNzViNzFiYTU3MzBjNDljYzYzYWZkZDZkM2E3OWM5ZWVkNDE4YzdmYjQwNTRjM2E4YWM5ZDQwZmVmNWQ3ZWYxZDM2OWRiMmY1ZjgwM2YxYzNhYTAzZDA4YmE4Yzc2MzIxM2U5ZDM4Mg==; smallFlowVersion=old; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1721619578; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1721619578; REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1',
"Sec-Fetch-Dest":"empty",
"Sec-Fetch-Mode":"cors",
"Sec-Fetch-Site":"same-origin"}
# 3. Post请求的参数必须编码,首先urlencode将其编为Unicode，然后进行encode编码，编为utf-8
data = urllib.parse.urlencode(data).encode("utf-8")
# 4. 定制Post请求头，需要额外传入data，请求参数表
request = urllib.request.Request(url=url, data=data,headers=headers)
# 5. 使用定制的请求对象访问
response = urllib.request.urlopen(request)
# 6. 获取读取到的数据
content = response.read().decode("utf-8")
# 7. 将返回数据转为json输出
obj = json.loads(content)
print("转为json数据输出即可",obj)

但是，我们其实只需要Cookie就够了，甚至有了它，UA都可以不用

5. `ajax`

1. `get请求`

以豆瓣电影榜单为例

进入豆瓣电影，点击排行榜，点击动作分类，就会出现动作类电影的榜单，而这些数据可见来源于https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=0&limit=20这个请求

同时可以发现，它的响应体是ajax数据，也就是json数据

将第一页的json数据保存到本地

json数据在pycharm中可以通过快捷键Ctrl + Alt + L来快速进行排版，方便我们查看

'''导包(start)'''
import urllib.request
import urllib.parse
import json
'''导包(end)'''
url = "https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=0&limit=20"
# 2. 定制请求头header，将UA放入
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:128.0) Gecko/20100101 Firefox/128.0'
}

request = urllib.request.Request(url=url,headers=headers)
response = urllib.request.urlopen(request)
content = response.read().decode("utf-8")

# 3. 将爬取的数据保存到本地
with open('douban.json','w',encoding='utf-8') as fp:
    fp.write(content)

2. `如何爬取多页数据`

找接口规律

上面我们获取了第一页的数据，一共20部电影，接口为https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=0&limit=20
然后我们清空network，向下滑页面，让其获取第二页数据，也就是21开始。我们发现接口为https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=20&limit=20

除了最后的一个参数start不同以外，其余都是相同的。所以我们找到了规律，不同页的数据，只是最后两个参数以20为一页进行变化罢了

获取前10页数据

用一个for循环，url的start参数0开始，不断递增20即可

'''导包(start)'''
import urllib.request
import urllib.parse
import json
'''导包(end)'''
# 定制请求头header，将UA放入
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:128.0) Gecko/20100101 Firefox/128.0'
}
# 根据page生成url
def create_requestUrl_byPage(page):
    base_url = "https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&"
    data = {
        "start": page*20,
        "limit": 20,
    }
    data = urllib.parse.urlencode(data)
    url = base_url + data
    return url
# 根据url请求响应
def get_content(url):
    request = urllib.request.Request(url=url, headers=headers)
    response = urllib.request.urlopen(request)
    content = response.read().decode("utf-8")
    return content
# 将爬取的数据保存到本地
def output_to_file(content,page):
    with open("第" + str(page) + '页数据.json', 'w', encoding='utf-8') as fp:
        fp.write(content)

# 程序入口
if __name__ == '__main__':
    startPage = 0
    endPage = 10
    for page in range(startPage, endPage):
        url = create_requestUrl_byPage(page)# 根据页码获取url
        print(url)
        content = get_content(url) # 根据url发送get请求，请求内容
        output_to_file(content,page+1) # 根据content，将其保存到文件

第一页数据，可见爬取到的数据是正确的

第二页数据，也是正确的

最后一页数据

3. `post请求`

以肯德基为例，我们进行餐厅查询

可以发现数据来源于一个Post接口http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname

我们查看请求头，会发现X-Requested-With：XMLHttpRequest这个参数，表示这个是ajax请求

分析不同页的表单数据，可以发现，只是页码pageIndex不一样而已

获取前10页数据

和前面Post一样，只不过这里返回的是ajax

'''导包(start)'''
import urllib.request
import urllib.parse
import json
'''导包(end)'''
# 定制请求头header，将UA放入
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:128.0) Gecko/20100101 Firefox/128.0'
}
# 根据page生成url
def create_requestUrl_byPage(page):
    base_url = "http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname"
    data = {
        'cname':'呼和浩特',
        'pid':'',
        'pageIndex':page,
        'pageSize':'10'
    }
    # post请求参数必须编码encode
    data = urllib.parse.urlencode(data).encode('utf-8')
    return [base_url,data];
# 根据url请求响应
def get_content(url,data):
    request = urllib.request.Request(url=url,data=data,headers=headers)
    response = urllib.request.urlopen(request)
    content = response.read().decode("utf-8")
    return content
# 将爬取的数据保存到本地
def output_to_file(content,page):
    with open("第" + str(page) + '页数据.json', 'w', encoding='utf-8') as fp:
        fp.write(content)

# 程序入口
if __name__ == '__main__':
    startPage = 1
    endPage = 10
    for page in range(startPage, endPage+1):
        list = create_requestUrl_byPage(page)# 根据页码获取url
        print(list)
        content = get_content(list[0],list[1]) # 根据url发送get请求，请求内容
        output_to_file(content,page) # 根据content，将其保存到文件

第一页数据对应

第7页数据

因为一共只有7页，所以后面几页是空

6. `异常URLError\HTTPError`

HTTPError类是URLError类的子类
导入的包是urllib.error.HTTPError和urllib.error.URLError
http错误：http错误是针对浏览器无法连接到服务器而增加出来的错误提示。引导并告诉浏览者该页是哪里出了问题
通过urllib发送请求的时候，有可能会发送失败，这个时候如果想让你的代码更加的健壮，可以通过try‐except进行捕获异常，异常有两类，URLError\HTTPError

HTTPError

假设访问CSDN上的一篇文章https://blog.csdn.net/grd_java/article/details/140174015，我故意往后面加几个666666，此时这个请求就是错误的，执行代码会直接报错

直接返回报错信息，用户体验很差，因此我们需要捕获异常返回合理的信息

# 捕获异常
try:
    request = urllib.request.Request(url, headers=headers)
    response = urllib.request.urlopen(request)
    print(response.read().decode("utf8"))
except urllib.error.HTTPError as e:
    print("请检查访问地址，错误码：",e.code)

URLError

假设访问百度，但是将域名写错了，此时就会报URL错误，而我们捕获HTTP错误是不行的，因为URLError是HTTPError的父类

捕获

'''导包(start)'''
import urllib.request
import urllib.error
'''导包(end)'''
url = "https://www.baidu.coms"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:128.0) Gecko/20100101 Firefox/128.0"}
# 捕获异常
try:
    request = urllib.request.Request(url, headers=headers)
    response = urllib.request.urlopen(request)
    print(response.read().decode("utf8"))
except urllib.error.URLError as e:
    print("URL地址出错：",e.reason)

7. `cookie登录`

有些数据是必须登录后才能获取的，这种应该如何爬取呢？

我们先登录，然后进入个人主页，发现个人数据来源于https://weibo.com/ajax/user/popcard/get?id=5458187191

我们直接爬取会提示编码错误，但是我们个人主页确实是utf-8，这是常用的反爬手段，你没有登录，会自动跳转页面，例如跳转到登录页面，而这个页面的编码不是utf-8，一般是gb2312

此时将编码改为gb2312就会发现，爬取到的页面是验证页面

此时，我们选择将请求头里面的东西，放在headers中再做尝试，其实依然只需要Cookie而已

'''导包(start)'''
import urllib.request
import urllib.error
'''导包(end)'''
url = "https://weibo.com/ajax/user/popcard/get?id=你的id"
headers = {
# 有些网站，是需要判断你的referer是不是从上一个页面进来的，不是的话，也会对你反爬处理
'Referer':'https://weibo.com/u/5458187191',
'Cookie':'你的cookie',
}
# 捕获异常
request = urllib.request.Request(url, headers=headers)
response = urllib.request.urlopen(request)
content = response.read().decode("utf-8")
with open('test.json','w',encoding='utf-8') as f:
    f.write(content)

额外的反爬手段

请求头中有一个参数’Referer’:‘https://weibo.com/u/5458187191’,
虽然这个案例不需要，但是有些网站是需要的，这个参数代表上一个页面
也就是有些网站，是需要判断你的referer是不是从上一个页面进来的，不是的话，也会对你反爬处理
这个参数一般用于做图片防盗链的，所以我们需要注意这个问题

8. `handler处理器`

问题

urllib.request.urlopen(url)是不能定制请求头的
urllib.request.Request(url,headers,data)是可以定制请求头的
Handler：可以定制更高级的请求头，随着业务逻辑逐渐复杂，请求对象的定制是无法满足需求的，例如动态cookie和代理都无法使用我们上面学到的定制请求对象来处理

1. `Handler处理器基本使用`

'''导包(start)'''
import urllib.request
import urllib.error
'''导包(end)'''
url = "https://www.baidu.com"
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:128.0) Gecko/20100101 Firefox/128.0"
}
# request对象依然需要
request = urllib.request.Request(url, headers=headers)
# 1. 获取handler对象
handler = urllib.request.HTTPHandler()
# 2. 获取openner对象，是构建者设计模式,用handler构建一个openner对象
openner = urllib.request.build_opener(handler)
# 3. openner的open方法
response = openner.open(request)
result = response.read().decode('utf-8')
print(result)

2. `代理`

代理的常用功能

突破自身IP访问限制，访问国外站点
访问一些单位或团体内部资源

扩展：某大学FTP(前提是该代理地址在该资源的允许访问范围之内)，使用教育网内地址段免费代理服务器，就可以用于对教育网开放的各类FTP下载上传，以及各类资料查询共享等服务

提高访问速度

扩展：通常代理服务器都设置一个较大的硬盘缓冲区，当有外界的信息通过时，同时也将其保存到缓冲区中，当其他用户再访问相同的信息时，则直接由缓冲区中取出信息，传给用户，以提高访问速度。

隐藏真实IP

扩展：上网者也可以通过这种方法隐藏自己的IP，免受攻击。

代码配置代理

创建Reuqest对象
创建ProxyHandler对象
用handler对象创建opener对象
使用opener.open函数发送请求

代理需要的ip去哪找

百度快代理，会给我们提供很多免费代理ip

实现过程

我们已知一个代理ip为202.101.213.154，端口号为18014

代码中规定proxies字典时，其中一个代理的格式就是’http’: ‘202.101.213.154:18014’

可见使用免费代理访问成功，如果免费都不行，那就只能买一个了

代码和上面Handler基本使用的唯一区别就是HttpHandler()换成ProxyHandler(proxies= proxies),额外需要指定一个proxies字典

'''导包(start)'''
import urllib.request
import urllib.error
'''导包(end)'''
url = "https://www.baidu.com"
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:128.0) Gecko/20100101 Firefox/128.0"
}
# request对象依然需要
request = urllib.request.Request(url, headers=headers)
# 1. 获取代理handler对象，并指定代理ip字典proxies
proxies = {
    'http': '202.101.213.154:18014',
}
handler = urllib.request.ProxyHandler(proxies= proxies)
# 2. 获取openner对象，是构建者设计模式,用handler构建一个openner对象
openner = urllib.request.build_opener(handler)
# 3. openner的open方法
response = openner.open(request)
result = response.read().decode('utf-8')
print(result)

自己买代理ip

先生成API链接

点击生成链接后将链接复制到浏览器执行

此时就会给你一个高密的代理ip和端口号

此时，你查询自己的ip时，就会变成代理ip

3. `代理池`

问题

就算有一个代理ip，如果你使用这个ip高频次访问一个网站，依然会被封掉
因此需要一个代理池，多个ip轮番访问，也就是用一堆高密的代理ip进行爬虫，而不是只用几个ip，很快就会被识别为爬虫

随机选择代理ip

可见上图中，会在代理池中随机挑选ip

'''导包(start)'''
import random
'''导包(end)'''
# 代理池
proxies_pool = [
{'http': '202.101.213.154:1801411111111'},
{'http': '202.101.213.154:1801422222222'},
{'http': '202.101.213.154:1801433333333'}
]
# 随机选中代理池中的一个代理ip
proxies = random.choice(proxies_pool)
proxies1 = random.choice(proxies_pool)
proxies2 = random.choice(proxies_pool)
# 使用代理ip
print(proxies)
print(proxies1)
print(proxies2)

原文地址：https://blog.csdn.net/grd_java/article/details/140589367

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【机器学习】机器学习之计算学习理论--评估机器学习能够学到什么程度
下一篇：pytorch深度学习框架基本介绍

大数据机器学习算法与计算机视觉应用02：线性规划
在零和博弈中，是概率和对应收益乘积的总和（收益给定），在最大流问题中，是通往终点所有流量的总和。卡马卡方法又被称作内部点方法，它寻找最优解的方法并非从可行域边界的一个顶点出发，而是从可行域内部的一个点
阅读更多2024-11-15
Python学习------第八天
num = int (input("请输入您想存入多少钱：请输入："))print(f"{name},你好，你的余额剩余:{money}元")num = in
阅读更多2024-11-15
【qt】控件
frameGeometry是开始从红圈开始算，Geometry从黑圈算程序证明：使用一个按键，当按键按下,qdebug打印各自左上角的坐标（相当于屏幕左上角），以及窗口大小视频演示：frameGeom
阅读更多2024-11-15
Jupyter notebook如何加载torch环境
Jupyter notebook如何加载torch环境
阅读更多2024-11-15
「QT」文件类之 QDataStream 数据流类
QDataStream是Qt框架中的一个类，它提供了基于Qt数据类型的二进制流接口。通过QDataStream，可以方便地将Qt的基本数据类型（如整型、浮点型、字符串等）以及自定义的Qt对象序列化（即
阅读更多2024-11-15
在vue项目中使用SM4加密登录
在 utils 文件夹中创建 sm4Util.js 文件。
阅读更多2024-11-15
力扣654：最大二叉树
力扣654：最大二叉树。C语言
阅读更多2024-11-15
Linux各种解压命令汇总
最常用的是.tar.gz，原因：linux各种版本标准压缩方式，几乎各大版本可以直接用；【注意】：.tar不是压缩的格式，tar只是按照一定的格式将所有的文件打包在一起。压缩目录tar cf - te
阅读更多2024-11-15
命令行打包Java工程
表示跳过测试可用于指定本地maven仓库路径。
阅读更多2024-11-15
web服务器
web 服务器提供的这些数据大部分都是文件，那么我们需要在服务器端先将数据文件写好，并且放置在某个特殊的目录下面，这个目录就是我们整个网站的首页，在nginx 中，这个目录默认在浏览器是通过你在地址栏
阅读更多2024-11-15

Python爬虫知识体系-----Urllib库的使用

文章目录

1. 基本使用

2. 请求对象的定制

3. 编解码

1. get请求方式：urllib.parse.quote（）

2. urllib.parse.urlencode()

4. post请求方式

1. 基本使用

2. 处理第二种反爬手段

5. ajax

1. get请求

2. 如何爬取多页数据

3. post请求

6. 异常URLError\HTTPError

7. cookie登录

8. handler处理器

1. Handler处理器基本使用

2. 代理

3. 代理池

相关文章

1. `基本使用`

2. `请求对象的定制`

3. `编解码`

1. `get请求方式：urllib.parse.quote（）`

2. `urllib.parse.urlencode()`

4. `post请求方式`

1. `基本使用`

2. `处理第二种反爬手段`

5. `ajax`

1. `get请求`

2. `如何爬取多页数据`

3. `post请求`

6. `异常URLError\HTTPError`

7. `cookie登录`

8. `handler处理器`

1. `Handler处理器基本使用`

2. `代理`

3. `代理池`