python爬虫笔记

🕗 发布于 2025-01-17 02:55 python 爬虫 开发语言

urllib库的使用

GET请求

首先，获取网页源码需要模拟浏览器的访问行为对网页进行请求，即使用urllopen打开对应的请求，而请求需要定制一个请求对象，该对象需要统一资源定位器url和请求头headers进行构造，headers可查询浏览器数据，url可使用基础的url和查询参数字典的拼接实现。在这个过程中，data是需要使用parse.urlencode()方法进行编码的。

通过get请求爬取网页数据分为以下几步：

获取网页的url，如"http://www.baidu.com/s?"
获取请求头headers，如{"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0"}
获取所需的查询关键字，如查询“北京”，应当以字典形式或字符串拼接形式输入，如data={'wd':'北京'}
将data字典数据进行编码，使用urllib.parse.urlencode(data)进行拼接
直接拼接url字符串和data字典：url=url+data
定制请求对象：请求对象需要资源定位标识符url和headers请求头，通过urllib.request.Request(url=url,headers=headers)建立Request对象
利用Request对象进行查询：response=urllib.request.urlopen(request)
读取内容并解码，content=response.read().decode('utf-8')

详细代码如下：

import urllib.request
import urllib.parse

'''
——————request
 |-url
 |-headers
 |-quote
'''

#Base URL
url='http://www.baidu.com/s?'

#User Agent
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0",
}

#Unicode form of the quote
data={
    'wd':'北京',
    'time':'2025'#this parameter is just showing what should we do is parameters is better than one
}
new_data=urllib.parse.urlencode(data)
url=url+new_data

#Make a request object
request=urllib.request.Request(url=url,headers=headers)

#Simulate the brower send request to the server
response = urllib.request.urlopen(request)

#Get the html code from response page
content = response.read().decode('utf-8')

print(content)

POST请求

post请求需要用户提供参数，发送参数进行查询，而不能直接将编码后的data和url进行拼接。

下面以百度翻译为例进行展示，首先，需要将data进一步编码为utf-8格式，然后使用这一data构造请求对象Request。由于返回的是json数据，需要将string进一步转换为json。

import urllib.request
import urllib.parse
import json

base_url='https://fanyi.baidu.com/sug'
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0",
}
data={
    'kw':'prior'
}

#Post (Must be encoded)
new_data=urllib.parse.urlencode(data).encode('utf-8')

#args of post should put in the Request constructor
request=urllib.request.Request(url=base_url,data=new_data,headers=headers)
response=urllib.request.urlopen(request)
content=response.read().decode('utf-8')

obj=json.loads(content)
print(obj)

原文地址：https://blog.csdn.net/2301_79335566/article/details/145156326

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：vue3 uiapp实现一个数字输入组件，输入非数字会默认转成最小数
下一篇：没有了

基于Linux系统指令使用详细解析
远程登录linux系统 ssh root@ 192.168 .202 .136 # 断开连接 exit # 重启系统 reboot 或者 shutdown - h now # 关机指令 shutdow
阅读更多2025-01-17
VUE学习笔记6__vue指令v-show和v-if
通过vue调试插件设置flag为false，此时。v-show控制的div结构还在。频繁切换显示隐藏的用v-show。v-if控制的div已经被删除。
阅读更多2025-01-17
SpringSecurity-前后端分离
try {// 设置当前线程的安全上下文。
阅读更多2025-01-17
如何在Mac上使用Brew更新Cursor应用程序
Cursor是一款强大的工具，旨在帮助用户更好地编写、编辑和讨论代码。它结合了AI技术，使得编程过程更加高效和便捷。Cursor不仅支持代码编辑，还可以与团队成员进行实时协作。随着技术的发展，工具的更
阅读更多2025-01-17
Excel中函数SIGN()的用法
number:为任意的实数。
阅读更多2025-01-17
在 macOS 上，用命令行连接 MySQL（/usr/local/mysql/bin/mysql -u root -p）
根据你提供的文件内容，MySQL 的安装路径是。要直接使用mysql命令，你需要找到mysql可执行文件的路径。在 macOS 上，mysql客户端通常位于 MySQL 安装目录的bin子目录中。
阅读更多2025-01-17
MySQL之字段类型和SQL约束
MySQL提供了丰富的数据类型，用于定义表中的列。提供了约束用于指定表中数据的规则，确保数据的完整性和一致性。
阅读更多2025-01-17
Android adb 调试，不在手机上点击信任 “允许usb调试” 即可连接的方式（手机需root）
通过更改手机的 /data/misc/adb/adb_keys 文件来达到直接信任电脑的效果。
阅读更多2025-01-17
47.数据绑定的PropertyChanged C#例子 WPF例子
"invoke" 通常指的是调用一个方法、过程、函数或委托。），编译器会自动将调用该方法的成员（如属性、方法的名称）作为。是一个特性（Attribute），它应用于。这个特性的作用
阅读更多2025-01-17
基于多个边缘盒子部署的综合视频安防系统的智慧地产开源了
智慧地产视觉监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95
阅读更多2025-01-17

python爬虫笔记

urllib库的使用

GET请求

POST请求

相关文章