python网络爬虫实战教学——urllib的使用（3）

🕗 发布于 2024-03-24 23:19 python 爬虫信息可视化 开发语言

在这里插入图片描述

文章目录

专栏导读
1、urlsplit
2、urlunsplit
3、urljoin
4、urlencode

专栏导读

✍ 作者简介：i阿极，CSDN 数据分析领域优质创作者，专注于分享python数据分析领域知识。

✍ 本文录入于《python网络爬虫实战教学》，本专栏针对大学生、初级数据分析工程师精心打造，对python基础知识点逐一击破，不断学习，提升自我。
✍ 订阅后，可以阅读《python网络爬虫实战教学》中全部文章内容，包含python基础语法、数据结构和文件操作，科学计算，实现文件内容操作，实现数据可视化等等。
✍ 其他专栏：《数据分析案例》，《机器学习案例》

😊😊😊如果觉得文章不错或能帮助到你学习，可以点赞👍收藏📁评论📒+关注哦！👍👍👍

1、urlsplit

这个方法和 urlparse 方法非常相似，只不过它不再单独解析 params 这一部分(params 会合并到path中)，只返回5个结果。实例如下:

from urllib.parse import urlsplit
result = urlsplit('https://www.baidu.com/index.html;user?id=5#comment')
print(result)

运行结果如下：

SplitResult(scheme='https', netloc='www.baidu.com', path='/index.html;user',
 query='id=5', fragment='comment')

可以发现，返回结果是SplitResult,这其实也是一个元组，既可以用属性名获取其值，也可以用索引获取。
实例如下：

from urllib.parse import urlsplit
result = urlsplit('https://ww.baidu.com/index.html;user?id=5#corment')
print(result.scheme,result[0])

运行结果如下：

https https

2、urlunsplit

与urlunparse方法类似，这也是将链接各个部分组合成完整链接的方法，传入的参数也是一个可迭代对象，例如列表、元组等，唯一区别是这里参数的长度必须为5。

实例如下：

from urllib.parse import urlunsplit
data =['https','waw.baidu.com','index.html','a-6','comment']
print(urlunsplit(data))

运行结果如下：

https://waw.baidu.com/index.html?a-6#comment

3、urljoin

urlunparse和urlunsplit方法都可以完成链接的合并，不过前提都是必须有特定长度的对象，链接的每一部分都要清晰分开。
除了这两种方法，还有一种生成链接的方法，是urljoin。我们可以提供一个base_url(基础链接)作为该方法的第一个参数，将新的链接作为第二个参数。urljoin方法会分析base_url的scheme、netloc和path这3个内容，并对新链接缺失的部分进行补充，最后返回结果。

下面通过几个实例看一下：

from urllib.parse import urljoin
print(urljoin('https://wnw.baidu.com','FAQ.html'))
print(urljoin('htps://wsw.baidu.com','https://cuiqingcai.com/FA0.html'))
print(urljoin('https://asw.baidu.com/about.html','https://culqingcal.com/FAQ.html'))
print(urljoin('https://wsw.baldu.com/about.html',"https://culqingcal.com/FA0.html?question-2"))
print(urljoin('https://ww.baidu.com?wd-abc','https://cuiqingcal.com/index.php'))
print(urljoin('https://.baidu.com','?category-2#comment'))
print(urljoin('wm.baidu.com',"?category-2#comment"))
print(urljoin("wn.baidu.comtcoment","category-2"))

运行结果如下：

https://wnw.baidu.com/FAQ.html
https://cuiqingcai.com/FA0.html
https://culqingcal.com/FAQ.html
https://culqingcal.com/FA0.html?question-2
https://cuiqingcal.com/index.php
https://.baidu.com?category-2#comment
wm.baidu.com?category-2#comment
category-2

可以发现，base_url提供了三项内容：scheme、netloc和path。如果新的链接里不存在这三项，就予以补充；如果存在，就使用新的链接里面的，base_url中的是不起作用的。
通过urljoin方法，我们可以轻松实现链接的解析、拼合与生成。

4、urlencode

这里我们再介绍一个常用的方法——urlencode,它在构造GET请求参数的时候非常有用.
实例如下：

from urllib.parse import urlencode
paramg = {'name':'gerney','age':25}
base_url ='https://Man.baidu.com?'
url=base_url+urlencode(paramg)
print(url)

运行结果如下：

https://Man.baidu.com?name=gerney&age=25

可以看到，参数已经成功地由字典类型转化为GET请求参数。
urlencode方法非常常用。有时为了更加方便地构造参数，我们会事先用字典将参数表示出来，然后将字典转化为URL的参数时，只需要调用该方法即可。

在这里插入图片描述

📢文章下方有交流学习区！一起学习进步！💪💪💪
📢首发CSDN博客，创作不易，如果觉得文章不错，可以点赞👍收藏📁评论📒
📢你的支持和鼓励是我创作的动力❗❗❗

原文地址：https://blog.csdn.net/AOAIYI/article/details/136876114

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：C#学习笔记1：C#基本文件结构与语法
下一篇：【prometheus-operator】k8s监控redis

PCL 三维重建 RBF移动立方体三维重建算法
RBF（径向基函数）Marching Cubes算法是一种基于RBF插值的方法，用于从点云数据中提取三维表面。这种算法结合了传统的Marching Cubes算法和径向基函数的优势，能够处理复杂的点云
阅读更多2024-11-19
Argo workflow 拉取git 并使用pvc共享文件
第一个任务（拉取 Git 仓库）：这个任务将使用 git 命令克隆指定的 Git 仓库。第二个任务（读取 Git 文件）：这个任务会读取第一个任务拉取的 Git 仓库中的文件。我们将使用 Argo W
阅读更多2024-11-19
java计算机毕业设计选题参考3000篇
【294】springboot+jpa+layui学生住宿管理系统mysql学生寝室分配系统含文档。基于微信小程序的社区车位租赁系统的设计与实现+springboot后台weixin200。【483】
阅读更多2024-11-19
《Python网络安全项目实战》项目6 编写密码工具程序_练习题(2)答案
《Python网络安全项目实战》项目6 编写密码工具程序_练习题(2)答案
阅读更多2024-11-19
三种方式js的引入
1.js的组成部分：BOM(browser object model)浏览器对象模型、DOM(document object model)文档对象模型、ECMAScript。2.js的引入方式:行内式
阅读更多2024-11-19
使用MQTTX连接新版ONENet
使用mqtt连接新版的onenet 教程包含产品创建设备创建，关键参数获取，token软件获取，token生成，mqttx软件的下载与使用数据流的上传等手把手操作帮助你上云
阅读更多2024-11-19
深度学习之其他常见的生成式模型
自回归模型通过对图像数据的概率分布pdataxpdatax进行显式建模，并利用极大似然估计优化模型。pdatax∏i1npxi∣x1x2xi−1pdataxi1∏npxi∣x1x2..
阅读更多2024-11-19
MySQL表的新增与查询
这里的值要和列的个数和类型相匹配使用'或者"来表示字符串。
阅读更多2024-11-19
Vue-组件三大组成&组件通信
style的默认样式是作用到哪里的？scoped的作用是什么？style中推不推荐加scoped？data写成函数的目的是什么？组件通信，就是指组件与组件之间的数据传递组件的数据是独立的，无法直接访问
阅读更多2024-11-19
Python爬虫学习路线精简大纲！！！
Python爬虫学习路线精简大纲！！！
阅读更多2024-11-19

python网络爬虫实战教学——urllib的使用（3）

文章目录

专栏导读

1、urlsplit

2、urlunsplit

3、urljoin

4、urlencode

相关文章