【Python-爬虫】

🕗 发布于 2024-05-15 18:33 python

Python-爬虫

■ 爬虫分类
- ■ 1. 通用网络爬虫：（搜索引擎使用，遵守robots协议）
- - ■ robots协议（君子协议）
- ■ 2. 聚集网络爬虫：自己写的爬虫程序
■ urllib.request（请求模块）
- ■ 示例一：01_Request.py 向百度发送请求，并获取http响应码
- ■ 示例二：02_Request.py
- ■ 示例三：03_Request.py
■ 请求头（headers）User-Agent
- ■ 知识点一：向测试网站： http://httpbin.org/get 发送请求，**会返回我们的请求头User-Agent内容。**
- ■ 知识点二：写的py代码的User-Agent：是Python-urllib/3.7，这样子很容易被服务器知道你是爬虫访问的，所以在发送请求前指定一个User-Agent
■ urllib.parse（编码模块）
- ■ 知识点一：对中文进行编码后再发送请求。![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/e567fb9e69004ac0ac04c2e28f941a5e.png)
■ 正则表达式re模块
- ■ 1.
- ■ 2.
- ■ 3.
■ 数据持久化
- ■ 1. 数据持久化-CSV
- ■ 2. 数据持久化-MySQL
- ■ 3. 数据持久化-MongoDB
■ 多级页面抓取
- ■ 1.
- ■ 2.
- ■ 3.
■ requests模块
- ■ 1.
- ■ 2.
- ■ 3.
■ 互联网图片抓取
■ Chrome浏览器插件
■ xpath语法解析
- ■ 1. lxml+xpath解析提取数据
- ■ 2.
■ Json解析模块
- ■ 1.
- ■ 2.
- ■ 3.
■ Cookie
- ■ 1.
- ■ 2.
- ■ 3.
■ Selenium
- ■ 1.
- ■ 2.
- ■ 3.
■ 中间件
- ■ 1.
- ■ 2.
- ■ 3.
■ Scrapy
- ■ 1 Scrapy-框架原理
- ■ 2 Scrapy-
- ■ 3 Scrapy-
■ 分布式爬虫原理
- ■ 1.
- ■ 2.
- ■ 3.
■ 机器视觉
- ■ 1.
- ■ 2.
- ■ 3.
■ 极限滑块验证码破解
- ■ 1.
- ■ 2.
- ■ 3.
■ 移动端数据抓取
- ■ 1.
- ■ 2.
- ■ 3.

■ 爬虫分类

■ 1. 通用网络爬虫：（搜索引擎使用，遵守robots协议）

■ robots协议（君子协议）

robots协议：通过robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取
网页后面加 robots.txt 查看网站robots协议。

实例一：www.qq.com/robots.txt
在这里插入图片描述

■ 2. 聚集网络爬虫：自己写的爬虫程序

■ urllib.request（请求模块）

作用：向网站发送请求，即：我们平时在浏览器输入地址访问网站一样。

函数	作用	参数
urllib.request.urlopen(URL,timeout)	作用	URL：需要爬取的URL地址 timeout：设置等待超时时间，指定时间内未响应抛出超时异常。
urllib.request.Request()	包装请求，重构User-Agent，使用程序更新正常人类请求	URL：请求的URL地址 headers：添加请求头，类型为字典headers= {‘User-Agent’：}

■ 示例一：01_Request.py 向百度发送请求，并获取http响应码

from

■ 示例二：02_Request.py

from

■ 示例三：03_Request.py

from

在这里插入图片描述

■ 请求头（headers）User-Agent

作用： User-Agent 有游览器，操作系统信息。

■ 知识点一：向测试网站： http://httpbin.org/get 发送请求，会返回我们的请求头User-Agent内容。

在这里插入图片描述

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0

■ 知识点二：写的py代码的User-Agent：是Python-urllib/3.7，这样子很容易被服务器知道你是爬虫访问的，所以在发送请求前指定一个User-Agent

■ urllib.parse（编码模块）

作用：给URL地址中查询参数进行编码
在这里插入图片描述

■ 知识点一：对中文进行编码后再发送请求。

■ 正则表达式re模块

■ 1.

■ 2.

■ 3.

■ 数据持久化

■ 1. 数据持久化-CSV

■ 2. 数据持久化-MySQL

■ 3. 数据持久化-MongoDB

■ 多级页面抓取

■ 1.

■ 2.

■ 3.

■ requests模块

■ 1.

■ 2.

■ 3.

■ 互联网图片抓取

■ Chrome浏览器插件

■ xpath语法解析

■ 1. lxml+xpath解析提取数据

■ 2.

■ Json解析模块

■ 1.

■ 2.

■ 3.

■ Cookie

■ 1.

■ 2.

■ 3.

■ Selenium

■ 1.

■ 2.

■ 3.

■ 中间件

■ 1.

■ 2.

■ 3.

■ Scrapy

■ 1 Scrapy-框架原理

■ 2 Scrapy-

■ 3 Scrapy-

■ 分布式爬虫原理

■ 1.

■ 2.

■ 3.

■ 机器视觉

■ 1.

■ 2.

■ 3.

■ 极限滑块验证码破解

■ 1.

■ 2.

■ 3.

■ 移动端数据抓取

■ 1.

■ 2.

■ 3.

原文地址：https://blog.csdn.net/sinat_23896491/article/details/138734262

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

Libevent源码剖析之reactor
是一种事件驱动的并发处理模式，常用于网络服务器和事件循环系统中。它主要的功能是通过或者处理I/O操作，避免阻塞，并且能够高效处理的事件。，以下摘自原文：Theis ansingleor, whichf
阅读更多2024-10-20
IDEA如何配置自己的maven和maven设置阿里云仓库
我们在使用IDEA开发Java应用时，一般是需要配置maven仓库的，那么我们应该如何配置呢？此外，默认的maven仓库下载速度很慢，我们一般可以配置阿里云或者华为云仓库，这个又应该怎么配置呢？然后，
阅读更多2024-10-20
84.【C语言】数据结构之顺序表的头部插入和删除
注意头插时,元素会逐个向后移动,因此要先进行容量检查,再移动元素,最后不要忘记为有效元素个数size+1;头插N个元素的时间复杂度为O(N^2),运行效率不高,尽量避免头插,使用尾插(尾插N个元素的时
阅读更多2024-10-20
安装gpu版本的tensorflow-2.11
参考：https://medium.com/nerd-for-tech/installing-tensorflow-with-gpu-acceleration-on-linux-f3f55dd15a9
阅读更多2024-10-20
英语
给出英语面试的常见问题和答案当然可以。以下是一些英语面试中常见的提问及其参考答案：Can you introduce yourself? 答：Certainly. My name is [Your N
阅读更多2024-10-20
LiveKit 在Kylin Server V10 下离线安装和配置
首先简单介绍了 LiveKit,其次介绍了在 Kylin Server V10 下设置 Go 语言环境，编译 LiveKit 服务端以及 LiveKit 网页客户端的部署。
阅读更多2024-10-20
数据分箱：决策树得到特征的分箱区间后后怎么映射到原数据中？
在这个例子中，我们将原数据中的每个值与分箱区间进行比较，确定其所属的分箱，并将分箱结果映射回对应的区间描述，存储在新的列中。如果一个值不匹配任何分箱，可以根据需要进行特殊处理。
阅读更多2024-10-20
fanuc远程PNS启动
PNS & RSR区别前者是8bit=255 个程序后者是bitN对应8个程序。
阅读更多2024-10-20
HTTP 请求的请求体是什么
请求体是 HTTP 请求的重要组成部分，用于传输实际的数据内容。根据不同的应用场景和数据格式，可以选择适当的内容类型来组织请求体中的数据。在 Web 开发中，正确处理请求体中的数据对于实现 RESTf
阅读更多2024-10-20
Python PyQt5应用程序实现中英文切换
在Python中使用PyQt5实现应用程序的中英文切换功能，可以通过国际化（i18n）和本地化（l10n）的技术来实现。以下是一个详细的教程，包括UI界面多语言切换和程序内部字符串多语言切换两部分。
阅读更多2024-10-20

【Python-爬虫】

Python-爬虫

■ 爬虫分类

■ 1. 通用网络爬虫：（搜索引擎使用，遵守robots协议）

■ robots协议（君子协议）

■ 2. 聚集网络爬虫：自己写的爬虫程序

■ urllib.request（请求模块）

■ 示例一：01_Request.py 向百度发送请求，并获取http响应码

■ 示例二：02_Request.py

■ 示例三：03_Request.py

■ 请求头（headers）User-Agent

■ 知识点一：向测试网站： http://httpbin.org/get 发送请求，会返回我们的请求头User-Agent内容。

■ 知识点二：写的py代码的User-Agent：是Python-urllib/3.7，这样子很容易被服务器知道你是爬虫访问的，所以在发送请求前指定一个User-Agent

■ urllib.parse（编码模块）

■ 知识点一：对中文进行编码后再发送请求。

■ 正则表达式re模块

■ 1.

■ 2.

■ 3.

■ 数据持久化

■ 1. 数据持久化-CSV

■ 2. 数据持久化-MySQL

■ 3. 数据持久化-MongoDB

■ 多级页面抓取

■ 1.

■ 2.

■ 3.

■ requests模块

■ 1.

■ 2.

■ 3.

■ 互联网图片抓取

■ Chrome浏览器插件

■ xpath语法解析

■ 1. lxml+xpath解析提取数据

■ 2.

■ Json解析模块

■ 1.

■ 2.

■ 3.

■ Cookie

■ 1.

■ 2.

■ 3.

■ Selenium

■ 1.

■ 2.

■ 3.

■ 中间件

■ 1.

■ 2.

■ 3.

■ Scrapy

■ 1 Scrapy-框架原理

■ 2 Scrapy-

■ 3 Scrapy-

■ 分布式爬虫原理

■ 1.

■ 2.

■ 3.

■ 机器视觉

■ 1.

■ 2.

■ 3.

■ 极限滑块验证码破解

■ 1.

■ 2.

■ 3.

■ 移动端数据抓取

■ 1.

■ 2.

■ 3.

相关文章