Python_爬虫2_爬虫引发的问题

# 对于任何的网络爬虫来源，遵守如下协议
User-agent: * 
# Disallow 表示不允许访问
Disallow: /?* 
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
# 以下四个网络爬虫不允许爬取任何资源
User-agent: EtaoSpider 
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /

基本协议语法：

# 注释
* 代表所有
./代表根目录
User-agent: *# 代表的是那些爬虫
Disallow: /# 代表不允许爬虫访问的目录

其他网站的一些Robots协议（但并不是所有网站都有robots协议）：

百度：http://www.baidu.com/robots.txt
新浪新闻：http://news.sina.com.cn/robots.txt
腾讯：http://www.qq.com/robots.txt
腾讯新闻：http://news.qq.com/robots.txt
国家教育部：http://www.meo.edu.cn/robots.txt （注：无robots协议）

Robots协议的遵守方式

Robots的使用

网络爬虫：自动或人工识别robots.txt，再进行内容爬取。

约束性：Robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险。

对Robots协议的理解

爬取网页，玩转网页：

访问量很小：可以遵守

访问量较大：建议遵守

爬取网站，爬取系列网站：

非商业且偶尔：建议遵守

商业利益：必须遵守

爬取全网：

必须遵守

原文地址：https://blog.csdn.net/Jay_NanX/article/details/143787809

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：STM32 | 小区环境检测系统
下一篇：没有了

网络安全在线网站/靶场：全面探索与实践
CyberPatriot 是由美国空军协会（AFA）赞助的一项全国性网络安全教育计划，主要面向中小学生。该平台通过模拟真实的网络环境，帮助学生们学习如何检测和防御网络攻击。
阅读更多2024-11-17
Javascript垃圾回收机制-运行机制（大厂内部培训版本）
分代式机制把一些新、小、存活时间短的对象作为新生代，采用一小块内存频率较高的快速清理，而一些大、老、存活时间长的对象作为老生代，使其很少接受检查，新老生代的回收机制及频率是不同的，可以说此机制的出现很
阅读更多2024-11-17
算法练习：438. 找到字符串中所有字母异位词
找到字符串中所有字母异位词详解
阅读更多2024-11-17
ubuntu固定ip
ifconfig。
阅读更多2024-11-17
【每日 C/C++ 问题】
适用于两个相关的类型之间的自动转换，类型不相关时编译器会识别出来并报错。
阅读更多2024-11-17
sb.append(a + b)；与sb.append(a).append(b)；详解
sb.append(a + b);与sb.append(a).append(b); 详解
阅读更多2024-11-17
Java学习教程，从入门到精通，Java中super关键字的语法知识点及案例（31）
super是Java中的一个关键字，主要用于引用当前对象的父类或超类。通过super，可以在子类中访问父类的成员变量、方法和构造函数。
阅读更多2024-11-17
6. Keepalived配置Nginx自动重启，实现7x24提供服务
Keepalived配置Nginx自动重启，实现7x24提供服务实现步骤
阅读更多2024-11-17
unity3d————场景异步加载
本文介绍了Unity中场景切换的两种方法：同步切换和异步切换。同步切换在切换场景时会删除当前场景的所有对象并加载下一个场景的信息，可能导致卡顿。因此，异步切换被引入来解决这个问题。异步切换有两种实现方
阅读更多2024-11-17
Android Studio 控制台输出的中文显示乱码
安卓在调试阶段，需要查看app运行时的输出信息、出错提示信息。乱码，会极大的阻碍开发者前进的信心，不能及时的根据提示信息定位问题，因此我们需要查看没有乱码的打印信息。代码运行报错的时候，Build O
阅读更多2024-11-17

Python_爬虫2_爬虫引发的问题

爬虫引发的问题

网络爬虫的尺寸

网络爬虫引发的问题

网络爬虫的限制

Robots协议

案例：京东的Robots协议

基本协议语法：

Robots协议的遵守方式

Robots的使用

对Robots协议的理解

相关文章