scrapy爬虫基础

🕗 发布于 2024-09-28 17:00 scrapy 爬虫

一、初识

创建项目：

scrapy startproject my_one_project    # 创建项目命令
cd my_one_project                     # 先进去， 后面在里面运行
运行爬虫命令为：scrapy crawl tk

spiders下创建test.py

其中name就是scrapy crawl tk ，运行时用的


# spiders脚本
import scrapy

class TkSpider(scrapy.Spider):
    name = 'tk'                    # 运行爬虫命令为：scrapy crawl tk
    start_urls = ['https://www.baidu.com/']
    def parse(self, response, **kwargs):
        print(1111)
        print(response.text)

运行时：

[scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET https://www.baidu.com/>

so所以：

settings.py中

访问百度地址就设置这个
ROBOTSTXT_OBEY = False

不想看那么多东西，可以设置这个
LOG_LEVEL = 'ERROR'   #分别为 CRITICAL< ERROR < WARNING < INFO < DEBUG  (设置为 ERROR ,就不会展示INFO)

再次运行

二、内部如何请求的

在执行parse前，实际上是执行了 start_requests的，在这里面实现了请求。如下图1中的内容写了或者不写都是一样的效果。

但是写的话，可以在start_requests方法中，

发出请求之前执行一些额外的操作。如放一个cookie值、headers来请求

传递了cookie请求后就能获取响应了
请求发出之后，如获取本次请求使用的header

原文地址：https://blog.csdn.net/Ataoker/article/details/142596132

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Excel 绝对值怎么求？ABS 函数用法详解
下一篇：SpringBoot 属性大写无法绑定

PHP 中，将 JSON 数据与二进制数据之间进行相互转化主要涉及两个步骤：
要将 JSON 数据转换为二进制数据，首先需要将 JSON 数据解析成 PHP 数组或对象，然后使用 PHP 的。函数将二进制字符串转换为 PHP 数组或对象，然后将其编码为 JSON 数据。如果你只
阅读更多2024-09-28
JavaEE: 探索网络世界的核心-IP协议
13位分片偏移: 是分片相对于原始IP报文开始处的偏移.其实就是在表示当前分片在原报文中处在哪个位置.实际偏移的字节数是这个值 * 8 得到的.因此,除了最后一个报文之外,其他报文的长度必须是8的整数
阅读更多2024-09-28
数据库常见概念
PostgreSQL 支持联合索引和聚簇索引，联合索引可以加速多列条件的查询，而聚簇索引控制数据在磁盘上的排列。适当地使用这些索引可以提高查询性能。
阅读更多2024-09-28
BEV学习---LSS4-模型训练
LSS训练测试
阅读更多2024-09-28
SpringCloud第六章(服务保护CircuitBreaker) -2024
CircuitBreaker是断路器的意思，由于原来的SpringCoud的hystrix停更，所以springcloud社区推出了的新断路器，用来进行springcloud的服务降级、限流、熔断由于
阅读更多2024-09-28
ubuntu 开启root
【代码】ubuntu 开启root。
阅读更多2024-09-28
MySQL数据查询（基础）
SELECT语句用于从表中查询数据。可以选择特定的列，也可以选择所有列。：使用表示选择所有列。
阅读更多2024-09-28
区块链可投会议CCF C--FC 2025 截止10.8 附录用率
CCF C：2025：2023年 39 full and 2 short papers selected from 182 submissions.
阅读更多2024-09-28
第1章 C语言概述
4.打开项目后，右击"源文件"并选择"添加"的"新建项"6.在"hello_word"文件下编写代码并点击运行。1.打开
阅读更多2024-09-28
Git 与 GUI 工具
当我们对 Git 的提交、分支已经非常熟悉，可以熟练使用命令操作 Git 后，再使用 GUI 工具，就可以更高效。
阅读更多2024-09-28

scrapy爬虫基础

一、初识

二、内部如何请求的

相关文章