【python】用 Scrapy 实现高效爬虫项目

🕗 发布于 2024-11-17 22:10 python scrapy 爬虫

用 Scrapy 实现高效爬虫项目

Scrapy 是一个功能强大的 Python 爬虫框架，以其高效、灵活、可扩展性而闻名。无论是处理简单的爬取任务，还是构建复杂的分布式爬虫项目，Scrapy 都能提供强有力的支持。本文将从 Scrapy 的核心概念、项目结构、优化技巧等方面，带你掌握用 Scrapy 构建高效爬虫的技巧。

一、Scrapy 的核心概念

要理解 Scrapy，首先需要掌握以下几个核心概念：

Spider: 爬虫类，定义爬取逻辑和处理逻辑。
Request: 发起 HTTP 请求，支持各种参数（如 headers、cookies 等）。
Response: 请求的结果，包含网页内容及相关信息。
Item: 数据结构，用于存储爬取到的内容。
Pipeline: 数据处理管道，用于清洗、存储数据。
Middleware: 中间件，用于处理请求和响应的行为。

二、快速搭建 Scrapy 项目

1. 创建项目

使用 scrapy startproject 命令快速生成项目模板：

scrapy startproject myproject

生成的项目结构如下：

myproject/
    scrapy.cfg           # 项目配置文件
    myproject/
        __init__.py
        items.py        # 定义数据结构
        middlewares.py  # 定义中间件
        pipelines.py    # 定义数据管道
        settings.py     # 项目设置
        spiders/        # 存放爬虫文件

2. 编写 Spider

Spider 是 Scrapy 的核心，用于定义爬取的逻辑。

创建一个简单的爬虫：

scrapy genspider example example.com

编辑 example.py：

import scrapy

class ExampleSpider(scrapy.Spider):
    name = "example"
    start_urls = ['http://example.com']

    def parse(self, response):
        for title in response.css('h1::text').getall():
            yield {'title': title}

运行爬虫：

scrapy crawl example

三、高效数据提取技巧

1. 使用 CSS 和 XPath 选择器

Scrapy 提供了便捷的 CSS 和 XPath 选择器，可以轻松提取网页内容：

CSS 示例：

titles = response.css('h1::text').getall()

XPath 示例：

titles = response.xpath('//h1/text()').getall()

2. 使用 Item 提取结构化数据

定义一个 Item 来存储爬取的数据：

# items.py
import scrapy

class ExampleItem(scrapy.Item):
    title = scrapy.Field()
    url = scrapy.Field()

在 Spider 中使用 Item：

from myproject.items import ExampleItem

def parse(self, response):
    item = ExampleItem()
    item['title'] = response.css('h1::text').get()
    item['url'] = response.url
    yield item

四、提升爬虫性能的设置和优化

1. 配置并发与延迟

在 settings.py 中配置以下参数来提升爬取速度：

# 设置并发数
CONCURRENT_REQUESTS = 16

# 降低爬取延迟
DOWNLOAD_DELAY = 0.5

# 每个域名的并发请求数
CONCURRENT_REQUESTS_PER_DOMAIN = 8

2. 启用持久化功能

Scrapy 提供了断点续爬的功能，可以通过以下命令启用：

scrapy crawl example --set JOBDIR=crawls/example

3. 启用缓存

对于开发和调试阶段，可以启用缓存以减少网络请求：

HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 86400  # 缓存 1 天

五、处理反爬的常见技巧

1. 设置 User-Agent

为避免被目标网站屏蔽，可以设置 User-Agent：

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'

2. 使用代理

通过设置代理来隐藏真实 IP：

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 543,
}

PROXY_POOL = [
    'http://123.123.123.123:8080',
    'http://111.111.111.111:8080',
]

import random

class ProxyMiddleware:
    def process_request(self, request, spider):
        request.meta['proxy'] = random.choice(PROXY_POOL)

3. 模拟浏览器行为

启用 scrapy-playwright 或 scrapy-selenium 模拟浏览器行为，处理 JavaScript 渲染的网站：

pip install scrapy-playwright

配置 settings.py：

DOWNLOAD_HANDLERS = {
    'http': 'scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler',
    'https': 'scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler',
}

PLAYWRIGHT_BROWSER_TYPE = 'chromium'

六、数据存储与导出

1. 导出为 CSV 或 JSON 文件

运行爬虫时直接导出数据：

scrapy crawl example -o output.json

2. 使用 Pipeline 存储到数据库

编辑 pipelines.py，将数据存入数据库：

import sqlite3

class SQLitePipeline:

    def open_spider(self, spider):
        self.connection = sqlite3.connect('example.db')
        self.cursor = self.connection.cursor()
        self.cursor.execute('CREATE TABLE IF NOT EXISTS data (title TEXT, url TEXT)')

    def close_spider(self, spider):
        self.connection.close()

    def process_item(self, item, spider):
        self.cursor.execute('INSERT INTO data (title, url) VALUES (?, ?)', (item['title'], item['url']))
        self.connection.commit()
        return item

启用 Pipeline：

ITEM_PIPELINES = {
    'myproject.pipelines.SQLitePipeline': 300,
}

七、监控与调试

1. 使用 `scrapy shell` 调试

scrapy shell 'http://example.com'

在交互环境中测试选择器和解析逻辑。

2. 启用日志记录

在 settings.py 中设置日志级别：

LOG_LEVEL = 'INFO'

八、分布式爬虫的实现

通过 scrapy-redis 实现分布式爬虫，使用 Redis 存储任务队列和爬取状态。

安装 scrapy-redis：

pip install scrapy-redis

配置爬虫使用 Redis 队列：

# settings.py
DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'
SCHEDULER = 'scrapy_redis.scheduler.Scheduler'
SCHEDULER_PERSIST = True
REDIS_URL = 'redis://localhost:6379'

在 Spider 中继承 RedisSpider：

from scrapy_redis.spiders import RedisSpider

class DistributedSpider(RedisSpider):
    name = 'distributed'
    redis_key = 'distributed:start_urls'

    def parse(self, response):
        yield {'url': response.url}

建议

Scrapy 是一个高效的爬虫框架，通过灵活的配置和扩展，可以轻松应对各种复杂场景。从基础的 Spider 编写到性能优化，再到分布式爬取，Scrapy 都为开发者提供了丰富的工具链。在实际项目中，根据具体需求选择合适的功能，可以最大化 Scrapy 的潜力。

九、Scrapy 实战：实现一个新闻爬虫

为了更好地理解 Scrapy 的使用，下面将通过一个实战案例，演示如何构建一个新闻爬虫，爬取指定新闻网站的文章标题、链接以及发布日期。我们将结合前面讲解的技巧，确保爬虫高效、稳定并能处理反爬措施。

1. 确定目标网站

假设我们要爬取一个新闻网站（例如 example.com），并提取以下信息：

文章标题
文章链接
文章发布日期

2. 创建 Scrapy 项目

首先，创建 Scrapy 项目：

scrapy startproject news_scraper

进入项目目录：

cd news_scraper

3. 编写 Spider

使用 scrapy genspider 创建一个新的爬虫：

scrapy genspider news_spider example.com

编辑 news_spider.py，编写爬虫逻辑：

import scrapy

class NewsSpider(scrapy.Spider):
    name = "news_spider"
    start_urls = ['http://example.com/news']

    def parse(self, response):
        for article in response.css('div.article'):
            title = article.css('h2 a::text').get()
            link = article.css('h2 a::attr(href)').get()
            date = article.css('span.date::text').get()

            yield {
                'title': title,
                'link': response.urljoin(link),
                'date': date
            }

        # 翻页逻辑
        next_page = response.css('a.next_page::attr(href)').get()
        if next_page:
            yield response.follow(next_page, self.parse)

4. 运行爬虫

运行爬虫并输出结果到 JSON 文件：

scrapy crawl news_spider -o news.json

5. 处理反爬

目标网站可能会有反爬机制，如 IP 限制、请求频率控制等。我们可以通过以下方式进行优化：

1. 设置 User-Agent

修改 settings.py 文件，设置 User-Agent 伪装成真实浏览器：

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'

2. 设置请求延迟

通过配置 DOWNLOAD_DELAY，降低爬取速度，减少被封禁的风险：

DOWNLOAD_DELAY = 1  # 1秒的延迟
CONCURRENT_REQUESTS = 8  # 设置并发请求数

3. 使用代理池

为了避免因频繁请求同一网站而被封，我们可以使用代理池。首先，安装 scrapy-proxies 库：

pip install scrapy-proxies

然后，在 settings.py 中配置代理：

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 543,
}

PROXY_POOL = [
    'http://123.123.123.123:8080',
    'http://111.111.111.111:8080',
    # 添加更多代理地址
]

import random

class ProxyMiddleware:
    def process_request(self, request, spider):
        request.meta['proxy'] = random.choice(PROXY_POOL)

4. 启用缓存

为了提高开发效率，避免频繁请求，启用缓存：

HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 86400  # 缓存1天

6. 数据存储与清洗

1. 存储到数据库

如果数据量较大，可以将数据存储到数据库中，而不是直接导出到文件。我们可以通过 Scrapy 的 Pipeline 功能将数据存入 SQLite 数据库。

首先，创建一个数据库 Pipeline：

# pipelines.py
import sqlite3

class SQLitePipeline:

    def open_spider(self, spider):
        self.connection = sqlite3.connect('news.db')
        self.cursor = self.connection.cursor()
        self.cursor.execute('CREATE TABLE IF NOT EXISTS news (title TEXT, link TEXT, date TEXT)')

    def close_spider(self, spider):
        self.connection.close()

    def process_item(self, item, spider):
        self.cursor.execute('INSERT INTO news (title, link, date) VALUES (?, ?, ?)', 
                            (item['title'], item['link'], item['date']))
        self.connection.commit()
        return item

在 settings.py 中启用该 Pipeline：

ITEM_PIPELINES = {
    'news_scraper.pipelines.SQLitePipeline': 1,
}

2. 数据清洗

如果从网页提取的数据不完全或者需要处理额外的字段（如日期格式化），可以在 Pipeline 中进行数据清洗。例如，将日期格式化为统一的标准格式：

from datetime import datetime

class DateFormatPipeline:

    def process_item(self, item, spider):
        item['date'] = datetime.strptime(item['date'], '%Y-%m-%d').strftime('%d/%m/%Y')
        return item

在 settings.py 中启用：

ITEM_PIPELINES = {
    'news_scraper.pipelines.DateFormatPipeline': 2,
    'news_scraper.pipelines.SQLitePipeline': 1,
}

7. 分布式爬虫（可选）

如果爬取的新闻量巨大，可以使用 scrapy-redis 来实现分布式爬虫。通过 Redis 存储 URL 队列并在多个爬虫实例之间共享任务。

首先，安装 scrapy-redis：

pip install scrapy-redis

在 settings.py 中进行配置：

DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'
SCHEDULER = 'scrapy_redis.scheduler.Scheduler'
SCHEDULER_PERSIST = True
REDIS_URL = 'redis://localhost:6379'

修改 Spider 以使用 Redis：

from scrapy_redis.spiders import RedisSpider

class RedisNewsSpider(RedisSpider):
    name = "redis_news_spider"
    redis_key = 'news:start_urls'

    def parse(self, response):
        for article in response.css('div.article'):
            title = article.css('h2 a::text').get()
            link = article.css('h2 a::attr(href)').get()
            date = article.css('span.date::text').get()
            yield {'title': title, 'link': link, 'date': date}

十、总结与展望

在这篇博客中，我们通过实战示例讲解了如何使用 Scrapy 构建高效的新闻爬虫项目。通过合理的配置、性能优化、反爬机制处理及数据存储管理，我们能确保爬虫高效、稳定并能够适应大规模的数据抓取需求。

关键技巧总结：

高效的数据提取：合理使用 CSS 和 XPath 选择器，提取结构化数据。
性能优化：通过设置并发、延迟、使用代理池等手段提升爬虫效率。
数据存储：将爬取的数据存储到数据库或文件中，确保数据持久化。
反爬机制：通过伪装 User-Agent、使用代理、模拟浏览器等手段绕过反爬措施。
分布式爬取：通过 Scrapy-Redis 实现分布式爬虫，处理大规模数据抓取任务。

通过这些技巧，你可以开发出一个高效、稳定、能够应对复杂挑战的 Scrapy 爬虫项目。

原文地址：https://blog.csdn.net/liaoqingjian/article/details/143816734

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：linux怎么查看网络带宽命令
下一篇：Go语言24小时极速学习教程（四）MySQL数据库的增删改查

【Linux】环境变量
环境变量与主函数参数
阅读更多2024-11-18
STL序列式容器之slist
STL是个双向链表（double linked list）。SGI STL另提供了一个单向链表（single linked list），名为slist。slist和list的主要差别在于，前者的迭代器
阅读更多2024-11-18
生产环境centos8 & Red Hat8部署ansible and 一键部署mysql两主两从ansible脚本预告
下载新的CentOS-Base.repo 到 /etc/yum.repos.d/ （这里用的CentOS 8.0）1.初始化磁盘为物理卷（PV）4.格式化逻辑卷为 XFS。5.挂载逻辑卷到 /db。3
阅读更多2024-11-18
AJAX入门
什么是 AJAX什么是 AJAX怎么用 AJAX语法：引入 axios.js：什么是 URL。
阅读更多2024-11-18
Visual Studio 2017 快捷键设置-批量注释和批量取消注释
设置Visual Studio 2017 快捷键，实现代码片段的批量注释和批量取消注释
阅读更多2024-11-18
uniapp自动注册机制：easycom
如果一个组件文件夹有多个组件文件，就需要在pages.json文件的easycom属性，批量引入注册到全局组件中。uniapp 框架提供了一种组件自动注册机制，只要你在 components 文件夹
阅读更多2024-11-18
动态规划 —— 子数组系列-等差数列划分
413. 等差数列划分 - 力扣（LeetCode）
阅读更多2024-11-18
单例模式详解
依赖注入是一种设计模式，通过将类的依赖项通过构造函数、属性或方法传入，而不是类自己创建依赖对象。
阅读更多2024-11-18
C++中的单例模式（Singleton）全面讲解与实际案例
通过单例模式，可以轻松实现全局统一管理、线程安全和资源共享。在多线程程序中，使用 C++11 的静态局部变量和互斥锁，可以确保日志记录器的安全性和稳定性。此代码是一个实际的应用案例，具有很高的实用性，
阅读更多2024-11-18
JVM--内存结构
PC Register，即程序计数器（Program Counter Register），是计算机处理器中的一个关键寄存器，也被称为指令计数器。它主要用于存放下一条指令所在单元的地址，是计算机能够连续
阅读更多2024-11-18

【python】用 Scrapy 实现高效爬虫项目

用 Scrapy 实现高效爬虫项目

一、Scrapy 的核心概念

二、快速搭建 Scrapy 项目

1. 创建项目

2. 编写 Spider

三、高效数据提取技巧

1. 使用 CSS 和 XPath 选择器

2. 使用 Item 提取结构化数据

四、提升爬虫性能的设置和优化

1. 配置并发与延迟

2. 启用持久化功能

3. 启用缓存

五、处理反爬的常见技巧

1. 设置 User-Agent

2. 使用代理

3. 模拟浏览器行为

六、数据存储与导出

1. 导出为 CSV 或 JSON 文件

2. 使用 Pipeline 存储到数据库

七、监控与调试

1. 使用 scrapy shell 调试

2. 启用日志记录

八、分布式爬虫的实现

建议

九、Scrapy 实战：实现一个新闻爬虫

1. 确定目标网站

2. 创建 Scrapy 项目

3. 编写 Spider

4. 运行爬虫

5. 处理反爬

1. 设置 User-Agent

2. 设置请求延迟

3. 使用代理池

4. 启用缓存

6. 数据存储与清洗

1. 存储到数据库

2. 数据清洗

7. 分布式爬虫（可选）

十、总结与展望

关键技巧总结：

相关文章

1. 使用 `scrapy shell` 调试