使用scrapy框架爬取微博热搜榜

🕗 发布于 2024-12-25 13:08 python 开发语言

注：在使用爬虫抓取网站数据之前，非常重要的一点是确保遵守相关的法律、法规以及目标网站的使用条款。

（最底下附下载链接）

准备工作：

安装依赖：

确保已经安装了Python环境。

使用pip安装scrapy：pip install scrapy。

创建Scrapy项目：

打开命令行工具，在期望的位置创建一个新的Scrapy项目：scrapy startproject weiboHotSearch。

进入项目目录：cd weiboHotSearch。

设置User-Agent和其他headers：

修改settings.py文件中的USER_AGENT以及其他可能需要自定义的headers，模拟真实浏览器访问。

编写爬虫

1.创建Spider

2. 定义Item

在items.py文件中定义你想要抓取的数据字段。对于微博热搜榜单，我们可能需要如下字段：


import scrapy

class WeiboHotsearchItem(scrapy.Item):
    rank = scrapy.Field()        # 排名
    keyword = scrapy.Field()     # 热搜关键词
    url = scrapy.Field()         # 关键词链接
    hot_index = scrapy.Field()   # 热度指数
    category = scrapy.Field()    # 类别（如置顶、实时上升等）

3. 编写Spider

使用genspider命令生成一个爬虫模板并编辑它：

1. 导入必要的库

import scrapy
from ..items import WeiboHotsearchItem
from urllib.parse import urljoin
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

2. 爬虫类定义


class HotSearchSpider(scrapy.Spider):
    name = 'hot_search'
    allowed_domains = ['s.weibo.com']
    start_urls = ['https://s.weibo.com/top/summary']

3. 初始化方法


def __init__(self, *args, **kwargs):
    super(HotSearchSpider, self).__init__(*args, **kwargs)
    chrome_options = Options()
    chrome_options.add_argument("--headless")  # 无头模式运行
    chrome_options.add_argument("--disable-gpu")
    chrome_options.add_argument("--no-sandbox")
    self.driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()), options=chrome_options)

目的：初始化爬虫实例时，配置并启动一个无界面（headless）模式的Chrome浏览器实例，以避免在执行过程中弹出浏览器窗口。

4. 解析方法


def parse(self, response):
    self.driver.get(response.url)

    # 显式等待，直到所有的tr元素都出现
    wait = WebDriverWait(self.driver, 20)
    wait.until(EC.presence_of_all_elements_located((By.XPATH, '//table/tbody/tr')))

    # 滚动页面到底部以触发更多内容加载
    last_height = self.driver.execute_script("return document.body.scrollHeight")
    while True:
        self.driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(2)  # 等待新内容加载

        new_height = self.driver.execute_script("return document.body.scrollHeight")
        if new_height == last_height:
            break
        last_height = new_height

    for sel in self.driver.find_elements(By.XPATH, '//table/tbody/tr'):
        item = WeiboHotsearchItem()
        item['rank'] = sel.find_element(By.XPATH, './/td[@class="td-01"]').text if sel.find_elements(By.XPATH,
                                                                                                     './/td[@class="td-01"]') else None
        item['keyword'] = sel.find_element(By.XPATH, './/td[@class="td-02"]/a').text if sel.find_elements(By.XPATH,
                                                                                                          './/td[@class="td-02"]/a') else None
        href = sel.find_element(By.XPATH, './/td[@class="td-02"]/a').get_attribute('href') if sel.find_elements(
            By.XPATH, './/td[@class="td-02"]/a') else None
        item['url'] = urljoin('https://s.weibo.com', href) if href else None
        item['hot_index'] = sel.find_element(By.XPATH, './/td[@class="td-02"]/span').text if sel.find_elements(
            By.XPATH, './/td[@class="td-02"]/span') else None
        item['category'] = sel.find_element(By.XPATH, './/td[@class="td-03"]/i').text if sel.find_elements(By.XPATH,
                                                                                                           './/td[@class="td-03"]/i') else None
        yield item

目的：

使用Selenium加载网页并等待所有目标元素加载完成。

实现页面滚动以加载动态内容，确保获取完整数据。

遍历每个搜索结果项，提取排名、关键词、链接、热度指数和类别等信息，封装到WeiboHotsearchItem对象中，并将其生成为输出。

5. 关闭方法

def closed(self, reason):
    self.driver.quit()

目的：当爬虫关闭时，确保释放由Selenium创建的浏览器资源，即关闭浏览器实例。

4.配置Pipeline以保存至MongoDB


import pymongo

class MongoDBPipeline:

    collection_name = 'weibo_hotsearch'

    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DATABASE', 'items')
        )

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]

    def close_spider(self, spider):
        self.client.close()

    def process_item(self, item, spider):
        self.db[self.collection_name].insert_one(dict(item))
        return item

5. 更新Settings

# 启用pipelines
ITEM_PIPELINES = {
   'weibo_hotsearch.pipelines.MongoDBPipeline': 300,
}

# MongoDB连接设置
MONGO_URI = 'mongodb://localhost:27017/'
MONGO_DATABASE = 'weibo'

# 其他可选设置
ROBOTSTXT_OBEY = False  # 如果网站有robots.txt且不允许爬取，请谨慎设置为True
DOWNLOAD_DELAY = 1      # 设置下载延迟避免触发反爬虫机制

# 禁用默认的下载器中间件
DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}

6．查看Mongodb保存结果

mongodb-windows-x86下载

源码下载

原文地址：https://blog.csdn.net/m0_74016429/article/details/144635601

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

机器学习之pandas
Pandas 是机器学习中不可或缺的工具，提供了强大的数据处理和分析能力。在处理实际的机器学习任务时，Pandas 可以帮助你高效地进行数据清洗、特征工程、数据拆分等步骤。通过与其他机器学习工具（如
阅读更多2024-12-27
深度解析 Python 网络框架：Django、Tornado、Flask 和 Twisted
Python 作为一门优秀的高级语言，广泛应用于 Web 开发、数据科学、人工智能等领域。其中，网络框架是构建高效 Web 应用和服务的基础工具。Django、Tornado、Flask 和 Twis
阅读更多2024-12-27
centos 7 中Selenium安装最新版Chrome WebDriver
报错解决方案参考：https://blog.csdn.net/ycsdn10/article/details/122224632。下载并安装了 glibc_2.25 版本也是没有用的，centos 7
阅读更多2024-12-27
Java-将一个大列表均分成多个小列表，每个小列表包含10个元素
我们可以创建一个工具类 ListUtils，其中包含一个方法 partition，用于将一个大列表均分成多个小。在Java中，将一个大列表均分成多个小列表，每个小列表包含指定数量的元素，可以通过以下步
阅读更多2024-12-27
uni-app 中使用微信小程序第三方 SDK 及资源汇总
🎀uni-app是一个使用Vue.js开发所有前端应用的框架，开发者编写一套代码，可发布到 iOS、Android、Web（响应式）、以及各种小程序（微信/支付宝/百度/头条/飞书/QQ/快手/钉钉/
阅读更多2024-12-27
十三、e2studio VS STM32CubeIDE之“单独下载“程序
开发中需要频繁的下载程序，"在线调试"比"单独下载"时间长很多，单独下载可以提高工作效率keil、iar、stm32cubeide、rt-thread stud
阅读更多2024-12-27
云原生相关的 Go 语言工程师技术路线(含博客网址导航）
要成为云原生相关的 Go 语言工程师，需要深刻理解 Go 语言本身，并掌握容器化、Kubernetes、微服务架构、API 设计、CI/CD、监控与日志等云原生技术。此外，积极参与开源项目、学习云平台
阅读更多2024-12-27
Taro小程序开发性能优化实践
我们团队在利用Taro进行秒送频道小程序的同时，一直在探索性能优化的最佳实践。随着需求的不断迭代，项目中的性能问题难免日积月累，逐渐暴露出来影响用户体验。
阅读更多2024-12-27
Blender高效优化工作流程快捷小功能插件 Haggis Tools V1.1.5
Haggis Tools V1.1.5 是一款专为Blender设计的插件，旨在优化工作流程、减少单调和重复的任务，从而为艺术家节省时间。这款插件适用于多个版本的Blender，能够有效提升工作效率。
阅读更多2024-12-27
Blender真实灰尘粒子动画资产预设 Dust Particles Pro V1.2
Dust Particles Pro V1.2 是一款为Blender 3.5.1及更高版本设计的实时程序化粒子资产，由Geometry Nodes提供支持。这款资产不需要安装，因为它不是一个Pyth
阅读更多2024-12-27