【爬虫】Firecrawl对京东热卖网信息爬取（仅供学习）

🕗 发布于 2024-11-21 00:12 爬虫 python

项目地址

GitHub - mendableai/firecrawl: 🔥 Turn entire websites into LLM-ready markdown or structured data. Scrape, crawl and extract with a single API.

Firecrawl更多是使用在LLM大模型知识库的构建，是大模型数据准备中的一环（在Dify中会接触到）也是作为检索增强生成（Retrieval Augmented Generation）技术，简称 RAG（当前最火热的LLM应用方案）的一环。

在线体验

https://www.firecrawl.dev/

邮箱或其他方式登录后，点击Dashboard

然后可见自己的API Key

分析

1.用Firecrawl的Python SDK举例

使用方法：

1.通过官网进入获取自己的API Key（免费可用500次请求）

2.打开firecrawl中的Python SDK文件夹

可在里面构建.py用于测试的文件（部分test_开头的文件是博主自行构建用于测试的）

2.分析搜索地址（请勿大批量爬取影响网站正常运作）

https://re.jd.com/search?keyword=CCD&enc=utf-8

我们可以看到不同关键词搜索会改变地址栏的keyword=CCD，那么我们就可以通过更改地址栏keyword=？来更改网络页面。（可以在在线体验中先测试一下）
简单用代码表示如下

    keyword = "Dangerous people"
    try:
        # Crawl a website:
        crawl_status = app.crawl_url(
            # 京东
            f'https://re.jd.com/search?keyword={keyword}&enc=utf-8',
            params={
                'limit': 10,
                'scrapeOptions': {'formats': ['markdown', 'html']}
            },
        )

3.完整爬虫代码

配置好环境，更换自己的API Key和关键词keyword即可

from firecrawl import FirecrawlApp
import json
import urllib.parse
import re
from bs4 import BeautifulSoup


def get_value_in_html(text):
    """html取值，通过BeautifulSoup取对应的值"""
    soup = BeautifulSoup(text, 'html.parser')
    items = soup.find_all('li', {'clstag': lambda x: x and 'ri_same_recommend' in x})

    result = []
    for item in items:
        # 取img_k类的img标签的src属性作为图片链接
        pic_img = item.find('div', class_='pic').find('img', class_='img_k')['src']
        pic_img = f"https:{pic_img}"
        a_tag = item.find('div', class_='li_cen_bot').find('a')
        if a_tag is None:
            continue
        product_link = a_tag['href']
        price = a_tag.find('div', class_='commodity_info').find('span', class_='price')
        if price is not None:
            price = price.text.strip()
        else:
            price = ''
        title = a_tag.find('div', class_='commodity_tit')
        if title is not None:
            title = title.text.strip()
        else:
            title = ''
        comment_span = a_tag.find('div', class_='comment').find('span', class_='praise')
        if comment_span is not None:
            evaluation = comment_span.text.strip()
        else:
            evaluation = ''

        product_info = {
            'price': price,
            'title': title,
            'evaluation': evaluation
        }

        result.append({
            "pic_img": pic_img,
            "product_link": product_link,
            "product_info": product_info
        })

    return result


API_KEY = "..."
# 用登录后自己的API_KEY
app = FirecrawlApp(api_key=API_KEY)


if __name__ == '__main__':
    # 可更改关键词搜索其他
    keyword = "Dangerous people"
    # keyword_encode = urllib.parse.quote(keyword)
    try:
        # Crawl a website:
        crawl_status = app.crawl_url(
            # 京东热卖
            f'https://re.jd.com/search?keyword={keyword}&enc=utf-8',
            params={
                'limit': 10,
                'scrapeOptions': {'formats': ['markdown', 'html']}
            },
        )
        # markdown = crawl_status['data'][0]['markdown']
        # 使用html提取（提取方法用到bs4）
        html = crawl_status['data'][0]['html']

        response = {
            "result_list": get_value_in_html(html)
        }
        print(json.dumps(response, ensure_ascii=False))

    except Exception as e:
        print(f"链接firecrawl异常:{e}")

4.返回爬取数据

返回json数据如下

原文地址：https://blog.csdn.net/steamedobun/article/details/143887916

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：实时监控，智能分析：输电线路多目视频监控装置提升运维效率
下一篇：元数据管理和数据质量管理工具

深入理解 AWS Route 53 加权路由策略：实现多区域负载均衡
在当今的云计算环境中，有效管理和分配流量对于确保应用程序的高可用性和性能至关重要。AWS Route 53 的加权路由策略提供了一个强大的工具来实现这一目标。在本文中，我们将深入探讨加权路由策略的概念
阅读更多2024-11-21
Elasticsearch：如何部署文本嵌入模型并将其用于语义搜索
如何部署文本嵌入模型并将其用于语义搜索。它使你能够生成文本的向量表示并对生成的向量执行向量相似性搜索。示例中使用的模型在上公开可用。该示例使用来自的公共数据集。它由来自 Microsoft Bing
阅读更多2024-11-21
深入理解CRC：通信可靠性的关键
循环冗余校验（CRC, Cyclic Redundancy Check）是现代数据传输和存储中不可或缺的技术，用于提高系统的可靠性和数据完整性。CRC的强大之处在于其能够高效检测并定位传输错误，确保数
阅读更多2024-11-21
低速接口项目之串口Uart开发(一)——串口UART
在 RS-232 标准中，最常用的配置是八个数据位+无奇偶校验+一个停止位，按照一个完整的字节包括一位起始位、8 位数据位、一位停止位即总共十位数据来算，要想完整的实现这十位数据的发送，就需要 11个
阅读更多2024-11-21
网络安全基础
相对性、时效性、相关性、不确定性、复杂性以及重要性等。指网络系统的硬件、软件及其系统中的数据受到保护，不因偶然的或者恶意的原因而遭受到破坏、更改、泄露，系统连续可靠正常地运行，网络服务不中断。1、机密
阅读更多2024-11-21
Docker1：认识docker、在Linux中安装docker
Docker：快速构建、运行、管理应用的工具。简单来说，帮助我们部署项目、以及项目依赖的各种组件。Docker是一个典型的运维工具。以上就是在Linux中，安装docker的全部详细过程，感兴趣就关注
阅读更多2024-11-21
基于Springboot+Vue医院急诊系统(源码+PPT+LW+调试部署)
基于Spring Boot + Vue的医院急诊系统，旨在为患者提供便捷的医院急诊服务，同时提升医院的信息化管理水平。系统分为前台和后台两部分，前台功能包括医生信息、医院病房、医院论坛、医院资讯、个人
阅读更多2024-11-21
Gin 框架中的表单处理与数据绑定
Gin框架允许注册自定义验证规则。import ("regexp"// 注册自定义验证规则})首先，根据表单的需要定义一个或多个结构体。这些结构体应该清晰地反映表单数据的结构和类型
阅读更多2024-11-21
CAAS 和 IAAS
和是两种云服务模式，分别代表不同层次的云计算服务。
阅读更多2024-11-21
Spark 分布式计算中网络传输和序列化的关系（二）
Spark 中序列化和网络传输的优化直接关系到分布式计算的整体性能。结合高效的序列化工具（如 Kryo）和合理的网络传输策略（如压缩、分区优化），可以显著提高数据处理效率。中，网络传输和序列化是数据处
阅读更多2024-11-21