使用 HuggingFace 提供的 Elasticsearch 托管交叉编码器进行重新排名

🕗 发布于 2024-11-05 10:55 elasticsearch 大数据 搜索引擎全文检索 python

作者：来自 Elastic Jeff Vestal

了解如何使用 Hugging Face 的模型在 Elasticsearch 中托管和执行语义重新排序。

在这篇简短的博文中，我将向你展示如何使用 Hugging Face 中的模型在搜索时在你自己的 Elasticsearch 集群中执行语义重新排序。我们将使用 Eland 下载模型，从 Hugging Face 加载数据集，并使用检索器执行示例查询，所有这些都在 Jupyter 笔记本中完成。

概述

如果你不熟悉语义文本，请查看以下资源：

它是什么
为什么要使用它
如何创建推理 API 并将其连接到外部服务
如何使用检索器查询进行重新排名

请查看以下链接：

什么是语义重新排名以及如何使用它？
- 了解在搜索和 RAG 管道中使用语义重新排名的权衡
使用检索器在 Elasticsearch 中进行语义重新排名
- 本博客包含视频演示和入门所需的所有内容的概述。
Elastic 文档 - 语义重新排名
- 这个优秀的文档指南讨论了用例、编码器模型类型和 Elasticsearch 中的重新排名

本博客和随附笔记本中的代码也将帮助你入门，但我们不会深入讨论是什么和为什么。

另外，请注意，我将在下面展示代码片段，但自己做这件事的最佳方法是按照随附的笔记本进行操作。

步骤零

我还假设你有一个 Elasticsearch 集群或 serverless 项目，你将在本指南中使用它们。如果没有，请前往 cloud.elastic.co 并注册免费试用！你需要一个 Cloud ID 和 Elasticsearch API 密钥。

模型选择

第一步（真正的）是选择用于重新排名的模型。深入讨论选择模型和评估结果超出了本博客的范围。请注意，目前 Elasticsearch 仅支持跨编码（cross-encoder）器模型。

虽然没有直接涵盖模型选择，但以下博客很好地概述了评估搜索相关性。

评估搜索相关性（三部分系列）
搜索相关性调整：平衡关键字和语义搜索

对于本指南，我们将使用 cross-encoder/ms-marco-MiniLM-L-6-v2。该模型使用 MS Marco 数据集进行检索和重新排名。

模型加载

要将 Hugging Face 中的 NLP 模型加载到 Elasticsearch，你需要使用 Eland Python 库。

Eland 是 Elastic 的 Python 库，用于数据帧分析以及将监督和 NLP 模型加载到 Elasticsearch。它提供了一个熟悉的 Pandas 兼容 API。你可以参考文章来安装 Eland。

以下代码来自笔记本部分 “Hugging Face Reranking Model.”。

model_id = "cross-encoder/ms-marco-MiniLM-L-6-v2"

cloud_id = "my_super_cloud_id"
api_key = "my_super_secred_api_key!"

!eland_import_hub_model \
--cloud-id $cloud_id \
--es-api-key $api_key \
--hub-model-id $model_id \
--task-type text_similarity

Eland 没有特定的 “rerank” 任务类型；我们使用 text_similarity 类型来加载模型。

此步骤将在运行代码的本地下载模型，将其拆分，然后加载到你的 Elasticsearch 集群中。

切到

在笔记本中，你可以按照步骤设置集群以在下一节中运行重新排名查询。下载笔记本中显示的模型后的设置步骤如下：

使用重新排名任务创建推理端点
- 这还将在 Elasticsearch 机器学习节点上部署我们的重新排名模型
创建索引映射
从 Hugging Face - CShorten/ML-ArXiv-Papers 下载数据集
将数据索引到 Elasticsearch

重新排序时间！

一切设置完毕后，我们可以使用 text_similarity_reranker 检索器进行查询。文本相似性重新排序器是一个两阶段重新排序器。这意味着首先运行指定的检索器，然后将这些结果传递到第二个重新排序阶段。

笔记本中的示例：

query = "sparse vector embedding"

# Query with Semantic Reranker
response_reranked = es.search(
    index="arxiv-papers-lexical",
    body={
      "size": 10,
      "retriever": {
        "text_similarity_reranker": {
          "retriever": {
            "standard": {
              "query": {
                "match": {
                  "title": query
                }
              }
            }
          },
        "field": "abstract",
        "inference_id": "semantic-reranking",
        "inference_text": query,
        "rank_window_size": 100
      }
    },
    "fields": [
      "title", 
      "abstract"
    ], 
    "_source": False
    }
)

上述 text_similarity_reranker 的参数为：

retriever - 在这里，我们使用标准检索器进行词汇第一阶段检索的简单匹配查询。你也可以在此处使用 knn 检索器或 rrf 检索器。
field - 重新排名模型将用于相似性比较的第一阶段结果中的字段。
inference_id - 用于重新排名的推理服务的 ID。在这里，我们使用我们之前加载的模型。
inference_text - 用于相似性排名的字符串
rank_window_size - 模型将考虑的第一阶段的顶级文档数量。

你可能想知道为什么 `rank_window_size` 设置为 100，即使你最终可能只想要前 10 个结果。

在两阶段搜索设置中，初始词汇搜索为语义重新排序器提供了广泛的文档集以供评估。返回 100 个结果的较大集合增加了相关文档可供语义重新排序器识别并根据语义内容（而不仅仅是词汇匹配）重新排序的机会。这种方法弥补了词汇搜索在捕捉细微含义方面的局限性，使语义模型能够筛选出更广泛的可能性。

但是，找到正确的 `rank_window_size` 是一种平衡。虽然更大的候选集可以提高准确性，但也可能会增加资源需求，因此需要进行一些调整以在召回率和资源之间实现最佳权衡。

比较

虽然我不会在本简短指南中对结果进行深入分析，但可能引起普遍兴趣的是查看标准词汇匹配查询的前 5 个结果和上述重新排序查询的结果。

此数据集包含有关机器学习的 ArXiv 论文子集。列出的结果是论文的标题。

“评分结果” 是使用标准检索器的前 10 个结果

“重新排序结果” 是重新排序后的前 10 个结果

搜索 “sparse vector embedding” 的结果
	评分结果	重新排序结果
0	Compact Speaker Embedding: lrx-vector	Scaling Up Sparse Support Vector Machines by Simultaneous Feature and Sample Reduction
1	Quantum Sparse Support Vector Machines	Spaceland Embedding of Sparse Stochastic Graphs
2	Sparse Support Vector Infinite Push	Elliptical Ordinal Embedding
3	The Sparse Vector Technique, Revisited	Minimum-Distortion Embedding
4	L-Vector: Neural Label Embedding for Domain Adaptation	Free Gap Information from the Differentially Private Sparse Vector and Noisy Max Mechanisms
5	Spaceland Embedding of Sparse Stochastic Graphs	Interpolated Discretized Embedding of Single Vectors and Vector Pairs for Classification, Metric Learning and Distance Approximation
6	Sparse Signal Recovery in the Presence of Intra-Vector and Inter-Vector Correlation	Attention Word Embedding
7	Stable Sparse Subspace Embedding for Dimensionality Reduction	Binary Speaker Embedding
8	Auto-weighted Mutli-view Sparse Reconstructive Embedding	NetSMF: Large-Scale Network Embedding as Sparse Matrix Factorization
9	Embedding Words in Non-Vector Space with Unsupervised Graph Learning	Estimating Vector Fields on Manifolds and the Embedding of Directed Graphs

轮到你了

希望你明白将 Hugging Face 的重新排名模型整合到 Elasticsearch 中是多么容易，这样你就可以开始重新排名了。虽然这不是唯一的重新排名选项，但当你在隔离环境中运行、无法访问外部重新排名服务、想要控制成本或拥有一个特别适合你的数据集的模型时，它会很有帮助。

如果你还没有点击随附笔记本的众多链接之一，现在是时候了！

准备好自己尝试一下了吗？开始免费试用。

想要获得 Elastic 认证吗？了解下一次 Elasticsearch 工程师培训何时举行！

原文：Reranking with an Elasticsearch-hosted cross-encoder from HuggingFace - Search Labs

原文地址：https://blog.csdn.net/UbuntuTouch/article/details/143499194

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Android笔记(三十二)：封装一个毫秒级别倒计时View
下一篇：CAN通讯接口 8路电压和热电偶温度采集模块CAN-OPEN协议——DAM-C3038

【工具类】JAVA开发从SFTP服务器下载文件
SFTP工具类，打成JAR文件后直接放到服务器上执行。
阅读更多2024-11-05
【linux】HTTPS 协议原理
HHTPS协议
阅读更多2024-11-05
鸿蒙HarmonyOS开发：给应用添加基础类型通知和进度条类型通知（API 12）
通知旨在让用户以合适的方式及时获得有用的新消息，帮助用户高效地处理任务。显示接收到的短消息、即时消息等。显示应用的推送消息，如广告、版本更新等。显示当前正在进行的事件，如下载等。
阅读更多2024-11-05
Centos 网络接口打vlan标签
本次使用给bond打vlan标签，其实其他普通接口也一样。查询802.1q 模块是否加载。2.1. 创建bond配置文件。本次实验使用bond1 模式。给bond0 接口打标签。重启网络查看vlan标
阅读更多2024-11-05
libaom 源码分析：帧内方向预测模式
libaom 源码分析：帧内方向预测模式
阅读更多2024-11-05
java版CRM客户关系管理系统源码-CRM客户关系管理系统的技术架构与功能实现
本CRM客户关系管理系统通过整合待办事项、线索、客户、联系人、商机、合同、回款等多个功能模块，为企业提供了一套全面、高效的客户关系管理解决方案。系统采用先进的技术架构和灵活的配置方式，能够满足企业
阅读更多2024-11-05
【数学二】线性代数-矩阵-初等变换、初等矩阵
【数学二】线性代数-矩阵-初等变换、初等矩阵
阅读更多2024-11-05
京准时钟：无人机卫星信号安全防护隔离装置
京准时钟：无人机卫星信号安全防护隔离装置
阅读更多2024-11-05
Blender进阶：着色器节点
着色点着色点UV坐标取得UV中的x值，此值介于【0,1】将X值转成一个颜色颜色作为基础色，完成着色。每一个着色点，都执行一遍这套流程。最终完成整个面的着色。在着色时，每个点的颜色根据UV坐标计算得到
阅读更多2024-11-05
WPF开发，将引用的dll在编译时指向单独的文件夹。
在这种情况下，它将获取"引用的程序集"解决方案文件夹所引用的新dll，并在提交它们之前自动添加源代码控制跟踪(即，如果像我一样从Visual Studio中的解决方案资源管理器中提
阅读更多2024-11-05

使用 HuggingFace 提供的 Elasticsearch 托管交叉编码器进行重新排名

概述

步骤零

模型选择

模型加载

切到

重新排序时间！

比较

轮到你了

相关文章