大模型学习笔记 - 第一期 - Milvus向量数据库

🕗 发布于 2025-01-21 03:19 学习笔记 milvus 算法 数据库

大模型学习笔记 - 向量数据库

传统文字检索(无嵌入)面临的困境

1. 用户和商户表述差异

如果商户维护了一个名为"带宠物"的设施服务标签，如果有一部分用户的输入是"能够带宠物"，相关的设施服务和酒店就无法被搜索到。

在这里插入图片描述

用户和商户表述差异示例图

2. 不同语种的表述差异

当语种不同的时候，相同意思的搜索可能检测不到。

在这里插入图片描述

不同语种的表述差异示例图

3. 不同背景下的音译表述差异

由于音译表述的差异，用户可能使用不同的拼写或注音来搜索同一个词或短语，如果搜索引擎无法正确理解用户的音译表述，用户换一种音译翻译词搜索就无法找到相应的结果。

在这里插入图片描述

不同背景下的音译表述差异示例图

向量检索

对于上述的这些问题，通常尝试的是对一些词的额外可能会搜索的词也进行维护(也就是各类同义词等等)，但是这样的工程量非常大，所以想着尝试一些其他方式。
通过上面的问题分析，可以看到，携程酒店搜索面临着泛化召回和模糊召回的场景需求。为了能够满足需求，团队考虑了使用向量查询来帮助实现更准确的搜索。向量查询是一种基于向量空间模型的信息检索方法，其基本思想是将查询和文档表示为向量，通过计算它们之间的相似度来确定匹配程度，以此来召回与查询最相关的文档。

在这里插入图片描述

向量检索的测试结果

通过上面的一些测试示例，可以发现，对于计算向量之间的距离(相似度)等方式进行检索，可以做到比较精准的查询，哪怕表述存在不同。

向量化服务

向量化服务主要包含三个方面的工作，即在线向量服务、实体数据离线向量化和向量化召回服务。

在线向量服务：通过文本在线向量化服务，用户可以将文本数据转换为数值向量表示，从而方便进行文本相似度计算等任务。使用的是 multilingual-e5 预训练的文本向量模型，可以直接使用这些模型进行文本向量化，无需自行训练。

实体数据离线向量化：该服务将实体数据转化为向量形式并做持久化，以便后续的向量检索和召回使用。

在这里插入图片描述

向量的离线存储示例

向量化召回服务：向量化召回服务会对召回的向量会进行相关的依赖检查，确保召回的实体满足业务需求。最终，该服务会返回 TOPK 个最相似的满足依赖检查的实体。

在这里插入图片描述

用户使用召回示例

参考

用户案例分析：用户案例｜向量引擎在携程酒店搜索中的应用场景和探索 - Zilliz 向量数据库

b站视频：大模型落地，你必须要懂的Milvus向量数据库_哔哩哔哩_bilibili

原文地址：https://blog.csdn.net/m0_62030579/article/details/145248869

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：linux usb 驱动 - hcd 驱动框架
下一篇：Redis 数据存储类型

谈一谈前端构建工具的本地代理配置（Webpack与Vite）
使用代理之后，在浏览器中，前端访问还是原来的非跨域的接口，但实际请求后端的url可能早就被改的面目全非了。
阅读更多2025-01-21
摄像头模块如何应用在宠物产品领域
玩具中的摄像头可以检测宠物的接近和互动动作，例如当宠物拍打或者追逐玩具时，摄像头会捕捉宠物的表情和动作。主人可以通过手机看到宠物玩耍玩具时的可爱模样，并且可以根据宠物的反应来调整玩具的设置，如改变玩具
阅读更多2025-01-21
Kotlin 2.1.0 入门教程（三）
Kotlin 2.1.0 入门教程（三）。
阅读更多2025-01-21
Arcgis Pro安装完成后启动失败的解决办法
之前安装的Arcgis Pro 今天突然不能使用了，之前是可以使用的，自从系统更新了以后就出现了这个问题...
阅读更多2025-01-21
Ubuntu 完整卸载 WPS Office (deb包安装版)
Ubuntu完整卸载WPSOffice(deb包安装版)
阅读更多2025-01-21
力扣11-最后一个单词的长度
由若干单词组成，单词前后用一些空格字符隔开。是指仅由字母组成、不包含任何空格字符的最大子字符串。最后一个单词是长度为 6 的“joyboy”。最后一个单词是“World”，长度为 5。最后一个单词是“
阅读更多2025-01-21
云原生作业（四）
简述mysql主从复制原理及其工作过程，配置一主两从并验证。
阅读更多2025-01-21
LeetCode：37. 解数独
LeetCode：37. 解数独
阅读更多2025-01-21
leetcode763.划分字母区间
思路：遍历字符串，得到每个字母第一次和最后一次出现的下标位置。map<字母，[字母第一次出现位置，字母最后一次出现位置]>为保证题目“同一字母最多出现在一个片段中”，合并所有字母出现区间，
阅读更多2025-01-21
Datawhale组队学习笔记task2——leetcode面试题
教程内容来自Datawhale开源教程：https://github.com/datawhalechina/leetcode-notes/blob/main/docs/ch07/index.md在线学
阅读更多2025-01-21

大模型学习笔记 - 第一期 - Milvus向量数据库

大模型学习笔记 - 向量数据库

目录

传统文字检索(无嵌入)面临的困境

1. 用户和商户表述差异

2. 不同语种的表述差异

3. 不同背景下的音译表述差异

向量检索

向量化服务

参考

相关文章