自学内容网 自学内容网

向量数据库及其在大模型应用落地中的作用

一、几个术语

需要弄清楚几个术语,比如向量、Embedding、向量检索、向量数据库,具体如下。
1.向量:为AI理解世界的通用数据形式,是多模态数据的压缩,任何模态数据都可以转为向量。文本直接送给计算机是无法认识的,而且是高维数据,需要对其进行向量化处理(即Embedding),处理完成后就形成一个个向量。
2.Embedding:将文字文本转化为保留语义关系的向量文本,相当于利用embedding模型对自然语言的压缩和总结。
3.向量检索:在海量存储的向量中找到最符合要求的Top N个目标。向量搜索是模糊匹配,返回的是相对最符合要求的N个数据,并没有精确标准答案。传统数据库索引是精确匹配。
4.向量数据库:用以高效存储和搜索向量。保证100%信息完整的情况下,通过向量嵌入函数(embedding) 精准描写非结构化数据的特征,从而提供查询、删除、修改、元数据过滤等操作。向量数据库因为可以为大模型提供记忆而需求倍增, AutoGPT更是把对向量数据库需求量推到了更高的水平, AutoGPT从一开始就是采用了OpenAI API+ Pinecone的模式。

二、向量数据库给大模型应用落地带来哪些作用
1.使得大模型具备记忆交互的应用能力

在大模型的应用中,不断涌现出B端对专用数据的需求、 C端对个性化与自动化的需求,带来给大模型增加记忆功能的刚性需求。通过存储增强模型记忆大量的聊天记录或行业知识库,后续在提问时将问题向量化,送入向量数据库中匹配相似的语料作为prompt,向量数据库通过提供记忆能力使prompt更精简和精准, 从而使返回结果更精准。
通过语料准备/问题输入/向量检索/prompt优化和结果返回实现基于大模型与向量知识库的问题答复。具体交互流程如下


原文地址:https://blog.csdn.net/hhue2007/article/details/140589383

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!