稀疏向量 milvus存储检索RAG使用案例

🕗 发布于 2024-09-20 17:13 milvus 稀疏向量 rag 大模型

参考：
https://milvus.io/docs/hybrid_search_with_milvus.md

milvus使用不方便：
1）离线计算向量很慢BGEM3EmbeddingFunction
2）milvus安装环境支持很多问题，不支持windows、centos等

在线demo：
https://colab.research.google.com/drive/1OGvOyJH2NUQB1Ft3rqAFLQ_5Dzi8aHk_?usp=sharing

暂时只能在linux ubuntu或mac上使用，因为windows、centos暂时不支持milvus_lite：https://github.com/milvus-io/milvus/issues/34854

安装：

pip install --upgrade pymilvus "pymilvus[model]"  -i https://pypi.tuna.tsinghua.edu.cn/simple

environs-9.5.0 milvus-lite-2.4.10 milvus-model-0.2.5 onnxruntime-1.16.3 pymilvus-2.4.6

数据：

 wget http://qim.fs.quoracdn.net/quora_duplicate_questions.tsv

代码：

##data
import pandas as pd

file_path = "quora_duplicate_questions.tsv"
df = pd.read_csv(file_path, sep="\t")
questions = set()
for _, row in df.iterrows():
    obj = row.to_dict()
    questions.add(obj["question1"][:512])
    questions.add(obj["question2"][:512])
    if len(questions) > 500:  # Skip this if you want to use the full dataset
        break

docs = list(questions)

print(docs[0])

# bge m3
from milvus_model.hybrid import BGEM3EmbeddingFunction

ef = BGEM3EmbeddingFunction(use_fp16=False, device="cpu")
dense_dim = ef.dim["dense"]

docs_embeddings = ef(docs)
##创建向量库
from pymilvus import (
    connections,
    utility,
    FieldSchema,
    CollectionSchema,
    DataType,
    Collection,
)

connections.connect(uri="./milvus.db")

fields = [
    # Use auto generated id as primary key
    FieldSchema(
        name="pk", dtype=DataType.VARCHAR, is_primary=True, auto_id=True, max_length=100
    ),
    # Store the original text to retrieve based on semantically distance
    FieldSchema(name="text", dtype=DataType.VARCHAR, max_length=512),
    # Milvus now supports both sparse and dense vectors,
    # we can store each in a separate field to conduct hybrid search on both vectors
    FieldSchema(name="sparse_vector", dtype=DataType.SPARSE_FLOAT_VECTOR),
    FieldSchema(name="dense_vector", dtype=DataType.FLOAT_VECTOR, dim=dense_dim),
]
schema = CollectionSchema(fields)

col_name = "hybrid_demo"
if utility.has_collection(col_name):
    Collection(col_name).drop()
col = Collection(col_name, schema, consistency_level="Strong")

sparse_index = {"index_type": "SPARSE_INVERTED_INDEX", "metric_type": "IP"}
col.create_index("sparse_vector", sparse_index)
dense_index = {"index_type": "AUTOINDEX", "metric_type": "IP"}
col.create_index("dense_vector", dense_index)
col.load()

#插入数据
for i in range(0, len(docs), 50):
    batched_entities = [
        docs[i : i + 50],
        docs_embeddings["sparse"][i : i + 50],
        docs_embeddings["dense"][i : i + 50],
    ]
    col.insert(batched_entities)
print("Number of entities inserted:", col.num_entities)

##数据查询



from pymilvus import (
    AnnSearchRequest,
    WeightedRanker,
)


def dense_search(col, query_dense_embedding, limit=10):
    search_params = {"metric_type": "IP", "params": {}}
    res = col.search(
        [query_dense_embedding],
        anns_field="dense_vector",
        limit=limit,
        output_fields=["text"],
        param=search_params,
    )[0]
    return [hit.get("text") for hit in res]


def sparse_search(col, query_sparse_embedding, limit=10):
    search_params = {
        "metric_type": "IP",
        "params": {},
    }
    res = col.search(
        [query_sparse_embedding],
        anns_field="sparse_vector",
        limit=limit,
        output_fields=["text"],
        param=search_params,
    )[0]
    return [hit.get("text") for hit in res]


def hybrid_search(
    col,
    query_dense_embedding,
    query_sparse_embedding,
    sparse_weight=1.0,
    dense_weight=1.0,
    limit=10,
):
    dense_search_params = {"metric_type": "IP", "params": {}}
    dense_req = AnnSearchRequest(
        [query_dense_embedding], "dense_vector", dense_search_params, limit=limit
    )
    sparse_search_params = {"metric_type": "IP", "params": {}}
    sparse_req = AnnSearchRequest(
        [query_sparse_embedding], "sparse_vector", sparse_search_params, limit=limit
    )
    rerank = WeightedRanker(sparse_weight, dense_weight)
    res = col.hybrid_search(
        [sparse_req, dense_req], rerank=rerank, limit=limit, output_fields=["text"]
    )[0]
    return [hit.get("text") for hit in res]



query = input("Enter your search query: ")
print(query)

query_embeddings = ef([query])

dense_results = dense_search(col, query_embeddings["dense"][0])
sparse_results = sparse_search(col, query_embeddings["sparse"][[0]])
hybrid_results = hybrid_search(
    col,
    query_embeddings["dense"][0],
    query_embeddings["sparse"][[0]],
    sparse_weight=0.7,
    dense_weight=1.0,
)

在这里插入图片描述

原文地址：https://blog.csdn.net/weixin_42357472/article/details/142380782

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【CMake】使用CMake在Visual Studio内构建多文件夹工程
下一篇：Linux常用命令（四）

JACM23 - A New Algorithm for Euclidean Shortest Paths in the Plane
本文关注的问题为计算几何学中的经典问题，即「在平面上给定一组两两不相交的多边形障碍物，寻找两点之间避开所有障碍物的欧几里得最短路径」，简单理解就是「含多边形障碍物的两点最短路问题」。
阅读更多2024-09-22
linux如何对c++进行内存分析
linux如何对c++进行内存分析
阅读更多2024-09-22
Mina protocol - 体验教程
零知识证明是一种密码学协议，允许证明者在不泄露任何额外信息的情况下，向验证者证明自己知道某个特定的秘密或信息。：zkCircuits 处理初始状态（State0），接受公共和私有输入，生成交易证明（T
阅读更多2024-09-22
springMvc的初始配置
mapper层（另外创建DataSourceJavaConfig ）3.统一放入IOC容器中。controller层。
阅读更多2024-09-22
17【Protues单片机仿真】基于51单片机的太阳能智能谷物翻晒机器人
基于51单片机，避障，低于50CM报警，LED灯亮起，自动翻晒用光敏电阻，光照强度大，电机转动，相当于翻晒粮食，远程控制用按键代替，按下去电机就转动，相当于翻晒粮食，然后光照强度和超声波的距离都在LC
阅读更多2024-09-22
大数据新视界 --大数据大厂之 Node.js 与大数据交互：实现高效数据处理
本文深入阐释 Node.js 与大数据交互。介绍 Node.js 优势，包括高效事件驱动和非阻塞 I/O 及丰富模块生态。阐述与大数据存储系统连接、与处理框架集成方式，通过实时数据分析平台和可视化应用
阅读更多2024-09-22
【C++】—— string模拟实现
学习了string的使用，总感觉了解不是很深厚；自己模拟实现string类来帮助自己理解。
阅读更多2024-09-22
iPhone16，超先进摄像头系统？丝滑的相机控制
iPhone 16将于9月20号正式开售，这篇文章我们来看下iPhone 16 在影像方面，有哪些升级和新feature。芯片：采用第二代 3纳米芯片，A18。摄像头配置：iPhone 16前置：索尼
阅读更多2024-09-22
lora 微调3B模型微调前有5G 量化f16 后最后导出模型容量变小了只有2G了，为什么？
通过量化、LoRA微调、剪枝和存储格式优化等方法的组合，最终导出的模型容量通常会比原始模型显著减少。从5G减少到2G是这些多重因素共同作用的结果。如果你有特定的工具或框架，可以查看其文档了解详细的模型
阅读更多2024-09-22
互联网技术的持续演进：从现在到未来
互联网技术的发展在过去的十年里已经发生了翻天覆地的变化，未来的进展只会更加令人期待。从5G、人工智能到物联网、区块链，各种新兴技术将会继续推动社会的数字化转型。无论是个人、企业还是政府，都将从这些技术
阅读更多2024-09-22

稀疏向量 milvus存储检索RAG使用案例

相关文章