Milvus - 构建向量数据库并进行相似度查询

🕗 发布于 2024-09-23 18:51 milvus 数据库

向量相似度检索在大规模数据分析和机器学习应用中是一个非常关键的任务，特别是在处理文本、图像或其他嵌入向量时。Milvus 是一个高性能的开源向量数据库，专为存储和检索大规模向量数据设计。本文将介绍如何在 Docker 中安装 Milvus，并展示如何使用 Python 插入向量数据及进行向量相似度查询。

一、在 Docker 中安装并运行 Milvus

Milvus 提供了简便的安装方式，可以通过 Docker 快速启动 Milvus 实例。

1. 安装 Docker

确保你已在系统上安装了 Docker。如果未安装，可以访问 Docker 官方网站获取安装指南。

2. 在 Docker 中安装 Milvus

通过以下步骤下载并启动 Milvus 实例。

# 下载 Milvus 安装脚本
curl -sfL https://raw.githubusercontent.com/milvus-io/milvus/master/scripts/standalone_embed.sh -o standalone_embed.sh

# 启动 Milvus 容器
bash standalone_embed.sh start

运行该脚本后，一个名为 milvus-standalone 的 Docker 容器将启动，并在 19530 端口提供 Milvus 服务。嵌入式的 etcd 也将在同一容器中运行，使用 2379 端口进行服务。

3. 停止和删除 Milvus

你可以随时停止和删除 Milvus 容器及其数据：

# 停止 Milvus
bash standalone_embed.sh stop

# 删除 Milvus 容器和数据
bash standalone_embed.sh delete

二、创建向量集合

在 Milvus 中，数据存储在集合（Collection）中，类似于传统数据库中的表。集合可以包含多个字段，包括嵌入向量字段。接下来，我们将通过 Python 创建一个存储文本及其对应向量的集合。

1. 连接 Milvus 并定义集合

首先，我们通过 Python 的 pymilvus 库连接 Milvus 并创建集合。

from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection

# 连接 Milvus
connections.connect("default", host="localhost", port="19530")

# 定义集合 schema
fields = [
    FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),
    FieldSchema(name="user_id", dtype=DataType.INT64),
    FieldSchema(name="file_id", dtype=DataType.INT64),
    FieldSchema(name="content", dtype=DataType.VARCHAR, max_length=65535),
    FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=384),  # 384维向量
]

schema = CollectionSchema(fields, description="知识库向量数据")

# 创建集合
collection = Collection("knowledge_vector_data", schema=schema)

2. 创建索引

为提高查询效率，Milvus 支持为向量字段创建索引。下面是为向量字段创建索引的示例：

# 创建索引
index_params = {
    "metric_type": "IP",  # 内积，用于向量相似度
    "index_type": "IVF_FLAT",  # 索引类型
    "params": {"nlist": 128}
}
collection.create_index(field_name="embedding", index_params=index_params)
print("Index created.")

三、向量化、插入数据并进行相似度查询

在这个部分，我们将通过 Python 脚本，将测试句子向量化后插入 Milvus，并进行相似度查询。

1. 安装必要的 Python 库

首先，确保安装了 sentence-transformers 和 pymilvus 库：

pip install sentence-transformers pymilvus numpy

2. 完整的 Python 脚本

以下是一个完整的 Python 脚本，包含了向量化句子、插入数据和相似度查询的功能。

import numpy as np
from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection, utility
from sentence_transformers import SentenceTransformer

# 连接 Milvus
connections.connect("default", host="localhost", port="19530")

# 定义集合 schema
fields = [
    FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),
    FieldSchema(name="user_id", dtype=DataType.INT64),
    FieldSchema(name="file_id", dtype=DataType.INT64),
    FieldSchema(name="content", dtype=DataType.VARCHAR, max_length=65535),
    FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=384),  # 384维向量
]

schema = CollectionSchema(fields, description="知识库向量数据")

# 创建集合
collection = Collection("knowledge_vector_data", schema=schema)


# 向量化句子
def vectorize_sentences(sentences):
    model = SentenceTransformer('all-MiniLM-L6-v2')
    return model.encode(sentences)


# 插入向量到 Milvus
def insert_vectors_to_milvus(sentences, vectors):
    data = [
        # [None] * len(sentences),  # ID 自动生成
        [1] * len(sentences),  # user_id
        [1] * len(sentences),  # file_id
        sentences,  # content
        vectors.tolist()  # 向量
    ]

    collection.insert(data)
    print(f"Inserted {len(sentences)} sentences into Milvus")


# 创建索引以加速检索
def create_index():
    index_params = {
        "metric_type": "IP",  # 内积，用于向量相似度
        "index_type": "IVF_FLAT",  # 索引类型
        "params": {"nlist": 128}
    }
    collection.create_index(field_name="embedding", index_params=index_params)
    print("Index created.")


# 查询相似句子
def query_similar_sentences(target_vector, top_k=5):

    collection.load()

    search_params = {"metric_type": "IP", "params": {"nprobe": 10}}

    # 执行查询
    results = collection.search(
        data=[target_vector],
        anns_field="embedding",
        param=search_params,
        limit=top_k,
        output_fields=["content"]
    )

    for result in results[0]:
        print(f"Content: {result.entity.get('content')}, Similarity score: {result.score}")


if __name__ == "__main__":
    # 测试句子
    sentences = [
        "This is a test sentence.",
        "Another sentence for testing.",
        "Milvus vector database integration."
    ]

    # 向量化测试句子
    vectors = vectorize_sentences(sentences)

    # 插入向量到 Milvus
    insert_vectors_to_milvus(sentences, vectors)

    # 创建索引
    create_index()

    # 目标句子，进行相似度查询
    target_sentence = "This is a test sentence."
    target_vector = vectorize_sentences([target_sentence])[0]

    # 查询与目标句子最相似的句子
    query_similar_sentences(target_vector)

四、总结

通过本文的步骤，我们学习了如何在 Docker 中安装 Milvus，并使用 Python 向量化文本数据、插入数据和执行相似度查询。Milvus 是处理大规模向量数据的理想工具，特别适合于多媒体数据的相似度搜索。

原文地址：https://blog.csdn.net/fenglingguitar/article/details/142357290

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：传输层 IV（TCP协议——流量控制、拥塞控制）【★★★★】
下一篇：[Linux]：信号(上)

Python 函数用法与底层分析
也就是说，形式参数是在定义函数时使用的。传递可变对象的引用传递参数是可变对象（例如：列表、字典、自定义的其他可变对象等），实际传递的还是对象的引用。4：调用函数之前，必须要先定义函数，即先调用def创
阅读更多2024-09-23
webLogic反序列化漏洞CVE-2017-3506
webLogic反序列化漏洞CVE-2017-3506
阅读更多2024-09-23
相亲交易系统源码详解与开发指南
PHP和Laravel框架结合，构建高效、安全相亲交易平台。通过用户注册与登录、个人资料管理、匹配算法和消息通知等功能实现。关注安全性、性能优化和用户体验。
阅读更多2024-09-23
【二等奖论文】2024年华为杯研究生数学建模C题54页成品论文（后续会更新）
：摘要：随着国民经济发展和社会进步，基于电力电子技术的电能变换（得到迅速发展，尤其是新能源和信息通讯领域。
阅读更多2024-09-23
2024 年最新前端工程师 Vue3 框架详细教程（更新中）
vue 3 是 Vue.js 的最新版本，是一个用于构建用户界面的渐进式 JavaScript 框架。和 vue 2 相比，vue 3 引入了组合式 API，使开发者可以通过函数组织代码逻辑，适合处理
阅读更多2024-09-23
food facts食物营养成分数据集en.openfoodfacts.org.products
有个版本是2017年的，50M左右的，解开340M左右。最新的大约1G大小。
阅读更多2024-09-23
信息技术引领的智能化未来
随着信息技术的飞速发展，社会各个领域正在加速迈入智能化的新时代。信息技术的广泛应用，尤其是人工智能、大数据、物联网等前沿技术的创新与融合，正在从根本上改变着人们的生产和生活方式。本文将探讨信息技术在智
阅读更多2024-09-23
ubuntu安装StarQuant
【代码】ubuntu安装StarQuant。
阅读更多2024-09-23
UNet 眼底血管分割实战教程
✨🌈💫在医学影像分析领域，准确地分割眼底血管对于眼科疾病的诊断和治疗至关重要。本教程将详细介绍如何利用 UNet 进行眼底血管分割，包括云实例配置、数据集处理以及模型训练和测试。
阅读更多2024-09-23
适配器模式
将一个接口成客户希望的另一个接口，适配器模式使接口不兼容的那些类可以一起工作，适配器模式分为类结构型模式（继承）和对象结构型模式（组合）两种，前者（继承）类之间的耦合度比后者高，且要求程序员了解现有组
阅读更多2024-09-23