向量数据库FAISS之七：GPU上的FAISS

🕗 发布于 2024-11-20 10:32 数据库 faiss

Faiss on the GPU

1.CPU/GPU 互操作

GPU Index 能够容纳宿主和设备的指针作为输入给 add() 和 search()

如果 add() 和 search() 的输入已经与索引位于同一 GPU 上，则不会执行任何副本，并且执行速度最快。

否则，将执行 CPU -> GPU 复制（或跨设备，如果输入驻留在与索引不同的 GPU 上），完成后会复制回所有结果（例如，对于 search()）。

1.转换

启用从/到GPU 的转换：

index_gpu_to_cpu,

index_cpu_to_gpu,

index_cpu_to_gpu_multiple

传输到 GPU 的两个函数使用一个可选的 GpuClonerOptions 对象，该对象可用于调整 GPU 存储对象的方式。默认值适用于内存不受限制的情况。当内存不足时，可以调整这些字段。

2.Python 中的转换

在 Python 中，index_gpu_to_cpu、index_cpu_to_gpu和index_cpu_to_gpu_multiple可用。

index_cpu_to_all_gpus：将 CPU 索引克隆到所有可用 GPU 或 ngpu=3 指定的多个 GPU
index_cpu_gpu_list：同样，但另外还需要一个可以用 gpus=[2, 4, 6] 指定的 gpu id 列表

index_cpu_to_gpu_multiple_py：实例化多个 GPU 索引时，最好分解 GPU 资源以避免浪费内存。该函数采用可以在索引之间重用的资源对象列表作为其第一个参数，

ngpu = 4
resources = [faiss.StandardGpuResources() for i in range(ngpu)]
index1_gpu = faiss.index_cpu_to_gpu_multiple_py(resources, index1)
index2_gpu = faiss.index_cpu_to_gpu_multiple_py(resources, index2)

2.实施的索引

索引类型 IndexFlat、IndexIVFFlat、IndexIVFScalarQuantizer 和 IndexIVFPQ 在 GPU 上实现为 GpuIndexFlat、GpuIndexIVFFlat、GpuIndexIVFScalarQuantizer 和 GpuIndexIVFPQ。

除了普通参数之外，它们还接受资源对象作为输入，以及索引存储配置选项和 float16/float32 配置参数。

1.限制

对于所有索引，k 和 nprobe <= 2048
对于 GpuIndexIVFPQ，允许的每个编码向量的代码大小为 1、2、3、4、8、12、16、20、24、28、32、48、56、64 和 96 字节。
内存通常是 GPU 上较稀缺的资源，因此使用 GPU 索引时需要注意一些事项
- 由于共享内存限制，每个代码 56 字节或更多的 GpuIndexIVFPQ 需要使用 float16 IVFPQ 模式（例如，48 x 2^8 x sizeof(float) 为 49152 字节）；
- GpuIndexIVFPQ 的预计算表可能会占用大量内存。如果您看到 cudaMalloc 错误，请禁用预计算表；
- 与倒排文件条目对应的索引可以存储在CPU上而不是GPU上，使用indices_options = INDICES_CPU
- 当内存非常紧张时，倒排列表的几何重新分配可能会溢出内存。为了避免这种情况（通常是为了提高添加速度），如果您知道索引有多大，请在 GpuIndexIVFPQ 或 GpuIndexIVFFlat 上调用reserveVecs。
- StandardGpuResources 对象默认保留 512 MiB（<= 4 GiB GPU）、1024 MiB（<= 8 GiB GPU）或最大 1536 MiB（所有其他 GPU）的 GPU 内存用于临时计算空间。如果太多，可以减小大小，但可能会降低速度。
- 添加或搜索大量向量应分批完成。典型的批量大小是 8192 左右的 2 的幂。
当使用index_cpu_to_gpu从 CPU 索引转换时，默认的 GpuCloneOptions 对象被调整为以内存使用为代价最大化速度。

3. GPU vs CPU 比较

GPU 通常比 CPU 实现有显著的加速，但有两个问题需要记住：

1.CPU <-> GPU 副本的开销

通常，CPU 通过总线连接到 GPU，该总线的带宽低于 CPU 连接到其主内存的带宽，尤其是 CPU 连接到其自己的缓存的带宽；
- 例如，PCIe3 的最大速度约为 12 GB/秒，而服务器级 CPU 通常具有 50+ GB/秒。
将填充的索引从 CPU 复制到 GPU 可能需要花费大量时间。只有当您在 GPU 上执行合理数量的查询时，您才会分摊此开销；
- 最好将索引复制到 GPU 并将其保留在那里，或者在 GPU 上创建索引并将其填充在那里。

2.批量大小和索引大小

GPU 通常比 CPU 具有更高的延迟，但和 CPU 相比具有更高的并行吞吐量和内存带宽。

如果可能的话，最好使用 CPU 或 GPU 进行批量查询，因为这可以在所有查询中分摊索引内存的接触。

Index size 应该相对较大才能看到 GPU 获胜。只有几千个向量的索引通常在 CPU 上总是更快（因为它可以容纳 CPU 的缓存），但数十万到数百万/数十亿个向量将非常适合分摊 GPU 的开销。

总结

小查询批量、小索引：CPU 通常更快
小查询批量，大索引：GPU 通常更快
大查询批量，小索引：两种方式都可以
大查询批量、大索引：GPU 通常更快

原文地址：https://blog.csdn.net/weixin_46034279/article/details/143893757

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：2024ICPC成都——B.Athlete Welcome Ceremony
下一篇：东土科技孵化的“网联汽车高速通信技术”前沿产品亮相2024WICV大会

框架pom依赖
这四个依赖项的主要作用是简化依赖管理，确保各个框架和组件之间的版本一致性。通过引入这些 BOM 文件，可以大大减少配置依赖的工作量，并确保项目的一致性和稳定性。：管理 Spring Framework
阅读更多2024-11-25
Python 编程开发（01）：Bash 命令行基本操作
python 介绍 Bash 的一些基础命令，在学习 Python 的路上必不可少，我们通过将 Bash 的系统级操作与 Python 的数据处理和编程效率相结合，可以创建高效、可扩展和易于维护的自动
阅读更多2024-11-25
k8s和docker版本对照表
Kubernetes (k8s) 和 Docker 是现代容器化技术中的两个重要组件。Kubernetes 是一个开源的容器编排平台，用于自动化容器化应用的部署、扩展和管理。Docker 是一个流行的
阅读更多2024-11-25
WPF中的Button按钮中的PreviewMouseLeftButtonDown事件和MouseLeftButtonDown的区别
的主要区别在于事件冒泡的方向和处理时机。允许父元素在目标元素之前处理事件，而。则是在目标元素上触发的事件。
阅读更多2024-11-25
XCopy: Boosting Weak Links for Reliable LoRa Communication
由于信号衰减和阻塞，LoRaWAN在长通信范围内遭受严重的性能下降。为了保证可靠的数据传输，LoRaWAN采用重传机制，对未确认的数据包进行多次重传，希望在恶劣的无线信道上至少成功发送一次。这种重传机
阅读更多2024-11-25
WPF——自定义ToolTip
前一天制作的图标按钮，在测试的过程中发现一个问题：为图标按钮添加的提示如下图所示，它的显示效果非常差，甚至不能看清文本内容，并且其字体与颜色也不是愚所希望的。
阅读更多2024-11-25
Linux命令思维导图
看到一个很不错的Linux命令思维导图，用机器翻译了一下，建议收藏备用。
阅读更多2024-11-25
1+X应急响应（网络）常见网络攻击-SQL注入：
ASCII表：堆叠查询：读文件写文件：
阅读更多2024-11-25
蓝桥杯每日真题 - 第23天
通过代数几何知识（斜率与截距）解决几何问题是本题的核心思路，利用两层嵌套循环枚举点对，函数封装了检查与存储逻辑，代码结构紧凑。
阅读更多2024-11-25
深挖`React`里程碑之作`AutoStore`与`helux`的渊源
自2023/11开始，经过超的开发,以近日正式发布里程碑之作AutoStore是一款设计精巧而优雅的现代化响应式状态管理库，提供了强大的状态管理能力，支持响应式计算属性异步计算表单双向绑定信号组件等功
阅读更多2024-11-25