理解vllm分布式推理服务中的多节点Multi-Node部署方式

🕗 发布于 2024-12-13 10:09 分布式

1. 多节点的含义

vllm官方文档（参考1）中给出了多节点“Multi-Node”多GPU部署的方案说明，注意该特性只是较新版本的vllm中才能使用。“Multi-Node”指的是，将大模型的推理和服务过程，分布在多个计算节点（服务器）上，进行推理的能力。这种分布式处理方式，能提升大模型在处理大量请求时的吞吐量、降低单个节点的负载，实现资源的有效利用。

一般来说，Multi-Node主要用于这种场景：k8s集群中，一个node的GPU资源不足以加载一个很大的模型，所以可以利用多个node的资源共同来加载模型

2. 单服务器部署多节点

vllm的参数--pipeline-parallel-size就是用来控制节点数的。如果将这个值设置为2，则最终就有2个模型同时做并发处理。官方文档（参考1）还举了个例子，如果服务器上有16个GPU，一个大模型需要8个GPU才能部署，则可以将--tensor-parallel-size参数的值设置为8，将--pipeline-parallel-size的值设置为2，这样就有2个模型同时做并发处理。

笔者有8块A800，我想部署8个Qwen2-7B模型做并发处理（一个模型只需要一块A800就能实现推理），则配置如下

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python -m vllm.entrypoints.openai.api_server 
--model /data/models/Qwen2-7B-Instruct/ 
--served-model-name aaa 
--trust-remote-code 
--tensor-parallel-size 1 
--pipeline-parallel-size 8 
--port 8000

经笔者实测，这样确实能将8个节点部署到一台服务器上，暴露的API接口也是统一的，也能让多模型支持并发。但实测发现，这样的部署方式，并不能带来提高并发的收益。

可见，单服务器部署多节点，每个节点只负责模型的一部分计算，而多个节点之间的协同工作是比较耗时的。这种单服务器多GPU卡的情况下，不如使用Single-Node Multi-GPU (tensor parallel inference)（参考1）能带来更大的并发处理收益。

注意：在上面这种场景下，笔者实测表面，多节点部署方式带来的收益，不如单节点单GPU的效果好。本文并非要推进使用多节点的部署方式，只是对这种方式展开讨论。

3. 参考

vllm分布式服务。https://docs.vllm.ai/en/latest/serving/distributed_serving.html
vllm默认参数值。https://docs.vllm.ai/en/v0.4.2/models/engine_args.html
Mistral-Large-Instruct-2407部署。https://blog.csdn.net//article/details/140691972

原文地址：https://blog.csdn.net/m0_74825678/article/details/144344274

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：python编程Day14-复习
下一篇：国科大web安全技术期末考试试卷(附参考答案）

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14

理解vllm分布式推理服务中的多节点Multi-Node部署方式

1. 多节点的含义

2. 单服务器部署多节点

3. 参考

相关文章