使用vllIm部署大语言模型

🕗 发布于 2024-07-13 15:45 机器学习

使用vllm部署大语言模型一般需要以下步骤：

一、准备工作

1. 系统要求

- 操作系统：常见的 Linux 发行版（如 Ubuntu、CentOS）或 Windows（通过 WSL）。

- GPU 支持：NVIDIA GPU 并安装了适当的驱动程序。

- 足够的内存和存储空间。

2. 安装依赖

- Python 3.8 及以上版本。

- CUDA 工具包（根据 GPU 型号选择合适的版本）。

二、安装 vllm

1. 创建虚拟环境（推荐）

- 使用 Conda：

复制

conda create -n vllm_env python=3.9 -y

conda activate vllm_env

2. 安装 vllm

- 通过 pip：

复制

pip install vllm

- 如果要使用 fast-attn 库以提高性能（需满足特定硬件和软件条件）：

复制

pip install flash-attn

三、下载大语言模型

您需要从合法的来源获取您想要部署的大语言模型文件，并将其放置在指定的目录中。

四、部署模型

1. 启动模型服务

- 假设模型文件位于 /path/to/your/model ，可以使用以下命令启动服务（在终端中执行）：

复制

CUDA_VISIBLE_DEVICES=0 nohup python -m vllm.entrypoints.openai.api_server --model /path/to/your/model --served-model-name your_model_name --dtype=half > vllm.log &

- 上述命令中：

- CUDA_VISIBLE_DEVICES=0 指定使用的 GPU 设备索引，如果有多块 GPU 可根据需要修改。

- --served-model-name 用于自定义模型在 API 中的名称。

- --dtype=half 表示以半精度加载模型以节省显存。

- > vllm.log 将服务的输出重定向到 vllm.log 文件，方便查看日志。

2. 确认服务启动成功

- 查看终端输出，如果看到类似以下的信息，则表示启动成功：

复制

(info 04-26 13:08:05 selector.py:28) using flash attention backend.

五、调用模型

1. 使用 curl 命令

- 以下是一个简单的示例，向模型发送请求：

复制

curl http://localhost:8000/v1/chat/completions \

-H "Content-Type: application/json" \

-d '{

"model":"your_model_name",

"messages": [

{"role":"system","content":"You are a helpful assistant."},

{"role":"user","content":"What is the meaning of life?"}

]

2. 使用 Python 代码

- 首先安装 openai 库：

复制

pip install openai

- 然后使用以下代码发送请求：

python 复制

import openai

openai.api_key = "empty"

openai.api_base = "http://localhost:8000/v1"

response = openai.ChatCompletion.create(

model="your_model_name",

messages=[

{"role":"system","content":"You are a helpful assistant."},

{"role":"user","content":"Explain quantum mechanics in simple terms."}

]

)

print(response)

六、监控和优化

1. 监控资源使用

- 可以使用 nvidia-smi 命令监控 GPU 的使用情况。

- 查看系统的内存使用情况，确保没有出现内存不足的情况。

2. 性能优化

- 根据模型和硬件的特点，调整 --dtype 参数或其他相关配置。

- 尝试不同的 batch 大小以找到最佳性能。

七、注意事项

1. 版权和许可

- 确保您拥有合法使用和部署所选大语言模型的权限。

2. 资源限制

- 密切关注系统资源的使用情况，避免因资源不足导致服务崩溃或性能下降。

3. 安全考虑

- 如果将服务暴露在公网，请注意采取适当的安全措施，如访问控制和加密。

希望以上内容能为您提供更详细和全面的帮助，如果您在部署过程中遇到任何问题，请参考 vllm 的官方文档和相关的技术论坛以获取更多支持。

原文地址：https://blog.csdn.net/zhugedali_/article/details/140400299

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【计算机毕业设计】基于Springboot的智能推荐卫生健康系统【源码+lw+部署文档】
下一篇：PHP禁止IP访问和IP段访问（代码实例）

Linux便捷查询使用手册第十二章：虚拟化与容器
虚拟化是指在单一硬件平台上运行多个虚拟计算机（虚拟机），每个虚拟机可以运行不同的操作系统和应用程序。虚拟化通过抽象物理硬件资源，使其能够在多个虚拟环境中共享。容器是轻量级的虚拟化技术，通过将应用及其依
阅读更多2024-11-16
Javaweb-day11案例（文件）
文件上传前端页面三要素1.在form表单中，要定义一个表单项，类型为file2.表单的提交方式必须得是POST方式下面是讲义里面的内容补充上传文件的原始form表单，要求表单必须具备以下三点（上传文件
阅读更多2024-11-16
深入理解 Linux top命令：用法详解与使用示例
linux topu命令界面各项介绍和一些组合命令介绍。
阅读更多2024-11-16
二叉树Golang
二叉树，深度优先搜索，广度优先搜索
阅读更多2024-11-16
Linux篇（权限管理命令）
在多用户计算机系统的管理中，权限是指某个特定的用户具有特定的系统资源使用权利在Linux 中分别有读、写、执行权限：权限针对文件权限针对目录读r表示可以查看文件内容；cat表示可以(ls)查看目录中存
阅读更多2024-11-16
【代码随想录day30】【C++复健】452. 用最少数量的箭引爆气球；435. 无重叠区间；763. 划分字母区间
而这也这是我想复杂的地方。
阅读更多2024-11-16
mysql存储过程模拟数据批量生成的函数模板
下面是个模板，需要自己。
阅读更多2024-11-16
使用 PyAnsys 在 Ansys 随机振动分析中检索螺栓连接中的力和应力
随机振动模拟通常用于评估组件承受运输过程中振动的能力。随机振动分析利用先前模态分析的频率和模式内容对通过功率谱密度 (PSD) 负载定义的频谱和功率内容进行线性叠加。在大多数装配模型中，螺栓连接（由求
阅读更多2024-11-16
C语言之MakeFile
定义: 变量名=变量值使用:取值;${变量名}或$(变量名)拼接:变量名+=值注意:1,makefile变量名可以以数字开头2,变量的大小是敏感的3,变量一般都在makefile的头部定义4,变量几乎
阅读更多2024-11-16
动态规划 —— 子数组系列-最大子数组和
53. 最大子数组和 - 力扣（LeetCode）
阅读更多2024-11-16

使用vllIm部署大语言模型

相关文章