LMDeploy量化部署

🕗 发布于 2024-10-07 19:45 人工智能 大模型量化

LMDeploy量化部署

使用LMDeploy进行模型部署的显存占用计算

基于Cuda12.2-conda镜像，在30% A100下实现。

使用LMDeploy进行模型部署的显存占用计算

如果一个模型是7B，若使用16位精度存储，那么权重参数占用显存计算如下：
对于一个7B（70亿）参数的模型，每个参数使用16位浮点数（等于 2个 Byte）表示，则模型的权重大小约为：

70×10^9 parameters×2 Bytes/parameter=14GB

70亿个参数×每个参数占用2个字节=14GB

lmdeploy默认设置cache-max-entry-count为0.8，即kv cache占用剩余显存的80%

若1.8B的16精度模型，那么权重占显存3.6G,若采用30%的A100，那么总显存24G，剩余显存为24-3.6G，KV缓存默认占16.32G,权重+缓存=19.92G

创建虚拟环境

conda create -n lmdeploy2  python=3.10 -y
conda activate lmdeploy2
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia -y
pip install timm==1.0.8 openai==1.40.3 lmdeploy[all]==0.5.3

链接模型

mkdir /root/models

ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2_5-1_8b-chat /root/models

启动对话

lmdeploy chat /root/models/internlm2_5-1_8b-chat

权重+缓存=19.92G，其他约占1G：
在这里插入图片描述

LMDeploy支持的模型压缩技术

KV-CACHE设置

lmdeploy chat /root/models/internlm2_5-1_8b-chat --cache-max-entry-count 0.4

观测显存占用情况，可以看到减少了约8GB的显存。
在这里插入图片描述

设置在线 kv cache int4/int8 量化

自 v0.4.0 起，LMDeploy 支持在线 kv cache int4/int8 量化，量化方式为 per-head per-token 的非对称量化。此外，通过 LMDeploy 应用 kv 量化非常简单，只需要设定 quant_policy 和cache-max-entry-count参数。目前，LMDeploy 规定 quant_policy=4 表示 kv int4 量化，quant_policy=8 表示 kv int8 量化。

lmdeploy serve api_server \
    /root/models/internlm2_5-1_8b-chat \
    --model-format hf \
    --quant-policy 4 \
    --cache-max-entry-count 0.4\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

在这里插入图片描述

W4A16 模型量化和部署

准确说，模型量化是一种优化技术，旨在减少机器学习模型的大小并提高其推理速度。量化通过将模型的权重和激活从高精度（如16位浮点数）转换为低精度（如8位整数、4位整数、甚至二值网络）来实现。

那么标题中的W4A16又是什么意思呢？

W4：这通常表示权重量化为4位整数（int4）。这意味着模型中的权重参数将从它们原始的浮点表示（例如FP32、BF16或FP16，Internlm2.5精度为BF16）转换为4位的整数表示。这样做可以显著减少模型的大小。
A16：这表示激活（或输入/输出）仍然保持在16位浮点数（例如FP16或BF16）。激活是在神经网络中传播的数据，通常在每层运算之后产生。

因此，W4A16的量化配置意味着：

权重被量化为4位整数。
激活保持为16位浮点数。

让我们回到LMDeploy，在最新的版本中，LMDeploy使用的是AWQ算法，能够实现模型的4bit权重量化。输入以下指令，执行量化工作。

lmdeploy lite auto_awq \
   /root/models/internlm2_5-1_8b-chat \
  --calib-dataset 'ptb' \
  --calib-samples 128 \
  --calib-seqlen 2048 \
  --w-bits 4 \
  --w-group-size 128 \
  --batch-size 1 \
  --search-scale False \
  --work-dir /root/models/internlm2_5-1_8b-chat-w4a16-4bit

有可能会出现加载calibrate数据集出现NoneType问题：

Loading calibrate dataset ...
Traceback (most recent call last):
  File "/root/.conda/envs/lmdeploy2/bin/lmdeploy", line 8, in <module>
    sys.exit(run())
  File "/root/.conda/envs/lmdeploy2/lib/python3.10/site-packages/lmdeploy/cli/entrypoint.py", line 36, in run
    args.run(args)
  File "/root/.conda/envs/lmdeploy2/lib/python3.10/site-packages/lmdeploy/cli/lite.py", line 139, in auto_awq
    auto_awq(**kwargs)
  File "/root/.conda/envs/lmdeploy2/lib/python3.10/site-packages/lmdeploy/lite/apis/auto_awq.py", line 80, in auto_awq
    vl_model, model, tokenizer, work_dir = calibrate(model,
  File "/root/.conda/envs/lmdeploy2/lib/python3.10/site-packages/lmdeploy/lite/apis/calibrate.py", line 216, in calibrate
    calib_loader, _ = get_calib_loaders(calib_dataset,
  File "/root/.conda/envs/lmdeploy2/lib/python3.10/site-packages/lmdeploy/lite/utils/calib_dataloader.py", line 302, in get_calib_loaders
    return get_ptb(tokenizer, nsamples, seed, seqlen)
  File "/root/.conda/envs/lmdeploy2/lib/python3.10/site-packages/lmdeploy/lite/utils/calib_dataloader.py", line 58, in get_ptb
    traindata = load_dataset('ptb_text_only', 'penn_treebank', split='train')
  File "/root/.conda/envs/lmdeploy2/lib/python3.10/site-packages/datasets/load.py", line 2074, in load_dataset
    builder_instance = load_dataset_builder(
  File "/root/.conda/envs/lmdeploy2/lib/python3.10/site-packages/datasets/load.py", line 1832, in load_dataset_builder
    builder_instance: DatasetBuilder = builder_cls(
TypeError: 'NoneType' object is not callable

在这里插入图片描述解决：需要将datasets降版本：

pip install datasets==2.20.0

优化结果

在这里插入图片描述
优化前的：

执行量化后的模型，对比下显存占用

lmdeploy chat /root/models/internlm2_5-1_8b-chat-w4a16-4bit/ --model-format awq

在这里插入图片描述貌似应该是11G左右，但实际占用20G，估计还是KV缓存问题（估计受激活保持16影响）

与量化后的模型对话
在这里插入图片描述
加上KV缓存，占用11G:

W4A16 量化+ KV cache+KV cache 量化

同时启用量化后的模型、设定kv cache占用和kv cache int4量化。

lmdeploy serve api_server \
    /root/models/internlm2_5-1_8b-chat-w4a16-4bit/ \
    --model-format awq \
    --quant-policy 4 \
    --cache-max-entry-count 0.4\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

在这里插入图片描述

原文地址：https://blog.csdn.net/wengad/article/details/142732859

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：开源2+1链动S2B2C商城小程序下社区团长的社群温度营造与商业价值实现
下一篇：Byzantine setting 拜占庭环境

力扣59.螺旋矩阵||
所有元素，且元素按顺时针顺序螺旋排列的。
阅读更多2024-10-08
健康信息管理：SpringBoot的创新应用
Java语言具有很好的面向对象性，可以符合人的思维模式进行设计，封装是将对象的属性和方法尽可能地隐藏起来，使得外界并不知道是如何实现的，外界能通过接口进行访问，继承是指每个类都会有一个父类，所有的子类
阅读更多2024-10-08
【CF2021E】Digital Village（All Version）
给你一张n个点m条边的无向图，有p个关键点。你需要选择k个点染黑，使得这p个关键点到这k个黑点的代价和最小。定义代价为两点之间边权最大的边的最小值。你需要求出 k = 1,2,…,n 的所有答案。
阅读更多2024-10-08
毕业设计深度学习昆虫识别系统（源码+论文）
🔥这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力
阅读更多2024-10-08
69.x的平方根 367.完全有效的平方数
经典平方根问题，用二分法慢慢逼近找开方值，注意mid*mid要用。
阅读更多2024-10-08
window 安装永洪BI Desktop版本教程
vividime Desktop是一款轻量级桌面智能数据分析工具,基于本机安装,省去繁琐的部署环节,即装即用.提供一站式、敏捷、高效的数据治理及可视化分析能力,可以帮助企业用户摆脱服务端产品的各种门限
阅读更多2024-10-08
tts（text to speech）使用 pyttsx3 实现文本转语音 - python 实现
tts（text to speech）使用 pyttsx3 实现文本转语音 - python 实现
阅读更多2024-10-08
程序员/IT行业从业者/科研人员【冬季养生指南】
中医理论认为，冬季寒气与肾相应，最易耗伤肾的阳气。而肾为先天之本，肾精气的强弱，决定着人的生长壮老已。冬天养肾不仅能增强人体抵御寒冷的能力，而且还可提高人体免疫力和抗病力，延缓衰老。
阅读更多2024-10-08
leetcode|刷算法线段树原理以及模板
线段树
阅读更多2024-10-08
Linux的root用户
但是发现提示“用户名不在 sudoers文件中，此事将被报告” .这是因为该普通用户不在sudoers文件中,所以要找到该文件，把普通用户添加入sudoers文件中，才能有sudo这个权限。操作如下:
阅读更多2024-10-08

LMDeploy量化部署

LMDeploy量化部署

使用LMDeploy进行模型部署的显存占用计算

创建虚拟环境

链接模型

启动对话

LMDeploy支持的模型压缩技术

KV-CACHE设置

设置在线 kv cache int4/int8 量化

W4A16 模型量化和部署

优化结果

执行量化后的模型，对比下显存占用

W4A16 量化+ KV cache+KV cache 量化

相关文章