Llama - 量化

🕗 发布于 2024-07-20 08:24 llama Quantization 量化 Quanto AQLM

本文翻译整理自：
https://llama.meta.com/docs/how-to-guides/quantization/

文章目录

量化是机器学习中使用的一种技术，用于减少模型的计算和内存需求，使它们在服务器和边缘设备上的部署更加高效。
它涉及表示模型权重和激活，通常是32位浮点数，使用精度较低的数据，如16位浮点数、大脑浮点数16位、8位整数，甚至4/3/2/1位整数。
量化的好处包括更小的模型大小、更快的微调和更快的推理——在resource-constrained环境中特别有益。然而，权衡是由于精度损失导致模型质量下降。

PyTorch中支持的量化模式

训练后动态量化：权重提前预量化，激活在推理期间转换为int8，就在计算之前。由于高效的int8矩阵乘法，这导致计算速度更快，并保持激活层的准确性。
训练后静态量化：该技术通过将网络转换为使用整数算术和整数8内存访问来提高性能。它涉及通过网络馈送批量数据并计算不同激活的结果分布。此信息用于确定不同激活在推理时应如何量化。
量化感知训练（QAT）：在QAT中，所有权重和激活在向前和向后的训练过程中都被“假量化”。这意味着浮点值被四舍五入以模仿int8值，但所有计算仍然使用浮点数完成。这种方法通常比其他两种方法产生更高的准确性，因为训练期间的所有权重调整都是在“意识到”模型最终将被量化的事实的情况下进行的。

关于这些方法以及它们如何应用于不同类型的模型的更多细节可以在官方的PyTorch留档中找到。此外，社区已经对Meta Llama 3上常见量化方法的有效性进行了研究，要评估的结果和代码可以在这个GitHub存储库中找到。

我们接下来将关注Meta Llama 模型可用的量化工具。由于这是一个不断发展的空间，这里详述的库和方法是目前使用最广泛的，并且会随着空间的发展而发生变化。

使用 TorchAO 进行 Pytorch量化

在TorchAO库中提供了几种量化方法，每种方法都有不同的激活和权重量化方案。

对于仅权重量化，我们支持8位和4位量化。4位量化还具有GPTQ支持以提高精度，这需要校准，但具有相同的最终性能。

对于动态量化，我们支持8位激活量化和8位权重量化，我们还支持这种类型的 smoothquant ，以提高精度，这需要校准，性能稍差。

此外，该库提供了一个简单的API来测试不同的方法，并自动检测给定模型的最佳量化，称为自动量化。
该API从8位动态和仅8位权重的量化中选择最快的量化形式。
它首先识别不同线性层看到的激活形状，然后在不同类型的量化和非量化层之间对这些形状进行基准测试，以选择最快的一个。此外，它与 torch.compile() 组合以生成快速内核。
有关 torch.compile 的更多信息，请参阅此一般教程。

注意：该库处于beta阶段并处于积极开发中；预计会发生API更改。

HF支持的量化

拥抱脸（HF）提供了多种方法来使用他们的变压器库进行LLM量化。除了这里介绍的简短摘要之外，有关如何使用其中每一个的更多指南和示例，请参阅他们的量化指南和 transformers 量化配置留档。
llama-recipes 代码使用bitsandbytes 8位量化来加载模型，用于推理和微调。（有关在Llama中使用bitsandbytes库的更多信息，请参阅下文。）

Quanto

Quanto是一个使用线性量化的多功能PyTorch量化工具包，它提供了诸如权重量化、激活量化以及与各种设备和模式的兼容性等特性，支持量化感知训练，并且易于与特定设备的自定义内核集成，更多详细信息可以在公告博客、GitHub存储库和HF指南中找到。

AQLM

语言模型的加法量化（AQLM）是LLM的一种压缩方法。
它利用多个权重之间的相互依赖关系将多个权重一起量化。
AQLM将每个权重由8到16个权重组成的组表示为多个向量代码的总和。
该库还通过集成到HF的PEFT库中，支持使用Parameter-高效微调和LoRA对其量化模型进行微调。更多详细信息可以在GitHub 存储库中找到。

AWQ

激活感知权重量化（AWQ）保留了对LLM性能很重要的一小部分权重，从而减少了量化损失。
这允许模型以4位精度运行，而不会出现性能下降。变压器支持加载使用llm-awq和autoawq库量化的模型。有关如何使用变压器库加载它们的更多详细信息，请参阅HF指南。

AutoGPTQ

AutoGPTQ库实现了GPTQ算法，这是一种训练后量化技术，权重矩阵的每一行都被独立量化。
这些权重被量化为int4，但在推理过程中它们会动态恢复到fp16，节省4倍的内存使用量。
更多细节可以在GitHub 存储库中找到。

BitsAndBytes

BitsAndBytes是将模型量化为8位和4位的简单选项。该库支持任何模式的任何模型，只要它支持使用拥抱脸加载加速并包含torch. nn.线性层。
它还提供了在CPU和GPU之间卸载权重的功能，以支持将非常大的模型拟合到内存中，调整8位量化的异常值阈值，跳过某些模型的模块转换，以及使用8位和4位权重进行微调。
对于4位模型，它允许更改计算数据类型，对从正态分布初始化的权重使用正态浮点4（NF4）数据类型，并使用嵌套量化来节省额外的内存，而不会产生额外的性能成本。
更多详细信息可以在HF指南中找到。

2024-07-16(二)

原文地址：https://blog.csdn.net/lovechris00/article/details/140465562

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：LDR6020：重塑iPad一体式有线键盘体验的创新力量
下一篇：HBase 进阶

web前端开发--盒子属性
学院介绍
阅读更多2024-11-18
深度学习基础—Seq2Seq模型
decoder网络和编号4的语言模型几乎一模一样，机器翻译模型其实和语言模型非常相似，不同在于语言模型总是以零向量开始，而encoder网络会计算出一系列向量来表示输入的句子。假设输入猫咪图片，经过预
阅读更多2024-11-18
【第三章】Kubernetes资源与对象
文章目录1. Kubernetes资源介绍1.1 Pod1.2 Deployment1.3 Service1.4 Namespace2. Kubernetes资源实践2.1 部署应用2.2 访问应用2
阅读更多2024-11-18
SRT拥塞控制分析
在慢启动阶段，发送端会逐渐增加发送速率，直到网络出现丢包，这时会触发拥塞控制机制，减少发送速率。在拥塞控制中，如果网络出现丢包，发送端可能会增加数据包发送间隔，以减少网络拥塞。：拥塞窗口的大小，用于控
阅读更多2024-11-18
小红书内容推荐算法开发：利用API打造个性化用户体验
小红书，作为国内领先的内容分享社区，其丰富的用户生成内容（UGC）和独特的社区氛围，为推荐算法的开发提供了肥沃的土壤。通过小红书API获取的数据，我们可以构建用户兴趣画像和内容特征，进而实现个性化推荐
阅读更多2024-11-18
详解八大排序（一）------（插入排序，选择排序，冒泡排序，希尔排序）
在日常生活中，我们常常要将各种各样的数据进行排序，例如我要将班上的学生按照数学成绩从大到小的排序，像这种一般情况，编译器自带的sort函数就能满足我们的要求。但是，假如我要将班上姓刘的学生按照数学成绩
阅读更多2024-11-18
量化交易系统开发-实时行情自动化交易-3.4.3.2.期货交易数据
交易数据（Trade Ticks）是进行高频交易策略和市场情绪分析的核心数据之一，通过获取逐笔交易的数据，交易者可以识别大资金动向、市场参与者的行为，以及短时间内的市场动态。以下是通过 Python
阅读更多2024-11-18
Rust：AtomicI8 还是 Mutex＜u8＞?
提供的原子操作（如加载、存储等）在硬件层面得到支持，这些操作是不可分割的，即一旦开始执行，就不会被其他线程的操作打断。如果需要在多个线程之间安全地传递复杂的数据结构或进行复杂的同步操作，那么可能需要考
阅读更多2024-11-18
小程序-基于java+SpringBoot+Vue的智能小程序商城设计与实现
智能小程序商城是一个基于Java和Spring Boot框架开发的电子商务平台，利用微信小程序技术提供便捷的购物体验。系统支持商品浏览、购物车管理、订单处理、用户信息管理等功能，旨在为用户打造一个简洁
阅读更多2024-11-18
华为Ensp模拟器配置OSPF路由协议
开放式最短路径优先 (OSPF) 协议深度解析简介开放式最短路径优先（Open Shortest Path First, OSPF）是一种内部网关协议（IGP），用于在自治系统（AS）内进行动态路由选
阅读更多2024-11-18