大语言模型 LLM 量化技术略解

🕗 发布于 2024-10-08 07:19 语言模型自然语言处理

什么是量化？

随着语言模型规模的不断增大，其训练的难度和成本已成为共识。而随着用户数量的增加，模型推理的成本也在不断攀升，甚至可能成为限制模型部署的首要因素。因此，我们需要对模型进行压缩以加速推理过程，而模型量化是其中一种有效的方法。

大语言模型的参数通常以高精度浮点数存储，这导致模型推理需要大量计算资源。量化技术通过将高精度数据类型存储的参数转换为低精度数据类型存储，可以在不改变模型参数量和架构的前提下加速推理过程。这种方法使得模型的部署更加经济高效，也更具可行性。
在这里插入图片描述

浮点数一般由3部分组成：符号位、指数位和尾数位。指数位越大，可表示的数字范围越大。尾数位越大、数字的精度越高。量化可以根据何时量化分为：后训练量化和训练感知量化，也可以根据量化参数的确定方式分为：静态量化和动态量化。

PTQ

后训练量化（PTQ, Post-Training Quantization）一般是指在模型预训练完成后，基于校准数据集（calibration dataset）确定量化参数进而对模型进行量化。

GPTQ

GPTQ(Group-wise Precision Tuning Quantization)是一种静态的后训练量化技术。"静态"指的是预训练模型一旦确定,经过量化后量化参数不

原文地址：https://blog.csdn.net/u014297502/article/details/142745280

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：.NET一款反序列化执行命令的白名单工具
下一篇：苹果一体机安装windows

【Linux】 TCP短服务编写和守护进程
在计算机的网络编程中，任务是由一个进程组完成的，组长的PID就是这个进程组PGID的组ID。对此，我们推荐使用多线程或者线程池来提供服务，如果是服务器给客户端提供的是长服务，那么多线程和线程池区别不大
阅读更多2024-10-10
【C语言进阶教程】数据结构与算法（7.图 8.常见算法 9.项目实践）
在本节，通过对常用排序和搜索算法，以及递归与回溯方法的深入理解，您将能够有效地在实践中运用这些基本操作来处理复杂的数据结构问题。掌握这些算法是迈向更高编程技能的重要一步。接下来的内容将引导您进入项目实
阅读更多2024-10-10
二十六、常用API之《基本数据类型的包装类》
什么是包装类？基本数据类型的包装类有那些？什么是装箱？什么是拆箱？基本数据类型在内存中占用了多少字节？看这一篇就够了
阅读更多2024-10-10
【笔记】6.2 玻璃的成型
玻璃熔体的成型方法,有压制法(例如,制作水杯、烟灰缸等)、压延法(例如,制作压花玻璃等)、浇铸法(例如,制作光学玻璃、熔铸耐火材料、铸石等) 、吹制法(例如,制作瓶罐等空心玻璃)、拉制法(例如,制作窗
阅读更多2024-10-10
html 之 relative 和 absolute
结合 relative 和 absolute 的工作原理当一个父元素使用 relative 定位，并且其子元素或伪元素使用 absolute 定位时，子元素会根据父元素的边界进行定位，而不是根据视口或
阅读更多2024-10-10
thinkphp阿里云发送短信验证码,存储到缓存中完成手机号验证
您可以使用 Composer 来安装阿里云的 SDK。第一步安装阿里云 SDK。
阅读更多2024-10-10
详解机器学习经典模型(原理及应用)——条件随机场
本文详细介绍了条件随机场的概念、模型原理以及代码实现，可用于业务或面试参考。
阅读更多2024-10-10
Spark练习-统计不同性别的年龄总和,统计不同性别不同年龄的年龄平均值
虽然两种map不同,但是结果相同。
阅读更多2024-10-10
开源大模型推理GPU资源评估以及优化
随着大模型的火热很多项目中都使用到了开源大模型，这时候准确评估大模型的GPU资源非常重要，主要有下面几个方面：GPU是昂贵的资源。高估内存需求可能导致在硬件上的不必要支出，而低估则可能导致系统故障或性
阅读更多2024-10-10
【FastAdmin】全栈视角下的页面跳转实现：从原生html、javascrpt、php技术到jQuery、FastAdmin框架
页面跳转是Web开发中的基本操作，不同的技术栈提供了不同的实现方法。本文将详细介绍在原生JavaScript、原生HTML、原生PHP、jQuery以及FastAdmin框架中实现页面跳转的各种方法，
阅读更多2024-10-10

大语言模型 LLM 量化技术略解

什么是量化？

PTQ

GPTQ

相关文章