自学内容网 自学内容网

量化技术介绍

Ref:https://zhuanlan.zhihu.com/p/548174416

Ref:https://zhuanlan.zhihu.com/p/430470397

 

 为什么做压缩?

介绍压缩方法之一:量化;

        量化(quantization)是模型压缩的一种常用方法,通常情况下可以使用不同的量化策略,将深度学习模型参数与运算的精度从浮点数(FP32)降低至较低的精度,如INT8,一方面可以提升模型在cpu/gpu等硬件的推理计算效率,减少计算成本,另一方面能够减小模型的size,在边缘设备具有存储优势。现在无论是服务器端或者是移动端,支持INT8量化都是一个发展趋势;

        量化是一个信息有损压缩的过程,如果训练过程中使用FP32,在模型推理时使用Post-training Quantization(PTQ)直接量化为INT8模型,模型精度会存在一定损失。而量化感知训练(Quantization-aware-training, QAT)在模型训练过程中就引入了伪量化(Fake-quantization)来模拟量化过程中带来的误差,通过这种方式能够进一步减少量化后模型的精度损失。

        


原文地址:https://blog.csdn.net/qq_43642885/article/details/140362511

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!