stable diffusion 量化学习笔记

🕗 发布于 2025-01-13 19:55 stable diffusion 学习笔记

一、一些tensorRT背景及使用介绍

1）深度学习介绍

简单学习介绍量化背景

补充

1)tensorFlow python版本其实是调用的TensorFlow C的接口
2)libtorch其实是pytorch的C++版本
3)cublas是实现矩阵相乘的功能
4)cudnn主要实现dnn上的一些算子功能，例如卷积等
5)不同NVIDIA显卡架构间不兼容，同代显卡基本是同架构

2）TensorRT优化策略介绍

优化策略

1、低精度优化 ：int8  int16
2、Kernel自动调优
例如：cublas  gemm多种实现：①不用shared memory ；②小矩阵相乘；③使用额外显存的策略
3、算子融合：例如：
relu+bias+1x1 conv =1x1 CBR
4、多流运行
5、显存优化

在这里插入图片描述

3）TensorRT基础使用流程

在这里插入图片描述

代码使用流程

4）dynamic shape 模式

背景
①TensorRT 6.0之后 explicit(显式)batch支持动态batchsize
②CV的图片基本都是固定大小，而NLP和speech语音很多都是不固定大小的
思路
1）build engine阶段设置:
①用createNetworkV2设置显示batchsize
②设置最大batchsize
③设置优化profile选项，选择最大、最常用、最小的数据维度(类似，15s\20s\30s的语音)

2）infer推理阶段
①每次推理设置输出的数据维度
②检查输入的数据维度是否符合需求
③开启推理

5）TensorRT模型转换

①onnx：一键解析pytorch转为onnx，不用像API那样一层一层构建onnx
②torch2trt：pytorch直接转为trt
③TensorFlow：谷歌出品，不用pytorch，tf直接转为trt(tf2tensorrt)
④Tencent Forward：支持pytorch\onnx\tf直接转为trt，接口简单
在这里插入图片描述

二、TensorRT转onnx模型

1）onnx介绍

onnx：表示深度学习模型的开放模式
备注：CPU上线首推ONNX-RUNTIME
onnx模型组成：Graph、Node、Tensor
Graph：注意opset版本参数

2）背景知识：lower概念

概念
用基础算子加、减、乘、除、fc等组合成一个模型不支持的、复杂的算子，成为lower，反之为upper（tensor合并算子就可以提高速度，拆分成这么多算子速度会下降）

3）TRT转换模型的主要重点

在这里插入图片描述

4）onnx-parser && onnx-graphsurgen

（1）onnx-parser：把onnx导出为二进制模型的工具

例子代码截图
onnx-parser导出模型方式：
①python API
②trtexec
③polygraph
onnx-parser痛点
（备注：LSTM的算子没有tensorflow支持的全，基本只能靠裁剪）

（2）onnx-graphsurgeon：onnx模型的编辑器

传送门
传送门

5）实践：

（1）transformer模型优化：解决不支持的算子

（2）transformer模型优化：合并LayerNorm算子

6）polygraphy

六、实操

1）编译tensorRT开源代码运行SampleMNIST

在这里插入图片描述

2）英伟达TensorRT加速AI推理Hackthon2022-Transformer模型优化

在这里插入图片描述

原文地址：https://blog.csdn.net/weixin_43679037/article/details/145074730

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：React - router的使用 && 结合react-redux的路由守卫
下一篇：使用wav2vec 2.0进行音位分类任务的研究总结

详解opencv resize之INTER_LINEAR和INTER_AREA
本文详解了openv resize中的INTER_LINEAR、INTER_AREA的具体算法。
阅读更多2025-01-13
pywebview给Python程序添加图标
使用pywebview默认启动python对应的exe程序后，它的程序图标默认是python的。如果想要换成自己的图标，可以使用下面的方式。
阅读更多2025-01-13
15.2 hana 修改 tenantDB中SAPHANADB用户的密码
hana 修改 tenantDB中SAPHANADB用户的密码
阅读更多2025-01-13
Java面试核心知识4
Object 类中的 notify() 方法，唤醒在此对象监视器上等待的单个线程，如果所有线程都在此对象上等待，则会选择唤醒其中一个线程，选择是任意的，并在对实现做出决定时发生，线程通过调用其中一
阅读更多2025-01-13
HarmonyOS：@LocalBuilder装饰器：维持组件父子关系
@LocalBuilder只能在所属组件内声明，不允许全局声明。@LocalBuilder不能被内置装饰器和自定义装饰器使用。自定义组件内的静态方法不能和@LocalBuilder一起使用。
阅读更多2025-01-13
windows10 安装 Golang 版本控制工具g与使用
查询当前可供安装的stable状态及所有的 go 版本。解压，并添加到环境变量。
阅读更多2025-01-13
最近在盘gitlab.0.先review了一下docker
要说盘gitlab，没有个环境用来练习是很难的，或者说都不会搭建环境，那就是没根儿。所以怎么搭建环境呢？公司的这个是2个docker容器，一个gitlab实例的，一个nginx的。好了，开始第一次跑题
阅读更多2025-01-13
数据结构与算法之二叉树: LeetCode 654. 最大二叉树 (Ts版)
1 ) 方案1：递归。2 ) 方案2：单调栈。 3 ) 方案3：单调栈优化。
阅读更多2025-01-13
IOS HTTPS代理抓包工具使用教程
手机和电脑连接相同的局域网，打开手机里面的设置界面，找到wifi，选中正在使用的wifi，拉到底部，点击代理设置，进去之后选中模式为手动，把嗅探大师软件上提示的地址，端口输入进去点击保存。如果使用的是
阅读更多2025-01-13
关于扫描模型拓扑和传递贴图工作流笔记
MAYA拓扑传递贴图MAYA拓扑。
阅读更多2025-01-13

stable diffusion 量化学习笔记

文章目录

一、一些tensorRT背景及使用介绍

1）深度学习介绍

2）TensorRT优化策略介绍

3）TensorRT基础使用流程

4）dynamic shape 模式

5）TensorRT模型转换

二、TensorRT转onnx模型

1）onnx介绍

2）背景知识：lower概念

3）TRT转换模型的主要重点

4）onnx-parser && onnx-graphsurgen

（1）onnx-parser：把onnx导出为二进制模型的工具

（2）onnx-graphsurgeon：onnx模型的编辑器

5）实践：

（1）transformer模型优化：解决不支持的算子

（2）transformer模型优化：合并LayerNorm算子

6）polygraphy

六、实操

1）编译tensorRT开源代码运行SampleMNIST

2）英伟达TensorRT加速AI推理Hackthon2022-Transformer模型优化

相关文章