Paddle Inference部署推理（十）

🕗 发布于 2024-11-26 07:45 paddle 推理部署 人工智能 深度学习

十：Paddle Inference推理（python）API详解

9. 启用内存优化

API定义如下：

# 开启内存 / 显存复用，具体降低内存效果取决于模型结构
# 参数：None
# 返回：None
paddle.inference.Config.enable_memory_optim()

代码示例：

# 引用 paddle inference 预测库
import paddle.inference as paddle_infer

# 创建 config
config = paddle_infer.Config("./mobilenet_v1.pdmodel", "./mobilenet_v1.pdiparams")

# 开启 CPU 显存优化
config.enable_memory_optim()

# 启用 GPU 进行预测
config.enable_use_gpu(100, 0)

# 开启 GPU 显存优化
config.enable_memory_optim()

10. 设置缓存路径

注意：如果当前使用的为 TensorRT INT8 且设置从内存中加载模型，则必须通过 set_optim_cache_dir 来设置缓存路径。

API定义如下：

# 设置缓存路径
# 参数：opt_cache_dir - 缓存路径
# 返回：None
paddle.inference.Config.set_optim_cache_dir(opt_cache_dir: str)

代码示例：

# 引用 paddle inference 预测库
import paddle.inference as paddle_infer

# 创建 config
config = paddle_infer.Config("./mobilenet_v1.pdmodel", "./mobilenet_v1.pdiparams")

# 设置缓存路径
config.set_optim_cache_dir("./OptimCacheDir")

11. Profile 设置

API定义如下：

# 打开 Profile，运行结束后会打印所有 OP 的耗时占比
# 参数：None
# 返回：None
paddle.inference.Config.enable_profile()

代码示例：

# 引用 paddle inference 预测库
import paddle.inference as paddle_infer

# 创建 config
config = paddle_infer.Config("./mobilenet_v1.pdmodel", "./mobilenet_v1.pdiparams")

# 打开 Profile
config.enable_profile()

执行预测之后输出的 Profile 的结果如下：

------------------------->     Profiling Report     <-------------------------

Place: CPU
Time unit: ms
Sorted by total time in descending order in the same thread

-------------------------     Overhead Summary      -------------------------

Total time: 1085.33
  Computation time       Total: 1066.24     Ratio: 98.2411%
  Framework overhead     Total: 19.0902     Ratio: 1.75893%

-------------------------     GpuMemCpy Summary     -------------------------

GpuMemcpy                Calls: 0           Total: 0           Ratio: 0%

-------------------------       Event Summary       -------------------------

Event                            Calls       Total       Min.        Max.        Ave.        Ratio.
thread0::conv2d                  210         319.734     0.815591    6.51648     1.52254     0.294595
thread0::load                    137         284.596     0.114216    258.715     2.07735     0.26222
thread0::depthwise_conv2d        195         266.241     0.955945    2.47858     1.36534     0.245308
thread0::elementwise_add         210         122.969     0.133106    2.15806     0.585568    0.113301
thread0::relu                    405         56.1807     0.021081    0.585079    0.138718    0.0517635
thread0::batch_norm              195         25.8073     0.044304    0.33896     0.132345    0.0237783
thread0::fc                      15          7.13856     0.451674    0.714895    0.475904    0.0065773
thread0::pool2d                  15          1.48296     0.09054     0.145702    0.0988637   0.00136636
thread0::softmax                 15          0.941837    0.032175    0.460156    0.0627891   0.000867786
thread0::scale                   15          0.240771    0.013394    0.030727    0.0160514   0.000221841

12. Log 设置

API定义如下：

# 去除 Paddle Inference 运行中的 LOG
# 参数：None
# 返回：None
paddle.inference.Config.disable_glog_info()

# 判断是否禁用 LOG
# 参数：None
# 返回：bool - 是否禁用 LOG
paddle.inference.Config.glog_info_disabled()

代码示例：

# 引用 paddle inference 预测库
import paddle.inference as paddle_infer

# 创建 config
config = paddle_infer.Config("./mobilenet_v1.pdmodel", "./mobilenet_v1.pdiparams")

# 去除 Paddle Inference 运行中的 LOG
config.disable_glog_info()

# 判断是否禁用 LOG - true
print("GLOG INFO is: {}".format(config.glog_info_disabled()))

13. 查看config配置

API定义如下：

# 返回 config 的配置信息
# 参数：None
# 返回：string - config 配置信息
paddle.inference.Config.summary()

调用summary()的输出如下所示：

+-------------------------------+----------------------------------+
| Option                        | Value                            |
+-------------------------------+----------------------------------+
| model_dir                     | ./inference_pass/TRTFlattenTest/ |
+-------------------------------+----------------------------------+
| cpu_math_thread               | 1                                |
| enable_mkldnn                 | false                            |
| mkldnn_cache_capacity         | 10                               |
+-------------------------------+----------------------------------+
| use_gpu                       | true                             |
| gpu_device_id                 | 0                                |
| memory_pool_init_size         | 100MB                            |
| thread_local_stream           | false                            |
| use_tensorrt                  | true                             |
| tensorrt_precision_mode       | fp32                             |
| tensorrt_workspace_size       | 1073741824                       |
| tensorrt_max_batch_size       | 32                               |
| tensorrt_min_subgraph_size    | 0                                |
| tensorrt_use_static_engine    | false                            |
| tensorrt_use_calib_mode       | false                            |
| tensorrt_enable_dynamic_shape | false                            |
| tensorrt_use_oss              | true                             |
| tensorrt_use_dla              | false                            |
+-------------------------------+----------------------------------+
| use_xpu                       | false                            |
+-------------------------------+----------------------------------+
| ir_optim                      | true                             |
| ir_debug                      | false                            |
| memory_optim                  | false                            |
| enable_profile                | false                            |
| enable_log                    | true                             |
+-------------------------------+----------------------------------+

原文地址：https://blog.csdn.net/weixin_46319994/article/details/144041093

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：「Java EE开发指南」如何使用Visual JSF编辑器设计JSP？（二）
下一篇：MySQL基础知识大总结

前端---HTML（一）
HTML是构建网页的基础语言，它通过标记元素的方式来描述网页结构。理解HTML的基本结构和常用标签是掌握网页开发的第一步。通过标签和属性的组合，开发者可以灵活地控制网页的显示内容、结构、样式及功能，为
阅读更多2024-11-26
Redis的管道操作
深度剖析redis管道操作原理
阅读更多2024-11-26
如何做含有identify抓信号的fpga版本（image或者Bit）
如何做含有identify抓信号的fpga版本（image或者Bit）
阅读更多2024-11-26
【Python】构建事件驱动架构：用Python实现实时应用的高效系统
事件驱动架构（Event-Driven Architecture，EDA）是一种基于事件流动进行系统设计的模式，广泛应用于游戏开发、实时监控和分布式系统中。它通过解耦事件的生产者和消费者，提升系统的可
阅读更多2024-11-26
淘宝架构演化
LAMP（Linux+Apache+MySQL+PHP）标准架构，初期采用拿来主义，只具备基本功能。数据库：读写分离，MyISAM存储引擎2003年5月—2004年1月。
阅读更多2024-11-26
基于信号处理的图像算法原理与应用
本文深入探讨了基于信号处理的图像算法，详细阐述了其原理，包括图像的信号表示、频域分析、滤波等核心概念，并结合多种具体的图像算法如傅里叶变换、小波变换、卷积神经网络等进行原理剖析。同时全面介绍了这些算法
阅读更多2024-11-26
基于Matlab的图像去噪算法仿真（三）
从仿真结果可以看出：为验证本文算法的滤波效果，对加入不同噪声的图像进行了滤波测试。本算法相对于其它几种算法其效果都有明显的改进，既能够很好地消除噪声，又能够较好地保持图像边缘细节，而且算法简单，易于实
阅读更多2024-11-26
公网弹性绑定负载均衡收费吗？
公网弹性绑定负载均衡收费吗？公网弹性绑定负载均衡（ELB）是收费的。费用主要包括公网IP费、带宽费和负载均衡实例费。其中，带宽费可以按固定带宽或实际使用流量计费，而实例费则根据类型、规格和使用时长来定
阅读更多2024-11-26
算法编程题-寻找最近的回文数
本文将对LeetCode 原题 564 寻找最近的回文数进行讲解，并且给出golang语言的实现，该实现通过了所有测试用例且执行用时超过100%的提交，最后给出相关的复杂度分析。
阅读更多2024-11-26
力扣--LCR 154.复杂链表的复制
请实现 copyRandomList 函数，复制一个复杂链表。在复杂链表中，每个节点除了有一个 next 指针指向下一个节点，还有一个 random 指针指向链表中的任意节点或者 null。
阅读更多2024-11-26

Paddle Inference部署推理（十）

十：Paddle Inference推理 （python）API详解

9. 启用内存优化

10. 设置缓存路径

11. Profile 设置

12. Log 设置

13. 查看config配置

相关文章

十：Paddle Inference推理（python）API详解