Paddle Inference部署推理（一）

🕗 发布于 2024-11-26 10:14 计算机视觉 paddle

一：Paddle Inference推理简介

Paddle Inference 是飞桨的原生推理库，提供服务器端的高性能推理能力。由于 Paddle Inference 能力直接基于飞桨的训练算子，因此它支持飞桨训练出的所有模型的推理。

Paddle Inference 功能特性丰富，性能优异，针对不同平台不同的应用场景进行了深度的适配优化，做到高吞吐、低时延，保证了飞桨模型在服务器端即训即用，快速部署。

Paddle Inference 推理流程 ：

推理具体流程：

1. 准备模型

Paddle Inference原生支持由PaddlePaddle深度学习框架训练产出的推理模型。PaddlePaddle用于推理的模型分别通过paddle.jit.save(动态图)与paddle.static.save_inference_model(静态图)或paddle.Model().save(高层API)保存下来的。如果手中的模型是通过TnesorFlow、Pytorch等框架训练出来的，可以使用X2Paddle工具将模型转换为PaddlePaddle格式。
更详细的模型导出模型请参考模型导出文档。
可使用模型可视化工具来查看模型结构，已确认符合组网预期。

2. 准备环境

参照PaddlePaddle安装页面，通过下载预编译库或者源码编译的方式准备Paddle Inference 的基础开发环境。

3.开发推理流程

Paddle Inference 采用 Predictor 进行推理。Predictor 是一个高性能推理引擎，该引擎通过对计算图的分析，完成对计算图的一系列的优化（如 OP 的融合、内存 / 显存的优化、 MKLDNN，TensorRT 等底层加速库的支持等），能够大大提升推理性能。
在这里插入图片描述

开发推理程序只需要简单的 5 个步骤 (这里以 C++ API 为例)：

配置推理选项 paddle_infer::Config，包括设置模型路径、运行设备、开启/关闭计算图优化、使用 MKLDNN / TensorRT 进行部署的加速等。
创建推理引擎 paddle_infer::Predictor，通过调用 CreatePredictor(Config) 接口，一行代码即可完成引擎初始化，其中 Config 为第1步中生成的配置推理选项。

准备输入数据，需要以下几个步骤
- 将原始输入数据根据模型需要做相应的预处理，比如减均值等标准化操作
- 先通过 auto input_names = predictor->GetInputNames() 获取模型所有输入 Tensor 的名称
- 再通过 auto tensor = predictor->GetInputTensor(input_names[i]) 获取输入 Tensor 的指针
- 最后通过 tensor->copy_from_cpu(data)，将预处理之后的数据 data 拷贝到 tensor 中
执行推理，只需要运行 predictor->Run() 一行代码，即可完成推理执行。

获得推理结果并进行后处理，需要以下几个步骤：
- 先通过 auto out_names = predictor->GetOutputNames() 获取模型所有输出 Tensor 的名称
- 再通过 auto tensor = predictor->GetOutputTensor(out_names[i]) 获取输出 Tensor的指针
- 最后通过 tensor->copy_to_cpu(data)，将 tensor 中的数据 copy 到 data 指针上
- 可以使用与训练完全相同的输入数据进行推理并对比结果一致性，或者批量推理验证数据集并计算模型精度的方式来判断推理结果的正确性。
- 将模型推理输出数据进行后处理，比如根据检测框位置裁剪图像等

4.推理示例

Paddle Inference 提供了 C++, Python 两种 API 的使用示例和开发说明文档，您可以参考示例中的说明快速了解使用方法，并集成到您自己的项目中去。

5.性能优化

1）根据实际场景开启相应的推理优化配置项

以C++API 为例，根据实际场景开启相关的优化开关，示例如下，具体参考C++API 文档。

CPU 推理：EnableMKLDNN、EnableMkldnnBfloat16、SetCpuMathLibraryNumThreads 、EnableONNXRuntime 等
GPU 推理：EnableTensorRtEngine 等
基础优化：SwitchIrOptim、EnableMemoryOptim 等

参考系统调优概述使用混合精度推理和多线程推理。

2) 使用 PaddleSlim 进行模型小型化

如果开启以上相关优化配置后，还需要进一步提升推理性能，可以在我们提供的深度学习模型压缩工具库 PaddleSlim 的帮助下，通过低比特量化、知识蒸馏、稀疏化和模型结构搜索等方式，进行模型小型化。

下一节：
paddle模型的保存及加载API详解

原文地址：https://blog.csdn.net/weixin_46319994/article/details/144007366

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：使用 OpenCV 进行视频中的行人检测
下一篇：jQuery EasyUI 插件：简化Web界面开发的利器

hhdb数据库介绍(10-6)
介绍hhdb管理平台升级中心的相关内容
阅读更多2024-11-27
网络接入控制——用户身份识别与接入认证
没有认证，你的心会碎掉吗？
阅读更多2024-11-27
SpringBoot中忽略实体类中的某个属性不返回给前端的方法
SpringBoot中忽略实体类中的某个属性不返回给前端的方法：使用Jackson的方式：//第一种方式，使用@JsonIgnore注解标注在属性上，忽略指定属性public class Prope
阅读更多2024-11-27
端口port常识
端口（Port）用于区分不同的服务或进程。在网络通信中，每个运行在计算机上的进程都会通过一个端口来与其他计算机上的进程进行通信。了解这些基本的端口知识和使用常识可以帮助你更好地管理网络服务和提高网络安
阅读更多2024-11-27
AI领域一些技术和概念
LLM 可以对广泛的主题进行推理，但他们的知识仅限于他们接受培训的特定时间点之前的公共数据。如果要构建可以推理私有数据或模型截止日期后引入的数据的 AI 应用程序，则需要使用模型所需的特定信息来增强模
阅读更多2024-11-27
Rust编程与项目实战-模块std::thread（之二）
但是，程序通常需要特定的支持才能利用超过64个逻辑CPU，并且在没有此类支持的情况下，此函数返回的数字准确地反映了程序默认可以使用的逻辑CPU的数量。move闭包通常和thread::spawn函数一
阅读更多2024-11-27
数据结构与算法——1120——时间空间效率问题&&求边界值
效率问题与变化有关效率排序：常对幂指阶。
阅读更多2024-11-27
Java全栈开发 - 视频网站实战教程
Spring Boot项目开发全流程主流技术栈的整合使用分布式系统架构设计性能优化最佳实践后续我们将逐步完善各个功能模块的具体实现,敬请期待!
阅读更多2024-11-27
CTF之密码学（BF与Ook）
简介：特点：简介：特点：例题：ok - Bugku CTF平台，.!? - Bugku CTF平台（这个是变形题可以试着解解看）
阅读更多2024-11-27
基于预测反馈的情感分析情境学习
这篇文章的主要内容是关于如何通过预测反馈来改善大型语言模型（LLMs）在情感分析中的上下文内学习（In-Context Learning, ICL）能力。文章提出了一个框架，该框架通过以下三个步骤来增
阅读更多2024-11-27