晶视 TPU-CV183x 开发板调研和测试验证

🕗 发布于 2024-07-04 20:07 人工智能 个人开发计算机视觉算法

一、晶视 TPU-CV183x 开发板调研

A、基本信息：

应用场景：人脸考勤机、智能监控 IP 摄像机，主要用于视频图像领域
通信方式：串口通信，需安装 ftdi_ft232 驱动，波特率 115200
传输文件方式：SD 卡通信（验证中）网口通信（已验证）
算力：CPU ARM Cortex-A53 @ 1.2Ghz 32KB I-cache, 32KB D-Cache,128KB L2 cache，支持 Neon 加速, 集成浮点运算单元 (FPU) TPU ~0.5TOPS INT8
开发环境：厂商提供 docker 镜像
量化方式：int8 BF16 支持混合量化
算子支持：

TPU:

BatchNorm BroadcastMul Clip Concat Conv2D Crop DeConv2D EltwiseAdd EltwiseMax EltwiseMul FullyConnected Gru LeakyRelu Lstm Mish Normalize Pad Permute PixelShuffle PoolAvg2D PoolMask PoolMax2D Power PRelu ReduceMax ReduceMean Relu Reorg Scale Sigmoid Slice Sqrt Softmax TanH Tile Upsample YoloDetection ZeroMask

CPU:

FrcnDetection DetectionOutput Custom PriorBox Proposal RetinaFaceDetection

ROIPooling

暂未发现能够自定义算子暂未发现 OP 级接口

B、量化方式：

模型的量化主要分为两种方式： Per-Tensor 量化（有时也称为 Per-Layer）是指对整个Tensor 使用同一组量化参数（scale 或 threshold); Per-Channel 量化（有时也称为 Per-Axis）是指对于 Channel 这个维度支持各个 Channel 有各自不同的量化参数。理论上，Weight Tensor 和Activation Tensor 都可以选择 Per-Tensor 或 Per-Channel 量化。但是实际实现过程中，TPU 选择只对 Weight Tensor 支持 Per-Channel 量化，对 Activation Tensor 保持 Per- Tensor 量化。另外，按照 INT8 时 0 点映射的方法，量化方式也可以分为两种：对称量化，将需要映射的动态范围映射为正负对称的区间；非对称量化，是映射到非对称的区间，这时 INT8 的 0 点会被映射到一个非零的值；

C、量化过程：

使用量化感知训练传入量化参数，目前不支持客户自己量化

D、生态相关：

支持 caffe、pytorch（onnx）、tensorflow1.x、tensorflow2.x 框架模拟器：提供库文件保证和 TPU 精度一致暂无模拟器代码

二、晶视 TPU-CV183x 开发板测试验证

A、实际算力测算

模型	推理耗时（ms）	实测算力（GOPS）
Mobilenet_v2	5.58	110
Resnet18	12.72	286
Shufflenet	2.57	110

B、注意事项

1、Sample: resnet18 模型量化：机器内存最好大于 16G，不然量化过程中会报错如下

2、量化模型版本要与板子版本相对应

Docker 中：

cvitek_mlir/cvitek_envs.sh
cvimodel_tool -a dump -i xxx.cvimodel

C、测试效率(export TPU_ENABLE_PMU=1 model_runner + --pmu +文件名)

1、Resnet18

2、Mobilenet_v2

3、Shufflenet

原文地址：https://blog.csdn.net/mieshizhishou/article/details/140142772

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Linux：网络配置命令
下一篇：详解大模型是如何理解并使用 tools ？

[CUDA] cuda kernel开发记录
包括kernel的一些使用注意事项， launch_bound, __device__, debug排查技巧
阅读更多2024-11-16
【python】掌握 Flask：轻量级 Web 开发框架解析
路由是 Web 开发的基础，负责管理 URL 到视图函数的映射。在 Flask 中，路由定义非常简单，只需使用装饰器即可。这个代码段定义了一个路由，访问该路径时会返回 “Hello, Flask!通过
阅读更多2024-11-16
AI图片分析接口LiteAIServer摄像机实时接入分析平台未戴安全帽检测算法
随着人工智能技术的飞速发展，摄像机实时接入分析平台LiteAIServer工地未佩戴安全帽检测算法应运而生，为工地安全管理带来了革命性的变革。
阅读更多2024-11-16
2024新版pycharm如何切换anaconda虚拟环境
回归正题，导入项目后点击文件=>设置，找到解释器。不得不说这界面改的真不错，看着很舒服。另外在终端用指令切换也是可以的。添加解释器=>添加本地解释器。
阅读更多2024-11-16
计算机提示mfc140u.dll丢失的五种解决方法，了解mfc140u.dll错误的几种修复方法
当你尝试打开某些程序时，突然出现错误提示，告知你系统缺少 mfc140u.dll 文件，这可能让你感到困惑和无助。mfc140u.dll 是 Microsoft Foundation Class (M
阅读更多2024-11-16
k8s 中传递参数给docker容器
在 Kubernetes 中，可以通过多种方式将参数传递给 Dockerfile 或其运行的容器，常见的方式包括使用环境变量、命令行参数、配置文件等。
阅读更多2024-11-16
设计模式之工厂模式，但是宝可梦
作为一个细分了三个种类的设计模式，到底该如何取舍？比起直接new一个对象，使用对应模式的好处到底在哪？简单工厂模式：根据传入的参数决定产出的对象，可以隐藏一些创建的细节适用于需要根据条件创建不同对象的
阅读更多2024-11-16
【深度学习】wsl-ubuntu深度学习基本配置
这里注意一点，你换了源之后就最好不要开代理了，要不然搞不好下载失败，pip和conda都是。
阅读更多2024-11-16
nodejs和npm在gitbash中提示Not Found情况的解决办法
很多小伙伴学习了node以后，在cmd命令行中可以正常的获取node版本和npm版本，但是我们经常使用gitbash来管理git，这时候下载完gitbash后，在gitbash中输入node -v和n
阅读更多2024-11-16
判断子序列
给定一个长度为 n的整数序列 a1,a2,…,an以及一个长度为 m的整数序列 b1,b2,…,bm。请你判断 a序列是否为 b序列的子序列。子序列指序列的一部分项按原有次序排列而得的序列，例如序列
阅读更多2024-11-16