水表数字识别3：Pytorch CRNN实现水表数字识别(含训练代码和数据集)

整套项目分为：数据集说明，DBNet文本(数字)检测模型训练、CRNN文本(数字)识别模型训练，以及水表数字识别边缘侧部署C++/Android等多个章节，本篇是项目《水表数字识别》系列文章之《Pytorch CRNN实现水表数字识别》；为了方便后续模型工程化和Android平台部署，项目对文字检测模型和文字识别模型进行轻量化，并提供Python/C++/Android多个版本；

整套水表数字检测和识别系统，在普通Android手机上可以达到实时的检测效果，CPU(4线程)约40ms左右，GPU约30ms左右，基本满足业务的性能需求。下表格给出CRNN，LPRNet和PlateNet模型的计算量和参数量以及其数字识别的准确率：

模型	input-size	params(M)	GFLOPs	Accuracy
LPRNet	94×24	0.48M	0.147GFlops	0.9000
CRNN	160×32	8.35M	1.06GFlops	0.9150
PlateNet	168×48	1.92M	1.25GFlops	0.9275

【尊重原创，转载请注明出处】https://blog.csdn.net/guyuealian/article/details/139998788

更多项目《水表数字识别》系列文章请参考：

2. 水表数字识别的方法

传统的水表数字识别的方法主要采用字符分割的方法实现字符识别，即先将水表的图像按照预定的规则将字符一个一个切割，并按照模式匹配的方法识别字符；显然该方法效率低，准确率也不高。在深度学习算法中，实质上，水表数字识别也可以看成是OCR识别的技术范畴，其实现流程可先进行文本检测，然后再进行文本识别：

（1）水表(文本)数字检测：主要实现水表数字区域的定位，可以采用目标检测方案，如使用SSD、YOLO等目标模型进行水表检测，但精度较差；也可以采用分割方法，如本文使用的DBNet,Fast-SCNN等方法。Fast-SCNN是轻量化分割模型，可以部署到Android平台或者开发板上，在多线程或者GPU下，可以达到实时检测效果

（2）水表(文本)数字识别：主要实现水表数字识别，项目支持CRNN或LPRNet文本识别算法；为方便后续工程化，项目对CRNN模型进行魔改，提出一个PlateNet模型，用于支持部署到Android平台或者开发板上

3. 水表数字识别数据集

目前收集了2个水表数字的检查数据集：Water-Meter-Det1和Water-Meter-Det2，总数约6000+张图片，主要用于水表数字检测模型或分割模型训练和开发；

具体介绍，请参考:《水表数字识别1：水表数字数据集说明(含下载链接)》

4. 水表数字分割模型训练

本篇主要分享水表数字识别模型训练，关于水表数字分割模型训练，请参考《水表数字识别2：Pytorch DBNet实现水表数字检测(含训练代码和数据集)》

5. 水表数字识别模型训练

（1）项目安装

.
├── configs           # 配置文件
├── core              # 文本识别相关模型
├── data              # 相关测试数据
├── docs              # 相关说明文档
├── libs              # 依赖库
├── output            # 输出结果
├── README.md         # 说明文档
├── requirements.txt  # 项目python依赖文件
├── demo.py           # 测试文件
├── demo.sh           # 测试脚本
├── train.py          # 训练文件
└── train.sh          # 训练脚本

推荐使用Python3.8或Python3.7，更高版本可能存在版本差异问题，Python依赖环境，使用pip安装即可，项目代码都在Ubuntu系统和Windows系统验证正常运行，请放心使用；若出现异常，大概率是相关依赖包版本没有完全对应

Cython==3.0.2
easydict==1.10
editdistance==0.6.2
efficientnet-pytorch==0.7.1
imageio==2.31.1
imgaug==0.4.0
imgviz==1.7.5
matplotlib==3.3.4
numpy==1.24.4
onnx==1.13.1
onnx-simplifier==0.4.33
onnxruntime==1.14.1
onnxruntime-gpu==1.15.1
onnxsim==0.4.33
opencv-contrib-python==4.8.1.78
opencv-python==4.8.0.76
Pillow==9.5.0
pyclipper==1.3.0.post5
pycocotools==2.0.6
PyQt5==5.13.2
PyQt5-Qt5==5.15.2
PyQt5-sip==12.13.0
PySocks==1.7.1
PythonWebHDFS==0.2.3
pytools==2023.1.1
PyYAML==6.0
QtPy==2.3.1
scikit-image==0.21.0
scikit-learn==1.2.2
scipy==1.10.1
seaborn==0.12.2
segmentation-models-pytorch==0.3.3
semantic-version==2.10.0
sentencepiece==0.1.99
stack-data==0.6.2
starlette==0.27.0
tensorboard==2.13.0
tensorboard-data-server==0.7.1
tensorboardX==2.6.1
timm==0.9.2
toolz==0.12.0
torch==1.13.1+cu117
torchaudio==0.13.1+cu117
torchinfo==1.8.0
torchstat==0.0.7
torchsummary==1.5.1
torchvision==0.14.1+cu117
tqdm==4.65.0
typing_extensions==4.6.3
transformers==4.31.0
Werkzeug==2.3.6
urllib3==1.26.16
xmltodict==0.13.0
basetrainer==0.8.4
pybaseutils==2.0.0

项目安装教程请参考（初学者入门，麻烦先看完下面教程，配置好开发环境）：

项目开发使用教程和常见问题和解决方法
视频教程：1 手把手教你安装CUDA和cuDNN(1)
视频教程：2 手把手教你安装CUDA和cuDNN(2)
视频教程：3 如何用Anaconda创建pycharm环境
视频教程：4 如何在pycharm中使用Anaconda创建的python环境
推荐使用Python3.8或Python3.7，更高版本可能存在版本差异问题

（2）构建Train和Test水表数字识别数据

水表数字识别的训练数据和测试数据的数据格式，要求非常简单：

对水表数字区域进行裁剪时，请尽量保证数字的完整性，其他非数字区域尽量去除
强烈建议对水表进行倾斜校正，避免倾斜带来的影响；本项目已经实现水表数字区域的倾斜校正，具体方法请参考：Python OpenCV实现文档自动矫正（含源码和测试数据）
一张图片仅包含一个水表，不能出现多个水表
水表数字图片文件命名规则：水表数字_序号ID ；如【007225_image_000.jpg】，其中【007225】表示这个张图片的真实数字，【image_000】是序号ID，这个序号ID是为了避免水表数字重复，序号ID可以是任意字符；模型训练时，仅取水表数字作为label进行训练，序号ID会被忽略。
如果，你需要新增自己的水表数字识别数据集，请按照上面的要求制作即可

以下是水表数字识别数据的样本数据，请参考格式制作即可；项目源码已经附带了制作好的水表数字识别数据集，可以直接用于水表数字识别模型训练：

（3）构建模型

项目实现了三个识别模型：CRNN，LPRNet和PlateNet，其计算量和参数量参考如下：

CRNN：最经典的OCR模型了，采用CNN+RNN的网络结构，提出CTC-Loss对齐算法解决不定长序列对齐问题；原始源码是用于文字识别的，稍微改成水表数据集，即可用于水表数字识别了
LPRNet：相比经典的CRNN模型，LPRNet 没有采用RNN结构；是专门设计用于车牌识别的轻量级的模型，整个网络结构设计高度轻量化，参数量仅有0.48M
PlateNet：LPRNet网络结构中存在MaxPool3d等算子，在端上部署时，会存在OP不支持等问题，PlateNet模型去除MaxPool3d，改成使用MaxPool2d，保证模型可端上部署成功。

模型	input-size	params(M)	GFLOPs
LPRNet	94×24	0.48M	0.147GFlops
CRNN	160×32	8.35M	1.06GFlops
PlateNet	168×48	1.92M	1.25GFlops

（4）修改配置文件：configs/config_crnn.yaml

准备好数据好，下一步是修改配置文件configs/config_crnn.yaml的数据路径：

修改train_data和test_data为你自己的数据路径
其他参数保持默认即可

train_data:
  - '/home/pan/dataset/WaterMeter/水表数据集/Water-Meter-Rec1/train'
  - '/home/pan/dataset/WaterMeter/水表数据集/Water-Meter-Rec2/train'

test_data:
  - '/home/pan/dataset/WaterMeter/水表数据集/Water-Meter-Rec1/val'
data_type: "image_data"
class_name: "data/name_table.txt"
train_transform: "train"
test_transform: "test"
batch_size: 32
net_type: 'CRNN'
flag: "Perspective"
input_size: [ 160, 32 ]
rgb_mean: [ 0.5, 0.5, 0.5 ]
rgb_std: [ 0.5, 0.5, 0.5 ]
resample: False
work_dir: "work_space"
num_epochs: 200
optim_type: 'Adam'
lr: 0.001
weight_decay: 0.0
milestones: [ 100,150,170 ]
momentum: 0.0
gpu_id: [ 0 ]
num_workers: 8
log_freq: 20
pretrained: "data/pretrained/CRNN/CRNN.pth"

配置文件每个参数含义如下：

参数	类型	参考值	说明
train_data	str, list	-	训练数据文件，可支持多个文件
test_data	str, list	-	测试数据文件，可支持多个文件
class_name	str	-	类别文件
train_transform	str	train	训练数据数据处理方法
test_transform	str	test	测试数据数据处理方法
work_dir	str	work_space	训练输出工作空间
net_type	str	CRNN	骨干网络,支持CRNN,LPRNe和PlateNet等模型
intput_size	list	[160,32]	模型输入大小
rgb_mean	list	[0.5,0.5,0.5]	图像归一化均值
rgb_std	list	[0.5,0.5,0.5]	图像归一化方差
resample	bool	True	进行样本均衡
batch_size	int	128	批训练大小
lr	float	0.001	初始学习率大小
optim_type	str	Adam	优化器，{SGD,Adam}
milestones	list	[30,80,100]	降低学习率的节点
momentum	float	0.9	SGD动量因子
num_epochs	int	200	循环训练的次数
num_workers	int	8	DataLoader开启线程数
weight_decay	float	5e-4	权重衰减系数
gpu_id	list	[ 0 ]	指定训练的GPU卡号，可指定多个
log_freq	int	10	显示LOG信息的频率
pretrained	str	model.pth	pretrained的模型

（5）开始训练

整套训练代码非常简单操作，项目源码已经给出CRNN，LPRNet和PlateNet的配置文件；用户只需要修改好配置文件的的数据路径，即可开始训练了。

训练CRNN模型

python train.py -c  configs/config_crnn.yaml

训练LPRNet模型

python train.py -c  configs/config_lprnet.yaml

训练PlateNet模型

python train.py -c  configs/config_platenet.yaml

（6）可视化训练过程

训练过程可视化工具是使用Tensorboard，使用方法：

# 基本方法
tensorboard --logdir=path/to/log/
# 例如（请修改自己的训练的模型路径）
tensorboard --logdir=work_space/CRNN_Perspective_20240621_135211_3840/log

下表格给出CRNN，LPRNet和PlateNet模型的计算量和参数量以及其水表数字识别的准确率：

模型	input-size	params(M)	GFLOPs	Accuracy
LPRNet	94×24	0.48M	0.147GFlops	0.9393
CRNN	160×32	8.35M	1.06GFlops	0.9343
PlateNet	168×48	1.92M	1.25GFlops	0.9583

（7）一些说明和优化建议

数据长尾问题：文本识别的数据集经常存在数据长尾问题，即某些字符的数据较多，而某些字符的数据较少，这会导致模型识别结果偏向于数据较多的样本类别。为了均衡样本，解决方法可以从数据增强，样本重采样，数据收集等方法优化。

图片倾斜的问题：现实场景中，由于摄像头角度等因素，抓拍的图片往往是倾斜的，这会影响识别模型的效果；建议对图片进行透视变换和倾斜矫正，提高文本识别的效果；项目实现了水表数字透视矫正算法，可参考这篇文章进行实现：Python OpenCV实现文档自动矫正（含源码和测试数据）

6.水表识别数字识别效果（Python版本）

demo.py文件用于推理和测试模型的效果，填写好模型文件以及测试图片即可运行测试

```
测试CRNN模型
```

python demo.py --image_dir data/test_image --model_file work_space/CRNN_Perspective_20240621_135211_3840/model/latest_model_199_0.9000.pth --net_type CRNN --use_det

```
测试LPRNet模型
```

python demo.py --image_dir data/test_image --model_file work_space/LPRNet_Perspective_20240620_192443_9824/model/latest_model_199_0.8950.pth --net_type LPRNet --use_det

```
测试PlateNet模型
```

python demo.py --image_dir data/test_image --model_file data/weight/PlateNet_Perspective_20230104102743/model/best_model_186_0.9583.pth --net_type PlateNet --use_detector

测试视频文件(video_file填写视频文件路径，如data/test-video.mp4)

python demo.py --video_file data/test-video.mp4 --model_file work_space/PlateNet_Perspective_20240620_180901_1771/model/latest_model_199_0.8950.pth --net_type PlateNet --use_det

测试摄像头(video_file填写摄像头USB ID号，一般是0，1，2)

python demo.py --video_file 0 --model_file work_space/PlateNet_Perspective_20240620_180901_1771/model/latest_model_199_0.8950.pth --net_type PlateNet --use_det

水表数字识别Demo效果展示：

7.水表识别数字识别效果（Android版本）

已经完成Android版本水表数字检测分割和识别算法开发，APP在普通Android手机上可以达到实时的检测和识别效果，CPU(4线程)约40ms左右，GPU约30ms左右，基本满足业务的性能需求。详细说明请查看：水表数字识别5：Android实现水表数字识别(含源码可实时检测)

Android Demo体验：https://download.csdn.net/download/guyuealian/89537381

8.水表识别数字识别项目源码下载

整套项目源码内容包含：水表数字识别数据集+水表数字识别训练代码和测试代码

整套项目下载地址：Pytorch CRNN实现水表数字识别(含训练代码和数据集)

（1）水表数字识别数据集：

水表数字检测数据集：Water-Meter-Det1，train训练集共有800张图片，val测试集共有200张图片，可用于水表数字检测模型和分割模型训练和开发。
水表数字检测数据集：Water-Meter-Det2，仅包含训练集train，共有5742张图片，可用于水表数字检测模型和分割模型训练和开发。
水表数字识别数据集：Water-Meter-Rec1，train训练集共有1600张图片，val测试集共有400张图片，可用于水表数字识别模型训练和开发
水表数字识别数据集：Water-Meter-Rec2，仅包含训练集train，共有11436张图片，可用于水表数字识别模型训练和开发。

（2）水表数字识别训练代码和测试代码（Pytorch）

提供水表数字识别模型训练代码，模型支持CRNN，LPRNet和PlateNet模型，train.py训练简单，简单配置config文件，即可开始训练
提供训练好的水表数字识别模型权重文件，可直接运行demo.py进行测试
提供训练好的水表数字分割模型权重文件
demo.py支持图片，视频和摄像头测试；
demo.py支持导出onnx文件（export=True）
demo.py支持对倾斜的图片进行透视变换矫正

原文地址：https://blog.csdn.net/guyuealian/article/details/139998788

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：OLAP引擎之Kylin
下一篇：从零开始实现大语言模型（七）：多头注意力机制

特权帐户安全 CyberArk
它隔离、控制和监控整个数据中心的所有特权活动，补充了CyberArk在市场领先的特权身份管理套件‌。‌CyberArk PTA（Privileged Threat Analytic）‌：特权威胁分析，
阅读更多2024-11-16
消息中间件分类
1. JMS（Java Message Service）：这是 Java 平台上的一套消息服务 API 标准，它定义了消息系统的基本功能，如消息的创建、发送、接收和读取等。5. 其他消息中间件：除了上
阅读更多2024-11-16
企业知识中台：构建智慧企业的核心
知识中台是企业数字化转型的重要一环，它能够帮助企业更有效地管理和利用知识资产，提升企业的竞争力。在选择搭建知识中台的工具时，HelpLook是一个值得考虑的选择。HelpLook以其直观易用的内容管理
阅读更多2024-11-16
如何恢復電腦IP地址的手動設置？
如何恢復電腦IP地址的手動設置。
阅读更多2024-11-16
OSPF动态路由配置(Cisco Packet Tracer)
OSPF路由协议通过向全网扩散本设备的链路状态信息，使网络中每台设备最终同步一个具有全网链路状态的数据库，然后路由器采用OSPF算法，以自己为根，计算到达其他网络的最短路径，最终形成全网路由信息。（4
阅读更多2024-11-16
HarmonyOS ArkTs 解决流式传输编码问题
使用 HarmonyOS ArkTs 解决流式传输中的编码和 JSON 解析问题。
阅读更多2024-11-16
每日论文20-24RFIC四核三模带自动模式跟踪输出缓冲器的VCO
每日论文20-24RFIC四核三模带自动模式跟踪输出缓冲器的VCO
阅读更多2024-11-16
PG数据库数据库时间字段开始时间和结束时间，判断和查询条件的开始和截止时间存在交集，SQL如何编写
假设你的表名是 events，开始时间字段为 start_time，结束时间字段为 end_time，而你要检查的时间段是 query_start_time 和 query_end_time。在 Po
阅读更多2024-11-16
cls(c基础)
作用清屏格式#include
阅读更多2024-11-16
see的本质是什么？
如果你喜欢看【龙虎斗】，看【猫蛇大战】相关的视频，你会发现，蛇的头会跟随性地转动，这不仅是因为蛇很紧张，更重要的，是因为蛇的眼睛的问题，蛇的眼睛对稍远一点的东西，其实是看不太清楚的，而且蛇的眼睛是没有
阅读更多2024-11-16

水表数字识别3：Pytorch CRNN实现水表数字识别(含训练代码和数据集)