基于PaddleOCR + NLP实现证件识别

🕗 发布于 2024-07-21 07:17 自然语言处理 人工智能

基于PaddleOCR + NLP实现证件识别

PaddleOCR识别

什么是PaddleOCR？
PaddleOCR 旨在打造一套丰富、领先、且实用的 OCR 工具库，助力开发者训练出更好的模型，并应用落地
PaddleOCR 由 PMC 监督。Issues 和 PRs 将在尽力的基础上进行审查。欲了解 PaddlePaddle 社区的完整概况，请访问 community。
⚠️注意：Issues模块仅用来报告程序🐞Bug，其余提问请移步Discussions模块提问。如所提Issue不是Bug，会被移到Discussions模块，敬请谅解。

PaddleOCR识别

Paddle-Github -飞桨社区
 PP`飞桨 AI Studio 社区

paddleOCR安装

官网也给出了快速部署的案例可以参考下

PaddleOCR 快速开始

我本地采用的是anaconda 虚拟环境

安装 anconda虚拟环境(可参考yolov5的安装教程)

anconda 环境搭建

conda create -n paddle4 python=3.8
conda activate paddle4
conda install paddlepaddle==2.6.1 --channel https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/Paddle/
pip install “paddleocr>=2.0.1” or conda install “paddleocr>=2.0.1”
这里是我安装的过程示例代码

paddleOCR识别

在这里插入图片描述

PaddleNLP模型信息抽取

pip install --upgrade paddlenlp

from paddleocr import PaddleOCR
from paddlenlp import Taskflow

假设传入的是身份证，经过解析后的allStr就会变成类似如下的字符串（标点符号，空格等特殊符号需要你自行处理）：

姓名侯小珂性别女民族汉出生1999年x月x日住址xx市xx区xx路1号2栋3号公民身份号码110129xxxxxxxxxxxx中华人民共和国居民身份证签发机关xx市公安局有效期限2018071120280711

接下来你要做的就是把这个字符串交给NLP模型进行信息抽取。当然，你说用正则匹配也行，确实没毛病，例如身份证号码，直接用正则匹配就可以了。但是，假如你需要获取住址这种没有明显特征的，你如何正则匹配呢？

NLP模型就能解决这个问题。

使用如下代码，告诉模型我需要在这段文本中抽取什么信息即可：

data = {}
schema = ["姓名", "民族", "性别", "出生", "住址", "签发机关", "有效期限", "公民身份号码"]
ie = Taskflow('information_extraction', schema=schema)
res = ie(allStr)
for key in schema:
    data[key] = res[0][key][0]['text']

paddle打包exe 进行ocr识别

可参考：paddle 打包exe 可运行文件

在这里插入图片描述

需要代码工程的同学移步下。谢谢支持！！！！
回复 “paddle-demo”
在这里插入图片描述

原文地址：https://blog.csdn.net/MAI44/article/details/140568648

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：大型网站核心架构要素
下一篇：Ubuntu22 Qt6.6 ROS 环境搭建

[Azure PL300 Certified] 数据分析概论与定义
数据分析是标识、清除、转换和建模数据的过程，用于发现有意义和有用的信息。然后通过报表将数据制作成故事进行分析，支持关键的决策过程。
阅读更多2024-11-18
什么是微服务?
微服务是一种经过良好架构设计的分布式架构方案
阅读更多2024-11-18
leetcode-8-字符串转整数
题解:代码:
阅读更多2024-11-18
docker更新镜像源
1. 阿里云镜像加速器：https://cr.console.aliyun.com/cn-hangzhou/instances/mirrors2. 腾讯云镜像加速器：https://cloud.ten
阅读更多2024-11-18
21.3D surface
【代码】21.3D surface。
阅读更多2024-11-18
2. Django中的URL调度器 (自定义路径转换器)
路径转换器是一种 URL 模式的匹配工具，它不仅能够验证路径段的格式，还可以将匹配的路径段传递给视图函数。: 匹配一个整数。: 匹配任意非空字符串，不包括斜杠 /。: 匹配字母、数字、下划线或连字符。
阅读更多2024-11-18
【c++入门】打开新世界大门之初遇c++
在学习了c语言，初阶数据结构后，我们正式走进c++世界大门目录前言一、认识c++二、缺省参数三、函数重载四、引用4.1什么是引用？4.2 使用场景4.2.1 做参数4.2.2做函数返回值4.3引用和指
阅读更多2024-11-18
从零开始使用GOT-OCR2.0——多模态通用型OCR（非常具有潜力的开源OCR项目）：项目环境安装配置 + 测试使用
本文是多模态通用型OCR模型的环境安装和测试部分
阅读更多2024-11-18
WPF如何全局应用黑白主题效果
灰白色很多时候用于纪念，哀悼等。那么使用WPF如何来做到这种效果呢？要实现的这种效果，我们会发现，它其实不仅仅是要针对图片，而是要针对整个窗口来实现灰白色。如果只是针对图片的话，我可以可以对图片进行灰
阅读更多2024-11-18
【GNU】gcc -O编译选项 -Og -O0 -O1 -O2 -O3 -Os
GCC 提供的-O系列选项用于优化代码。这些选项可以控制编译器对代码进行优化的程度和类型，从而提高代码的性能、减小代码体积或优化其他特性。
阅读更多2024-11-18

基于PaddleOCR + NLP实现证件识别

基于PaddleOCR + NLP实现证件识别

PaddleOCR识别

paddleOCR安装

安装 anconda虚拟环境(可参考yolov5的安装教程)

paddleOCR识别

PaddleNLP模型信息抽取

paddle打包exe 进行ocr识别

相关文章