Python OCR 文字识别使用模型：读光-文字识别-行识别模型-中英-通用领域

🕗 发布于 2024-05-31 11:17 python ocr 开发语言

介绍

什么是OCR？

OCR是“Optical Character Recognition”的缩写，中文意为“光学字符识别”。它是一种技术，可以识别和转换打印在纸张或图像上的文字和字符为机器可处理的格式，如计算机文本文件。通过使用OCR技术，可以快速地将纸质文档数字化，从而使文本可以被编辑、搜索和分析。这项技术广泛应用于各种场合，如图书馆和档案馆的文献数字化、 pdf 文件的文本搜索、以及扫描文档中的条形码和二维码等。

阿里云文字识别OCR（读光OCR）

阿里云文字识别OCR（读光OCR），是一款由阿里巴巴达摩院打造的OCR产品，用于识别图片、文档、卡证等文件所包含的文字信息。

行识别模型

行识别模型是一种用于识别文本行中的字符内容的算法模型。它在光学字符识别（OCR）领域中扮演着重要的角色，专注于将文本行中的字符转换成可识别的文本。

行识别模型可以应用于各种应用场景，如自动化文档处理、车牌识别、手写体识别等，为实现自动化文本识别提供了重要的基础，有助于提高工作效率和准确性。

我们这里使用的是 “阿里云文字识别OCR（读光OCR）” 的模型放到本地来进行识别测试。

前置条件

1、准备电脑环境（我当前用的是 4060 显卡）
2、安装环境（conda、python）
3、下载模型（通过下方链接地址下载模型）

https://www.modelscope.cn/models/iic/cv_convnextTiny_ocr-recognition-general_damo/summary

在这里插入图片描述

克隆下来后。

在这里插入图片描述

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

ocr_recognition = pipeline(Tasks.ocr_recognition, model='damo/cv_convnextTiny_ocr-recognition-general_damo')
img_url = 'cropped_image_1.png'
result = ocr_recognition(img_url)
print(result)

from modelscope.pipelines import pipeline：从 ModelScope 库中的 pipelines 模块导入 pipeline 函数。这个函数用于创建一个模型管道，可以用来执行各种任务，如文本分类、命名实体识别、OCR 等。
from modelscope.utils.constant import Tasks：从 ModelScope 库中的 utils.constant 模块导入 Tasks 常量。这个常量包含了 ModelScope 支持的不同任务类型，包括 OCR。
ocr_recognition = pipeline(Tasks.ocr_recognition, model='damo/cv_convnextTiny_ocr-recognition-general_damo')：调用 pipeline 函数创建一个 OCR 识别任务的管道。Tasks.ocr_recognition 指定了这是一个 OCR 识别任务，而 'damo/cv_convnextTiny_ocr-recognition-general_damo' 则指定了使用的模型名称或者模型路径。
img_url = 'cropped_image_1.png'：定义一个变量 img_url，用来存储待识别的图像文件的路径或者 URL。
result = ocr_recognition(img_url)：调用 ocr_recognition 管道，传入待识别的图像路径，并将识别结果保存在 result 变量中。
print(result)：打印 OCR 识别的结果。

需要识别的图片：

在这里插入图片描述

运行结果：

在这里插入图片描述

原文地址：https://blog.csdn.net/qq_36051316/article/details/139291286

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

【设计模式】工厂模式
把对象的创建封装在一个接口函数里面，通过传入不同的标识，返回创建的对象。客户不用自己负责new对象，不用了解对象创建的详细过程把有关联关系的，属于一个产品簇的所有产品创建的接口函数，放在一个抽象工厂里
阅读更多2024-11-12
XLink 和 XPointer 简介
XLink（XML链接语言）是一个W3C推荐标准，它为XML文档中的元素定义了超级链接。XLink允许您在XML文档中创建复杂的链接结构，而不仅仅是简单的URI（统一资源标识符）引用。XPointer
阅读更多2024-11-12
Tomcat漏洞利用工具-TomcatScanPro(二)
本项目是一个针对 Tomcat 服务的弱口令检测、漏洞检测以及本地文件包含（LFI）攻击工具。除了支持 CVE-2017-12615 漏洞的多种利用方式外，新版本还集成了 CNVD-2020-1048
阅读更多2024-11-12
2024 年将 Swagger 导入 Postman 图文教程
2024 年将 Swagger 导入 Postman 图文教程
阅读更多2024-11-12
零钱兑换（DP）
因为coin>=1，不可能会有这个值，但这可以表示我们还没有找到一个解。如果没有任何一种硬币组合能组成总金额，返回。，说明我们没有找到一个有效的解，因此返回。由于我们要找一个最小值，所以初始化所
阅读更多2024-11-12
linux安装ansible
在现代IT运维中，自动化工具已经成为不可或缺的一部分。Ansible作为一款无代理、基于Python的自动化工具，以其简单、易用和强大的功能受到广大运维人员的青睐。我最近亲自操作并测试了Ansible
阅读更多2024-11-12
在Django中安装、配置、使用CKEditor5，并将CKEditor5录入的文章展现出来，实现一个简单博客网站的功能
在Django中安装CKEditor5，并设置相应参数，使其使用中文字体和中文字号。然后使用CKEditor5录入文章（支持word带图片和格式拷贝），最后将CKEditor5表单提交的内容展现出来，
阅读更多2024-11-12
Java 中 json 序列化如何保证顺序
Json 在序列化时是无序的，但是我们可以通过一些设置的方式去保证其有序性，当然这和我们使用的序列化框架也是有关系的。
阅读更多2024-11-12
卷积核里面的数字表示什么意思？
卷积核的大小（即矩阵的维度）和数量（即卷积层中卷积核的数量）也是网络设计的重要参数。较小的卷积核通常能够捕捉更局部的特征，而较大的卷积核则能够捕捉更全局的特征。多个卷积核的组合可以提取出更加复杂的特征
阅读更多2024-11-12
【C++滑动窗口】2516. 每种字符至少取 K 个|1947
给你一个由字符 'a'、'b'、'c' 组成的字符串 s 和一个非负整数 k 。每分钟，你可以选择取走 s 最左侧还是最右侧的那个字符。你必须取走每种字符至少 k 个，返回需要的最少分钟数
阅读更多2024-11-12

Python OCR 文字识别使用模型：读光-文字识别-行识别模型-中英-通用领域

介绍

阿里云文字识别OCR（读光OCR）

行识别模型

前置条件

相关文章