General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

🕗 发布于 2024-09-20 07:38 ocr 人工智能

摘要

https://arxiv.org/pdf/2409.01704
传统的OCR系统（OCR-1.0）越来越无法满足人们对智能处理人造光学字符的需求。在本文中，我们将所有人造光学信号（例如，普通文本、数学/分子公式、表格、图表、乐谱，甚至是几何形状）统称为“字符”，并提出了通用OCR理论以及一个优秀的模型，即GOT，以促进OCR-2.0的到来。GOT拥有5.8亿参数，是一个统一的、优雅的、端到端的模型，由高压缩编码器和长上下文解码器组成。作为一个OCR-2.0模型，GOT可以在各种OCR任务下处理上述所有“字符”。在输入端，模型支持常用的场景和文档样式图像，包括切片和整页风格。在输出端，GOT可以通过简单的提示生成纯文本或格式化结果（markdown/tikz/smiles/kern）。此外，该模型还享有交互式OCR特性，即通过坐标或颜色引导的区域级识别。进一步地，我们还为GOT适应了动态分辨率和多页OCR技术，以提高实用性。在实验中，我们提供了充分的结果来证明我们模型的优越性。
在这里插入图片描述

1 引言

光学字符识别

原文地址：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/142323093

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：SpringBoot开发——集成Tess4j实现OCR图像文字识别
下一篇：【我的 PWN 学习手札】Largebin Attack（＜= glibc-2.38可利用）

【go从零单排】上下文（context）
在 Go 语言中，上下文（context）是一个重要的概念，主要用于管理请求的生命周期、传递取消信号、超时控制以及传递请求范围内的值。上下文通常与并发编程相关，尤其是在处理 HTTP 请求和其他 I/
阅读更多2024-11-15
Ubuntu 20.04 配置开发环境(持续更新)
搜狗输入法不能显示中文。
阅读更多2024-11-15
在ubuntu上安装ubuntu22.04并ros2 humble版本的docker容器记录
"registry-mirrors" : ["https://你的.mirror.swr.myhuaweicloud.com"],4、已经打包了ubuntu22
阅读更多2024-11-15
如何在 Ubuntu 22.04 上安装 ownCloud
ownCloud 是一个开源的个人云存储平台，它允许用户在本地服务器上存储和同步文件，提供了一个类似于 Dropbox 或 Google Drive 的服务，但是更加注重隐私和数据控制。文件存储：用户
阅读更多2024-11-15
idea 删除本地分支后，弹窗 delete tracked brank
在 IntelliJ IDEA 中，删除本地分支后弹出 “Delete tracked branch” 的提示，这表示删除的是一个跟踪分支（tracked branch）。具体来说，当前删除的本地分
阅读更多2024-11-15
「JVM详解」
JVM：全称 Java Virtual Machine，即 Java 虚拟机，一种规范，本身是一个虚拟计算机，直接和操作系统进行交互，与硬件不直接交互，而操作系统可以帮我们完成和硬件进行交互的工作
阅读更多2024-11-15
WPF中Prism框架的简单使用
自动匹配导入4.写Login.XAML代码和LoginViewModel代码LoginViewModel如下：5.创建其他的UserControl 并学好MainWindow.XAML和MainWin
阅读更多2024-11-15
Linux——GPIO输入输出裸机实验
在程序启动时，BSS段会被清零，并且其大小会被计算到程序的总内存占用中，尽管它在磁盘上的表示可能非常小或甚至没有。在程序启动时，BSS段会被清零，并且其大小会被计算到程序的总内存占用中，尽管它在磁盘上
阅读更多2024-11-15
planRAG运行记录
运行planRAG过程记录
阅读更多2024-11-15
vue面试题8|[2024-11-14]
vue面试题
阅读更多2024-11-15

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

摘要

1 引言

相关文章