OCR-free Document Understanding Transformer

🕗 发布于 2024-11-26 00:22 ocr transformer 深度学习

摘要：理解文档图像（如发票）是一个核心且具有挑战性的任务，因为它需要执行复杂的功能，如读取文本和对文档的整体理解。目前的视觉文档理解（VDU）方法将读取文本的任务外包给现成的光学字符识别（OCR）引擎，并专注于使用OCR输出进行理解任务。尽管基于OCR的方法显示出令人鼓舞的性能，但它们面临以下问题：1）使用OCR的高计算成本；2）OCR模型在语言或文档类型上的灵活性差；3）OCR错误会传播到后续处理过程。为了解决这些问题，本文提出了一种新的无OCR的VDU模型，名为Donut（即文档理解Transformer）。作为无OCR的VDU研究的第一步，我们提出了一个简单的架构（即Transformer）和预训练目标（即交叉熵损失）。Donut概念上简单但有效。通过广泛的实验和分析，我们展示了一个简单的无OCR的VDU模型Donut，在各种VDU任务中，无论是在速度还是准确性上都达到了最先进的性能。此外，我们提供了一个合成数据生成器，帮助模型的预训练在各种语言和领域中更具灵活性。代码、训练模型和合成数据可以在https://github.com/clovaai/donut中获取。

关键词：视觉文档理解，文档信息提取，光学字符识

原文地址：https://blog.csdn.net/qq_39698985/article/details/143916745

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：详解Qt QTimeZone 时区类
下一篇：基于Java Springboot付费自习室管理系统

【玩转全栈】----基于ModelForm完成用户管理页面
在学完前面的部门管理案例后，自己独立写出个用户管理应该不难，基本逻辑和大致代码都和前面一样，大家可以自己试试。
阅读更多2025-01-23
深圳云盟智慧科技公司智慧停车管理系统GetVideo存在SQL注入漏洞
深圳云盟智慧科技公司开发的智慧停车管理系统，结合云平台和智能硬件，提供全方位的停车管理解决方案。系统可以覆盖停车场的入口、出口、车位监控、停车计费等功能，支持用户通过移动端进行预约、支付等操作，提升停
阅读更多2025-01-23
小盒科技携手体验家，优化智能教育服务体验，打造在线教育新高度
「小盒科技」携手体验家，通过基于关键场景的触点体验监测，实时收集用户反馈，快速响应并融入产品优化，进一步打磨每一个教育环节，从课程设计到交互界面，力求让用户感受到无缝衔接的学习体验，实现覆盖用户全生命
阅读更多2025-01-23
OpenAI战略转型：从安全研发到市场竞争
OpenAI正经历从安全导向向市场竞争导向的战略转型，通过开发类似《Her》电影中的AI助手等产品来满足用户需求。在技术层面，其GPT-4模型在多模态处理方面取得重大突破，能够实时处理文本、音频等多种
阅读更多2025-01-23
Vue3+Element Plus 实现 el-table 表格组件滚动是否触底监听判断
一种在 Vue3+Element Plus 项目实现 el-table 中监听竖向滚动是否触底判断的方法
阅读更多2025-01-23
Scala语言的编程范式
通过以上的讨论，我们可以看到，Scala语言汇聚了面向对象编程和函数式编程的优点，使得开发者能够灵活地选择最适合当前任务的编程范式。无论是在处理复杂的逻辑时使用函数式编程，还是在组织大型应用时使用面向
阅读更多2025-01-23
【详解】神经网络的发展历程
本文将详细描述神经网络的发展历程
阅读更多2025-01-23
Harmonyos之多目标构建产物实践
多目标产物在HarmonyOS系统中的应用主要体现在软件开发与分发方面，特别是针对不同用户群体、不同业务场景的需求进行定制化开发。多目标产物为开发者提供了更加灵活和高效的开发方式，使得应用能够更好地适
阅读更多2025-01-23
HarmonyOS Next 应用UI生成工具介绍
UI Generator用于快速生成可编译、可运行的HarmonyOS UI工程，支持基于已有UI布局文件（XML），快速生成对应的HarmonyOS UI代码，其中包含HarmonyOS基础工程、页
阅读更多2025-01-23
GitCode 助力 AutoTable：共创 MyBatis 生态的自动表格管理新篇章
在 MyBatis Flex 的兼容性拓展方面，AutoTable 拥有 2 位贡献者和 1 位核心开发者的专注投入，已完成 2 次代码合并，并接受了来自社区的 5 个 Issue，团队迅速解决了其中
阅读更多2025-01-23

OCR-free Document Understanding Transformer

相关文章