【无标题】

🕗 发布于 2024-10-03 23:49 python

An End-to-End Multi-Task Learning Model for Image-based Table Recognition(VISIGRAPP2023)

一.前述

作者称类似tablemaster这种以前的很多方法都是将表格的识别拆分成了两个独立的子任务，即表格结构识别（包括单元格位置检测）以及单元格的内容识别（包括文本检测），接着还需要进行复杂的后处理对齐任务。那么这篇文章作者称将表格识别的三个子任务表格结构识别、单元格内容识别以及单元格位置检测融合成了一个端到端的多任务学习模型，作者声称达到了state-of-the-art。还公开了代码：https://github.com/namtuanly/MTL-TabNet。

总之，作者在文中説本论文主要贡献在以下几点：

1.提出了一个新的端到端表格识别多任务学习模型，此方法能够很easy的以端到端的方式去进行train和infer。

2.新模型在基准数据集（FinTabNet，PubTabNet）中的表现优于其它先进方法。

3.新模型没有使用额外的训练数据也没有使用集成技术，但与icdar2021竞赛的top3方案具有竞争力。

二.结构概述

在这里插入图片描述

从上图中可以看出，所提出的模型由一个共享的编码器encoder，一个共享的解码器deocder，以及三个独立的解码器decoder组成，后面这三个独立的deocder对应表格识别的三个子任务。

1.共享的编码器encoder将输入的表格图像编码成序列特征。

2.将序列特征输入到共享的解码器decoder中。

3.2的结果输入到structure decoder预测HTML标签结构

4.2的结果输入到cell-bbox deocder预测单元格边框坐标

5.2的结果输入到cell-content deocder预测单元格文本内容

6.最后，将单元格的文本内容插入到与其单元格相对应的HTML结构标记中，以生成最终结果

三.组件概述

1.共享的编码器Encoder（shared encoder）

这里使用一个基于CNN-backbone的网络作为特征抽取器，后面跟一个位置编码层positional encoding，得到table图像的序列编码特征。
这个特征作为Key vector和Value vector会输入到共享的解码器以及三个独立的解码器的多头注意力部分。

2.共享的解码器Decoder（shared decoder）

这里所有的解码器decoder都与原始的transformer的decoder部分一样（从图中可以看出）。共享的解码器deocder部分作者设N=2即2层，
在训练时这里的输入是HTML标签的右移序列加上位置编码，推理时这里的输入是structure decoder的输出进行拼接。最后共享的解码器decoder的输出作为三个子任务的输入。

3.结构解码器Decoder（structure deocder）

这部分是利用共享的解码器deocder的输出（作为query vector）以及共享的编码器encoder的输出(作为key vector和value vector)作为输入，
去预测表格结构的HTML标签序列。decoder的后面跟着一个线性层linear以及一个softmax层。

4.单元格边框解码器Decoder（cell-bbox decoder）

当结构解码器生成表示新单元格（' <td></td> '或' <td '）的结构token时，将触发cell-bbox解码器，
并使用与该单元格对应的共享解码器的输出来预测该单元格的边界框坐标（四个坐标）。deocder后面跟着一个线性层linear以及一个sigmoid层。

5.单元格内容解码器Decocer（cell-content decoder）

该部分中的单元内容解码器可视为文本识别器，文本的输出是字符级别。模型的输入是内容的右移序列加位置编码以及加上共享解码器的输出部分。
decoder后面跟着一个线性层linear以及一个softmax层。

四.训练概述

1.损失函数

整个模型，共享组件从从三个子任务接收到的梯度中重复训练，而三个独立解码器中的每个都从其任务获得的梯度中训练。整个系统可以通过随机梯度下降算法对table图像及其对table结构、文本内容和每个非空表单元的边界框的注释进行端到端训练。

损失函数：

上式中的ℒstruc. and ℒcont.是利用交叉熵cross-entropy分别实现的table结构识别损失和单元格内容预测损失，ℒbbox是利用L1 loss实现的单元格边框预测的损失。𝜆1、𝜆2和𝜆3为权值超参数。

2.其它

作者利用Resnet-31作为cnn backbone，另外为了构建输入图像的全局上下文，作者在Resnet-31的每一个残差块后又增加了multi-aspect全局注意力。所有图像大小是480480，cnn的feature map的维度是6060。在解码器上，所有相同的层具有相同的架构，输入特征大小为512，前馈网络大小为2048，注意头为8。结构解码器中的结构token序列的最大长度为500，单元内容解码器中的单元token序列的最大长度为150。

作者计划未来在strucutre deocder和cell-content decoder加入语言模型以改善模型的性能。

原文地址：https://blog.csdn.net/mohen_777/article/details/140610971

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

UE4_Niagara基础实例—7、如何让粒子照亮周边环境
Niagara渲染器Niagara渲染器说明虚幻引擎应该如何显示每个生成的粒子。注意，这不一定是可视的。与模块不同，渲染器在堆栈中的位置不一定与绘制顺序相关。以下部分是光源渲染器类型中可用的参数，以及
阅读更多2024-10-04
windows系统电脑上scrcpy源码本地调试
windows系统电脑上scrcpy源码本地调试
阅读更多2024-10-04
工厂模式与建造者模式的区别
目的工厂模式：主要关注对象的创建，适用于创建简单或多种类型的对象。建造者模式：关注对象的构建过程，适用于构建复杂对象，尤其是有多个可选参数的情况，可以采用链式结构存储，使用场景工厂模式：适合需要生成多
阅读更多2024-10-04
Python编写的贪吃蛇小游戏
Python编写贪吃蛇小游戏。
阅读更多2024-10-04
建造者模式
‌(Builder Pattern)‌又称生成器模式是一种创建型对象。这种模式通过分离构造过程和表示，使得用户只需要通过指定复杂对象的类型和内容就可以构建它们，而无需关心内部的具体构建细节。建造者模式
阅读更多2024-10-04
Linux命令大全及小例子
通过此报告，我们对多种常用Linux命令提供了详细的讲解和示例，涵盖了文件管理、文本处理、系统管理、网络管理以及权限管理等多个方面。掌握这些命令不仅能够提高Linux系统操作效率，也为各种运维工作和开
阅读更多2024-10-04
关于 Angular SSR 应用 html 源代码中的 ng-state script 标签
在 Angular 服务器端渲染 (SSR) 的机制中，出现的是一个关键部分，它与 Angular 的状态转移和优化用户体验息息相关。这个ng-state标签中的 JSON 对象包含了 Angular
阅读更多2024-10-04
基于RBAC的通用权限管理系统的详细分析与实现（理念篇——权限对象、权限项、功能权限、数据权限、权限组、权限设计）
在与人沟通的过程中，我们很多次提到了权限，但是权限具体的含义每个人理解的含义都不明确，这样很容易造成双方信息不对称，有的人就只是把权限理解成某个页面的是否可访问，但是有的人却理解成其他的东西。所以我们
阅读更多2024-10-04
FTP应用篇：低功耗4G模组Air780EP AT开发
低功耗4G模组Air780EP支持全系列的AT指令以及LuatOS脚本二次开发。今天我们详细讲解Air780EP模组FTP应用的多个AT命令示例。
阅读更多2024-10-04
【ubuntu】Ubuntu20.04安装中文百度输入法
【代码】[ubuntu]Ubuntu20.04安装中文百度输入法。
阅读更多2024-10-04