【大语言模型】ACL2024论文-21 通过冗余减少加快视觉条件语言生成的训练

🕗 发布于 2024-11-27 13:58 语言模型 人工智能 自然语言处理

【大语言模型】ACL2024论文-21 通过冗余减少加快视觉条件语言生成的训练

在这里插入图片描述
https://arxiv.org/pdf/2310.03291

本文介绍了EVLGen，这是一个为视觉条件语言生成模型预训练设计的高效框架，特别适用于计算需求高的场合，并且利用了冻结的预训练大型语言模型（LLMs）。传统的视觉语言预训练（VLP）通常涉及两个阶段的优化过程：第一阶段是资源密集型的，专注于通用视觉-语言表示学习，第二阶段则强调视觉和语言模态之间的端到端对齐。EVLGen通过在训练过程中逐步合并相似的视觉标记，避免了计算密集的第一阶段，同时避免了单阶段训练BLIP-2类型模型时的模型崩溃问题。这种逐步合并过程有效地压缩了视觉信息，同时保留了语义丰富性，实现了快速收敛且不影响性能。实验结果表明，EVLGen将视觉-语言模型的训练加速了5倍，并且仅使用1/10的数据量就显著缩小了与当前视觉-语言模型的性能差距。此外，展示了如何通过新颖的软注意力时间标记上下文化模块，使图像-文本模型无缝适应视频条件语言生成任务。代码可在GitHub上找到。

研究背景

视觉-语言建模领域近年来经历了显著的变革，CLIP模型的出现是一个里程碑，它在图像-文本检索任务中展现出了无与伦比的零样本分类能力和效率。随后的模型如ALBEF、XVLM和VLMo等，进一步扩大了应用范围，涵盖了检索、视觉推理和封闭集视觉问答（VQA）等任务。最近，领域中出现了为复杂图像到语言任务设计的生成模型，如CoCa、SimVLM、Frozen和Flamingo等，这些模型都依赖于大规模数据集进行从头开始的训练，以弥合视觉和语言之间的模态差距。这些从头开始训练的视觉-语言模型（VLMs）的资源密集型需求导致了BLIP-2模型的提出，该模型通过集成预训练的视觉编码器（ViT）和语言解码器（LLM），并调整它们的联合操作来减轻计算成本。

问题与挑战

尽管BLIP-2在计算成本上有所降低，但其训练过程仍然需要显著的计算资源，这对于计算资源有限的研究环境来说是一个挑战。此外，BLIP-2的Q-former设计复杂，涉及随机初始化的可学习查询和交叉注意力机制，这增加了优化的复杂性，尤其是在最小化视觉和语言模态之间表征差异时。

如何解决

EVLGen提出了一个名为TomeFormer的标记合并Transformer作为高效的视觉-语言连接器。TomeFormer采用了一种系统化的标记合并策略，通过连接预训练的ViT作为视觉编码器和冻结的LLM作为语言解码器，引入了一个新的VLM“Expedited Visual Language Generation model”（EVLGen），促进了简化的单阶段训练过程。此外，EVLGen还引入了一种软注意力时间上下文化机制，用于有效的视频-语言建模，这提高了空间标记合并过程的效率，并消除了模态重新对齐的需求。

创新点

Token Merging：EVLGen采用了Token Merging技术，最初设计用于提高ViT推理速度而无需训练。EVLGen重新利用ToMe来压缩LLM中用作语言提示的视觉特征，同时保留了语义丰富性，减少了标记数量。
TomeFormer：EVLGen引入了TomeFormer，这是一个集成了空间Token Merging的标准Transformer，作为视觉和语言领域之间的有效连接器。
软注意力时间上下文化：EVLGen提出了一种新颖的软注意力时间上下文化变体，增强了ViT背部的时间建模能力，使得预训练的图像-文本模型能够无缝适应视频任务。

算法模型

EVLGen的核心是TomeFormer，它是一个Transformer，增强了空间Token Merging，作为视觉到语言的连接器。TomeFormer通过合并视觉上相似的标记来压缩标记数量，同时保留了语义信息。EVLGen的训练目标是最小化输出和真实描述之间的交叉熵损失。EVLGen-Video在TomeFormer的基础上增加了Temporal Attentive Soft Token Contextualizing模块，用于视频语言建模。
在这里插入图片描述

实验效果（包含重要数据与结论）

EVLGen在多个图像-文本基准测试中与BLIP-2进行了比较评估，包括零样本VQA、GQA、OKVQA和MSCOCO描述。EVLGen在使用相同的104M图像-文本对和相同数量的优化步骤（250K）的情况下，在几乎所有评估任务中均优于BLIP-2。EVLGen即使在训练预算减少到BLIP-2的大约三分之一（150K优化步骤）时，也能保持竞争力。此外，EVLGen即使在训练数据集减少到1100万图像-文本对时，也能产生令人满意的结果。EVLGen在训练预算限制在90K步骤时仍然保持其有效性，显示出模型的效率和鲁棒性。

在视频描述任务中，EVLGen-Video即使没有视频-文本预训练的帮助，也显示出比基线模型更优越的性能。当结合视频-文本预训练和Self-Critical Sequence Training（SCST）时，性能得到了提升。EVLGen-Video在MSR-VTT和MSVD视频描述数据集上的性能超过了Video-LLaMA、VideoChat和VideoCoCa等竞争模型。
在这里插入图片描述

在这里插入图片描述

后记

如果您对我的博客内容感兴趣，欢迎三连击 (***点赞、收藏和关注 ***）和留下您的评论，我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型，深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更系统地了解 AI前沿技术。

原文地址：https://blog.csdn.net/fyf2007/article/details/144049093

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：三格电子—EtherNet IP转Modbus RTU网关
下一篇：【C++】list模拟实现（完结）

Webpack之后，Rollup如何引领前端打包新潮流？（1）
快速开始使用 Rollup 进行 JavaScript 模块的打包和优化。Rollup 的摇树优化和多种输出格式使其成为构建现代 JavaScript 应用和库的强大工具。
阅读更多2024-11-27
使用Python实现智能食品安全追溯系统的深度学习模型
本项目旨在利用深度学习技术，通过分析食品的供应链数据，实现智能食品安全追溯。具体步骤包括：数据准备数据预处理模型构建模型训练模型评估与优化实际应用通过本文的介绍，我们展示了如何使用Python构建一个
阅读更多2024-11-27
pytest之收集用例规则与运行指定用例
收集用例规则：搜索所有以test_开头的测试文件，以Test开头的测试类，以test_开头的测试函数执行用例规则：从-v 参数输出的执行信息我们就应该能发现，运行指定的目录下用例使用命令 pytes
阅读更多2024-11-27
C语言实例之9斐波那契数列实现
斐波那契数列（Fibonacci sequence），又称黄金分割数列，因数学家莱昂纳多・斐波那契（Leonardo Fibonacci）以兔子繁殖为例子而引入，故又称为 “兔子数列”。它的特点是从第
阅读更多2024-11-27
热门金融大模型整理
FinRobot，一个支持多种金融专用 AI 代理的开源平台，每个代理均由 LLM 驱动。平台架构包括：金融 AI 代理层，将复杂问题逻辑分解以形成金融思维链；金融 LLM 算法层，为任务定制模型策略
阅读更多2024-11-27
电烙铁焊接STM32芯片、贴片元器件、手册指南！！！
对于常见的贴片元器件，常见方法是使用风枪进行处理，如果没有疯抢，使用电烙铁焊接贴片元器件的过程中，首先需要再焊盘上溶一点锡，然后使用镊子夹住贴片元器件，在焊盘上这个时候烙铁融化焊盘上的锡，镊子夹着元器
阅读更多2024-11-27
2024数学建模亚太赛【C题】赛题详细解析
研究应从多个维度（如宠物类型、市场需求等）对行业数据进行全面分析，同时结合全球产业特点与中国市场现状，制定切实可行的商业发展策略。使用散点图、箱线图、热力图等方法分析变量间的关系，例如市场需求与宠物类
阅读更多2024-11-27
学习HTML第三十三天
学习HTML第三十三天
阅读更多2024-11-27
用 C++ 写一个 AWS Lambda Hello World
如果使用 Python, Java 写 Lambda 时觉得还不得快，不想要明显的预热过程，也许 1000 毫秒的任务只想要 600 毫秒就能完成，内存还希望再压缩一些，那着实能在每月千百万次 Lam
阅读更多2024-11-27
SpringBoot 项目中使用 spring-boot-starter-amqp 依赖实现 RabbitMQ
SpringBoot 项目中使用 spring-boot-starter-amqp 依赖实现 RabbitMQ
阅读更多2024-11-27

【大语言模型】ACL2024论文-21 通过冗余减少加快视觉条件语言生成的训练