自学内容网 自学内容网

【大语言模型】ACL2024论文-21 通过冗余减少加快视觉条件语言生成的训练

【大语言模型】ACL2024论文-21 通过冗余减少加快视觉条件语言生成的训练

在这里插入图片描述
https://arxiv.org/pdf/2310.03291


目录


通过冗余减少加快视觉条件语言生成的训练

摘要

本文介绍了EVLGen,这是一个为视觉条件语言生成模型预训练设计的高效框架,特别适用于计算需求高的场合,并且利用了冻结的预训练大型语言模型(LLMs)。传统的视觉语言预训练(VLP)通常涉及两个阶段的优化过程:第一阶段是资源密集型的,专注于通用视觉-语言表示学习,第二阶段则强调视觉和语言模态之间的端到端对齐。EVLGen通过在训练过程中逐步合并相似的视觉标记,避免了计算密集的第一阶段,同时避免了单阶段训练BLIP-2类型模型时的模型崩溃问题。这种逐步合并过程有效地压缩了视觉信息,同时保留了语义丰富性,实现了快速收敛且不影响性能。实验结果表明,EVLGen将视觉-语言模型的训练加速了5倍,并且仅使用1/10的数据量就显著缩小了与当前视觉-语言模型的性能差距。此外,展示了如何通过新颖的软注意力时间标记上下文化模块,使图像-文本模型无缝适应视频条件语言生成任务。代码可在GitHub上找到。

研究背景

视觉-语言建模领域近年来经历了显著的变革,CLIP模型的出现是一个里程碑,它在图像-文本检索任务中展现出了无与伦比的零样本分类能力和效率。随后的模型如ALBEF、XVLM和VLMo等,进一步扩大了应用范围,涵盖了检索、视觉推理和封闭集视觉问答(VQA)等任务。最近,领域中出现了为复杂图像到语言任务设计的生成模型,如CoCa、SimVLM、Frozen和Flamingo等,这些模型都依赖于大规模数据集进行从头开始的训练,以弥合视觉和语言之间的模态差距。这些从头开始训练的视觉-语言模型(VLMs)的资源密集型需求导致了BLIP-2模型的提出,该模型通过集成预训练的视觉编码器(ViT)和语言解码器(LLM),并调整它们的联合操作来减轻计算成本。

问题与挑战

尽管BLIP-2在计算成本上有所降低,但其训练过程仍然需要显著的计算资源,这对于计算资源有限的研究环境来说是一个挑战。此外,BLIP-2的Q-former设计复杂,涉及随机初始化的可学习查询和交叉注意力机制,这增加了优化的复杂性,尤其是在最小化视觉和语言模态之间表征差异时。

如何解决

EVLGen提出了一个名为TomeFormer的标记合并Transformer作为高效的视觉-语言连接器。TomeFormer采用了一种系统化的标记合并策略,通过连接预训练的ViT作为视觉编码器和冻结的LLM作为语言解码器,引入了一个新的VLM“Expedited Visual Language Generation model”(EVLGen),促进了简化的单阶段训练过程。此外,EVLGen还引入了一种软注意力时间上下文化机制,用于有效的视频-语言建模,这提高了空间标记合并过程的效率,并消除了模态重新对齐的需求。

创新点

  1. Token Merging:EVLGen采用了Token Merging技术,最初设计用于提高ViT推理速度而无需训练。EVLGen重新利用ToMe来压缩LLM中用作语言提示的视觉特征,同时保留了语义丰富性,减少了标记数量。
  2. TomeFormer:EVLGen引入了TomeFormer,这是一个集成了空间Token Merging的标准Transformer,作为视觉和语言领域之间的有效连接器。
  3. 软注意力时间上下文化:EVLGen提出了一种新颖的软注意力时间上下文化变体,增强了ViT背部的时间建模能力,使得预训练的图像-文本模型能够无缝适应视频任务。

算法模型

EVLGen的核心是TomeFormer,它是一个Transformer,增强了空间Token Merging,作为视觉到语言的连接器。TomeFormer通过合并视觉上相似的标记来压缩标记数量,同时保留了语义信息。EVLGen的训练目标是最小化输出和真实描述之间的交叉熵损失。EVLGen-Video在TomeFormer的基础上增加了Temporal Attentive Soft Token Contextualizing模块,用于视频语言建模。
在这里插入图片描述
在这里插入图片描述

实验效果(包含重要数据与结论)

EVLGen在多个图像-文本基准测试中与BLIP-2进行了比较评估,包括零样本VQA、GQA、OKVQA和MSCOCO描述。EVLGen在使用相同的104M图像-文本对和相同数量的优化步骤(250K)的情况下,在几乎所有评估任务中均优于BLIP-2。EVLGen即使在训练预算减少到BLIP-2的大约三分之一(150K优化步骤)时,也能保持竞争力。此外,EVLGen即使在训练数据集减少到1100万图像-文本对时,也能产生令人满意的结果。EVLGen在训练预算限制在90K步骤时仍然保持其有效性,显示出模型的效率和鲁棒性。

在视频描述任务中,EVLGen-Video即使没有视频-文本预训练的帮助,也显示出比基线模型更优越的性能。当结合视频-文本预训练和Self-Critical Sequence Training(SCST)时,性能得到了提升。EVLGen-Video在MSR-VTT和MSVD视频描述数据集上的性能超过了Video-LLaMA、VideoChat和VideoCoCa等竞争模型。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

推荐阅读指数和推荐理由

推荐阅读指数:★★★★☆


后记

如果您对我的博客内容感兴趣,欢迎三连击 (***点赞、收藏和关注 ***)和留下您的评论,我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术


原文地址:https://blog.csdn.net/fyf2007/article/details/144049093

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!