自学内容网 自学内容网

AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.07.05-2024.07.10

文章目录~

1.Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

标题:多模态自我教学:利用语言模型进行合成抽象图像和视觉推理教学

author:Wenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang

date Time:2024-07-09

paper pdf:http://arxiv.org/pdf/2407.07053v1

摘要
尽管目前大多数大型多模态模型(LMM)已经能够理解自然场景和肖像的照片,但它们对抽象图像(如图表、地图或布局)的理解以及视觉推理能力仍然相当初级。他们在完成简单的日常任务时,如从时钟上读取时间、理解流程图或使用路线图规划路线时,往往会遇到困难。有鉴于此,我们设计了一种多模态自我指令,利用大型语言模型及其代码能力来合成日常场景中的大量抽象图像和视觉推理指令。我们的策略毫不费力地创建了一个多模态基准,其中包含 11,193 条指令,涉及八种视觉场景:图表、表格、模拟地图、仪表盘、流程图、关系图、平面图和视觉谜题。\该基准由简单的线条和几何元素构成,暴露了大多数高级 LMM(如 Claude-3.5-Sonnet 和 GPT-4o)在抽象图像理解、空间关系推理和视觉元素归纳方面的不足。此外,为了验证合成数据的质量,我们使用 62476 条合成图表、表格和路线图指令对 LMM 进行了微调。结果表明,图表理解和地图导航性能得到了提高,同时也证明了在其他视觉推理任务中的潜在优势。我们的代码可在\url{https://github.com/zwq2018/Multi-modal-Self-instruct}.

2.Resolving Sentiment Discrepancy for Multimodal Sentiment Detection via Semantics Completion and Decomposition

标题:通过语义补全和分解解决多模态情感检测中的情感差异问题

author:Daiqing Wu, Dongbao Yang, Huawen Shen, Can Ma, Yu Zhou

publish:8 pages, 6 figures

date Time:2024-07-09

paper pdf:http://arxiv.org/pdf/2407.07026v1

摘要
近年来,随着社交媒体帖子的激增,在多模态(图像-文本)内容中检测情感的需求也迅速增长。由于帖子是由用户生成的,同一帖子中的图片和文字可能表达不同甚至相互矛盾的情感,从而导致潜在的情感差异(textbf{sentiment discrepancy})。然而,现有研究主要采用单分支融合结构,主要捕捉图像和文本之间一致的情感。对差异情感的忽略或隐含建模导致单模态编码受损,性能有限。本文提出了一种语义补全和分解(CoDe)网络来解决上述问题。在语义补全模块中,我们利用嵌入在图像中的 OCR 文本的语义对图像和文本表示进行补全,帮助弥合情感差距。在语义分解模块中,我们通过排他性投影和对比学习来分解图像和文本表征,从而明确捕捉模态之间的情感差异。最后,我们通过交叉关注融合图像和文本表征,并将它们与学习到的差异情感相结合,进行最终分类。在四个多模态情感数据集上进行的广泛实验证明,CoDe 优于 SOTA 方法。

3.LVLM-empowered Multi-modal Representation Learning for Visual Place Recognition

标题:用于视觉地点识别的 LVLM 多模式表征学习

author:Teng Wang, Lingquan Meng, Lei Cheng, Changyin Sun

date Time:2024-07-09

paper pdf:http://arxiv.org/pdf/2407.06730v1

摘要
由于视角变化大、外观变化多,视觉地点识别(VPR)仍然具有挑战性。主流研究通过开发各种特征聚合方法,将深层特征转化为稳健、紧凑的全局表示来应对这些挑战。遗憾的是,在具有挑战性的条件下无法取得令人满意的结果。我们从一个新的视角出发,试图通过融合图像数据和视觉场景的文字描述来建立一个具有区分性的全局表征。动机有两个:(1) 当前的大型视觉语言模型(LVLM)在视觉指令跟踪方面表现出非凡的新兴能力,因此为生成图像的文本描述提供了一种高效而灵活的方式;(2) 文本描述提供了高层次的场景理解,对环境变化表现出很强的鲁棒性。尽管前景广阔,但利用 LVLMs 建立多模态 VPR 解决方案仍然是高效多模态融合的挑战。此外,LVLMs 还不可避免地会产生一些不准确的描述,从而增加了工作难度。为了应对这些挑战,我们提出了一种新颖的多模态 VPR 解决方案。它首先将预先训练好的视觉和语言基础模型适配到 VPR 中,用于提取图像和文本特征,然后将其输入特征组合器以相互增强。作为主要组件,特征组合器首先提出了一个标记化关注块,以根据文本标记与图像数据的相关性自适应地重新校准文本标记,然后开发了一个高效的交叉关注融合模块,以在不同模态之间传播信息。增强的多模态特征被压缩到特征描述器中,以便进行检索。实验结果表明,我们的方法在显著降低图像描述符维度的情况下,以较大的优势超越了最先进的方法。

4.Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

标题:基于图形的字幕:通过相互连接的区域字幕增强视觉描述

author:Yu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi

publish:47 pages, 33 figures

date Time:2024-07-09

paper pdf:http://arxiv.org/pdf/2407.06723v1

摘要
人类使用富含链接和关系的简单文字描述来描述复杂的场景。虽然视觉语言研究的目标是开发具有合成理解能力的模型,但这一点在现有的数据集中还没有得到体现,大多数数据集仍然使用纯文本来描述图像。在这项工作中,我们提出了一种新的注释策略–基于图形的字幕(GBC),它使用带有各种类型节点的标记图结构来描述图像。GBC 中的节点是在第一阶段利用对象检测和密集字幕工具创建的,这些工具以递归方式嵌套,以发现和描述实体节点,并在第二阶段通过使用新类型的节点、实体之间的组合和关系来突出显示,从而进一步将这些节点连接在一起。由于所有 GBC 节点都包含纯文本描述,因此 GBC 保留了自然语言中的灵活性,但也可以在其边缘中编码层次信息。我们建立了一个新的数据集 GBC10M,收集了 CC12M 数据集中约 1,000 万张图像的 GBC 注释,从而证明可以使用现成的多模态 LLM 和开放词汇检测模型自动生成 GBC。我们利用 GBC10M 展示了 GBC 通过 CLIP 训练挖掘出的大量节点标题。我们表明,与其他数据集格式相比,使用 GBC 节点注释(尤其是存储在组成和关系节点中的注释)能显著提高下游模型的性能。为了进一步探索 GBC 提供的机遇,我们还提出了一种新的关注机制,该机制可以利用整个 GBC 图,实验结果令人鼓舞,显示了结合图结构的额外优势。我们的数据集发布在 \url{https://huggingface.co/graph-based-captions} 上。

5.CEIA: CLIP-Based Event-Image Alignment for Open-World Event-Based Understanding

标题:CEIA:基于 CLIP 的事件图像对齐,实现基于事件的开放世界理解

author:Wenhao Xu, Wenming Weng, Yueyi Zhang, Zhiwei Xiong

date Time:2024-07-09

paper pdf:http://arxiv.org/pdf/2407.06611v1

摘要
我们提出了基于开放世界事件理解的有效框架 CEIA。目前,由于缺乏成对的事件-文本数据,训练一个大型的事件-文本模型仍然是一个巨大的挑战。为了应对这一挑战,CEIA 学习将事件和图像数据对齐,而不是直接将事件和文本数据对齐。具体来说,我们利用丰富的事件-图像数据集,通过对比学习来学习与 CLIP 图像空间对齐的事件嵌入空间。这样,通过使用图像数据作为桥梁,事件和文本数据就自然地对齐了。特别是,CEIA 具有两个明显的优势。首先,它允许我们充分利用现有的事件图像数据集来弥补大规模事件文本数据集的不足。其次,利用更多的训练数据,它还能灵活地提高性能,确保可扩展性。为了突出我们框架的多功能性,我们通过各种基于事件的多模态应用进行了广泛评估,如物体识别、事件图像检索、事件文本检索和领域适应。评估结果表明,在这些应用中,CEIA 的 "零次扫描 "方法明显优于现有方法。

6.A Single Transformer for Scalable Vision-Language Modeling

标题:用于可扩展视觉语言建模的单一变换器

author:Yangyi Chen, Xingyao Wang, Hao Peng, Heng Ji

publish:Code and data are available at https://github.com/Yangyi-Chen/SOLO

date Time:2024-07-08

paper pdf:http://arxiv.org/pdf/2407.06438v1

摘要
我们提出了可扩展视觉语言模型的单一转换器 SOLO。目前的大型视觉语言模型(LVLM),如 LLaVA,大多采用异构架构,将预先训练好的视觉编码器与大型语言模型(LLM)连接起来,以促进视觉识别和复杂推理。虽然通过相对轻量级的训练实现了出色的性能,但我们发现了四个主要的可扩展性限制:(1)视觉容量受到预先训练的视觉编码器的限制,而视觉编码器通常比 LLM 小一个数量级。(2) 异构架构使使用现有硬件和软件基础设施变得复杂。(3) 在这种架构上研究缩放规律必须考虑三个独立的组件–视觉编码器、连接器和 LLM,这使得分析变得复杂。(4) 使用现有的视觉编码器通常需要按照预定义的图像输入规范进行预处理,例如,将输入图像重塑为固定分辨率的正方形图像,这给高分辨率图像或具有不寻常长宽比的图像的处理和训练带来了困难。统一的单一变换器架构(如 SOLO)可有效解决 LVLMs 中的这些可扩展性问题;然而,它在现代环境中的应用有限,可能是因为缺乏可靠的训练方法来平衡两种模式并确保十亿规模模型的稳定训练。在本文中,我们介绍了首个开源训练方法,用于利用中等学术资源开发开源 7B LVLM SOLO。训练方法包括从 LLM 初始化、在 ImageNet 和网络规模数据上进行顺序预训练,以及在我们策划的高质量数据集上进行指令微调。在广泛的评估中,SOLO 的性能可与 LLaVA-v1.5-7B 相媲美,尤其是在视觉数学推理方面表现出色。

7.VIMI: Grounding Video Generation through Multi-modal Instruction

标题:VIMI:通过多模式教学将视频生成工作落到实处

author:Yuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov

date Time:2024-07-08

paper pdf:http://arxiv.org/pdf/2407.06304v1

摘要
现有的文本到视频扩散模型仅依赖纯文本编码器进行预训练。这种局限性源于缺乏大规模的多模态提示视频数据集,从而导致缺乏视觉基础,限制了其在多模态整合中的通用性和应用。为了解决这个问题,我们利用检索方法将上下文示例与给定的文本提示配对,构建了一个大规模多模态提示数据集,然后利用两阶段训练策略,在同一模型中完成不同的视频生成任务。在第一阶段,我们提出了一个多模态条件视频生成框架,用于在这些增强型数据集上进行预训练,从而建立一个基础视频生成模型。其次,我们在三个视频生成任务中对第一阶段的模型进行微调,并纳入多模态指令。这一过程进一步完善了模型处理不同输入和任务的能力,确保了多模态信息的无缝整合。如图 1 所示,经过这两个阶段的训练过程,VIMI 展示了多模态理解能力,能根据所提供的输入内容生成语境丰富的个性化视频。与之前的视觉基础视频生成方法相比,VIMI 可以合成具有大运动量的一致且时间上连贯的视频,同时保留语义控制。最后,VIMI 还在 UCF101 基准上实现了最先进的文本到视频生成结果。

8.Multi-Object Hallucination in Vision-Language Models

标题:视觉语言模型中的多目标幻觉

author:Xuweiyi Chen, Ziqiao Ma, Xuejun Zhang, Sihan Xu, Shengyi Qian, Jianing Yang, David F. Fouhey, Joyce Chai

publish:Accepted to ALVR @ ACL 2024 | Project page: https://multi-object-hallucination.github.io/

date Time:2024-07-08

paper pdf:http://arxiv.org/pdf/2407.06192v1

摘要
大型视觉语言模型(LVLMs)经常出现物体幻觉,生成的物体在给定图像中并不存在。当前的物体幻觉基准主要集中在单个物体类别而非单个实体的存在上,而本研究则系统地调查了多物体幻觉,研究了模型在同时关注多个物体时是如何产生错误认知的(例如,编造不存在的物体或分心)。我们介绍了基于识别的物体探测评估(ROPE),这是一种自动评估协议,它在测试过程中考虑了单个图像中物体类别的分布,并使用视觉参考提示来消除模糊性。通过全面的实证研究和对导致多物体幻觉的潜在因素的分析,我们发现:(1) 与单个物体相比,LVLMs 在关注多个物体时会产生更多幻觉。(2)测试对象的类别分布会影响幻觉行为,这表明 LVLMs 可能会遵循捷径和虚假相关性。(3)幻觉行为受数据特定因素、显著性和频率以及模型内在行为的影响。我们希望让 LVLMs 能够识别和推理现实视觉场景中经常出现的多个物体,提供见解,并量化我们在缓解这些问题方面所取得的进展。

9.Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision

标题:Video-STaR:自我培训可在任何监督下进行视频教学调整

author:Orr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy

publish:Project page: https://orrzohar.github.io/projects/video-star/

date Time:2024-07-08

paper pdf:http://arxiv.org/pdf/2407.06189v1

摘要
大型视觉语言模型(LVLM)的性能取决于其训练数据集的规模和质量。现有的视频教学调整数据集缺乏多样性,因为它们是通过用视频字幕提示大型语言模型来生成问答对的,因此大多是描述性的。然而,我们发现将这些数据集整合到 LVLM 中并非易事。在此,我们提出了第一种视频自我训练方法–增强推理视频自我训练(Video-STaR)。Video-STaR 允许利用任何有标签的视频数据集进行视频指令调整。在 Video-STaR 中,LVLM 在指令生成和微调之间循环往复,我们证明了这一点:(I) 提高了一般视频理解能力;(II) 使 LVLM 在现有监督下适应新的下游任务。在生成过程中,LVLM 会被提示提出一个答案。然后只筛选出包含原始视频标签的答案,然后在生成的数据集上重新训练 LVLM。通过只对包含正确视频标签的生成答案进行训练,Video-STaR 利用这些现有视频标签作为视频指令调整的弱监督。我们的研究结果表明,Video-STaR 增强型 LVLM 在以下方面的性能有所提高:(I)一般视频质量保证,TempCompass 的性能提高了 10%;(II)下游任务,Video-STaR 将 Kinetics700-QA 的准确率提高了 20%,将 FineDiving 的动作质量评估提高了 15%。

10.Vision-Language Models under Cultural and Inclusive Considerations

标题:文化和包容性考虑下的视觉语言模型

author:Antonia Karamolegkou, Phillip Rust, Yong Cao, Ruixiang Cui, Anders Søgaard, Daniel Hershcovich

publish:HuCLLM @ ACL 2024

date Time:2024-07-08

paper pdf:http://arxiv.org/pdf/2407.06177v1

摘要
大型视觉语言模型(VLM)可以通过描述视障人士日常生活中的图像来帮助他们。目前的评估数据集可能无法反映不同文化背景的用户或这一使用案例的情景背景。为了解决这个问题,我们进行了一项调查,以确定字幕偏好,并通过过滤 VizWiz(一个由盲人拍摄的现有图像数据集)提出了一个以文化为中心的评估基准。然后,我们对几种 VLM 进行了评估,研究它们在不同文化背景下作为视觉助手的可靠性。虽然我们对最先进模型的评估结果很有希望,但我们也发现了一些挑战,如幻觉和自动评估指标与人类判断不一致。我们公开了我们的调查、数据、代码和模型输出结果。

11.ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation

标题:ANOLE:用于交错图像-文本生成的开放、自回归、本地大型多模态模型

author:Ethan Chern, Jiadi Su, Yan Ma, Pengfei Liu

date Time:2024-07-08

paper pdf:http://arxiv.org/pdf/2407.06135v1

摘要
以前的开源大型多模态模型(LMM)面临着几个限制:(1)它们通常缺乏原生集成,需要适配器将视觉表征与预先训练的大型语言模型(LLM)对齐;(2)许多模型仅限于单模态生成;(3)虽然有些模型支持多模态生成,但它们依赖于单独的扩散模型来进行视觉建模和生成。为了减少这些局限性,我们提出了 Anole,一个开放、自回归、本地大型多模态模型,用于交错图像-文本生成。我们以 Meta AI 的变色龙为基础构建了 Anole,采用了创新的微调策略,既节省数据,又节省参数。Anole 展示了高质量、连贯的多模态生成能力。我们已将模型、训练框架和指令调整数据开源。

12.3D Vision and Language Pretraining with Large-Scale Synthetic Data

标题:利用大规模合成数据进行 3D 视觉和语言预训练

author:Dejie Yang, Zhu Xu, Wentao Mo, Qingchao Chen, Siyuan Huang, Yang Liu

publish:accepted by IJCAI2024

date Time:2024-07-08

paper pdf:http://arxiv.org/pdf/2407.06084v1

摘要
三维视觉语言预训练(3D-VLP)旨在提供一种预训练模型,该模型可以将三维场景与自然语言连接起来,而自然语言是体现智能的一项重要技术。然而,目前的 3D-VLP 数据集受到场景级多样性有限和细粒度注释不足的阻碍(ScanScribe 中只有 1.2K 个场景和 280K 个文本注释),这主要是由于收集和注释 3D 场景耗费大量人力。为了克服这些障碍,我们构建了 SynVL3D,这是一个综合的合成场景-文本语料库,包含 1 万个室内场景和 100 万条对象、视图和房间级别的描述,具有场景数据多样、文本描述丰富、三维-文本关联度多、收集成本低等优点。利用 SynVL3D 中丰富的注释,我们预训练了一个简单而统一的转换器,通过多粒度预训练任务将三维与语言对齐。此外,我们还在下游任务微调过程中提出了合成到真实领域的适应性方法,以解决领域转移问题。通过大量实验,我们在视觉接地、密集字幕和问题解答等下游任务上取得了一流的性能,从而验证了我们的模型设计的有效性。

13.Advancing Automated Deception Detection: A Multimodal Approach to Feature Extraction and Analysis

标题:推进自动欺骗检测:特征提取和分析的多模态方法

author:Mohamed Bahaa, Mena Hany, Ehab E. Zakaria

date Time:2024-07-08

paper pdf:http://arxiv.org/pdf/2407.06005v1

摘要
随着视频内容的指数级增长,在以人为中心的视频分析中准确检测出欺骗行为已成为当务之急。本研究侧重于提取和组合各种特征,以提高欺骗检测模型的准确性。通过系统地从视觉、音频和文本数据中提取特征,并尝试不同的组合,我们开发出了一种稳健的模型,准确率达到了令人印象深刻的 99%。我们的方法强调了特征工程在欺骗检测中的重要性,提供了一个清晰且可解释的框架。我们使用单模式和多模式方法训练了各种机器学习模型,包括 LSTM、BiLSTM 和预训练 CNN。结果表明,与单一模式训练相比,结合多种模式能显著提高检测性能。这项研究强调了策略性特征提取和组合在开发可靠、透明的视频分析中自动欺骗检测系统方面的潜力,为未来研究中更先进、更准确的检测方法铺平了道路。

14.HyCIR: Boosting Zero-Shot Composed Image Retrieval with Synthetic Labels

标题:HyCIR:利用合成标签提升零镜头合成图像检索能力

author:Yingying Jiang, Hanchao Jia, Xiaobing Wang, Peng Hao

publish:8 pages, 5 figures

date Time:2024-07-08

paper pdf:http://arxiv.org/pdf/2407.05795v2

摘要
合成图像检索(CIR)旨在根据带有文本的查询图像检索图像。目前的零镜头 CIR(ZS-CIR)方法试图在不使用昂贵的三重标签训练数据集的情况下解决 CIR 任务。然而,ZS-CIR 与三元组监督 CIR 之间的差距仍然很大。在这项工作中,我们提出了混合 CIR(HyCIR),它使用合成标签来提高 ZS-CIR 的性能。我们提出了一种新的 CIR 标签合成流水线(SynCir),其中只需要未标记的图像。首先,根据视觉相似性提取图像对。其次,根据视觉语言模型和 LLM 为每对图像生成查询文本。第三,根据语义相似性在语言空间中进一步过滤数据。为了提高 ZS-CIR 的性能,我们提出了一种混合训练策略,同时使用 ZS-CIR 监督和合成 CIR 三元组。我们采用了两种对比学习方法。一种是使用大规模无标记图像数据集来学习具有良好泛化能力的图像到文本映射。另一种是使用合成的 CIR 三元组,为 CIR 任务学习更好的映射。我们的方法在常见的 CIR 基准上实现了 SOTA 零射性能:CIRR 和 CIRCO。

15.GTP-4o: Modality-prompted Heterogeneous Graph Learning for Omni-modal Biomedical Representation

标题:GTP-4o:用于全模态生物医学表征的模态提示异构图学习

author:Chenxin Li, Xinyu Liu, Cheng Wang, Yifan Liu, Weihao Yu, Jing Shao, Yixuan Yuan

publish:Accepted by ECCV2024

date Time:2024-07-08

paper pdf:http://arxiv.org/pdf/2407.05540v1

摘要
多模态表征学习的最新进展见证了生物医学领域的成功。虽然已有的技术能够处理多模态信息,但由于固有的模态差距,当扩展到各种临床模态和实际的模态缺失环境时,就会面临挑战。为了解决这些问题,我们提出了一种创新的全模态学习的模态提示异构图(GTP-4o),它将众多不同的临床模态嵌入到一个统一的表示中,完成了缺失模态的缺陷嵌入,并通过基于图的聚合重新表述了跨模态学习。特别是,我们建立了异构图嵌入,以明确捕捉特定模态特征(节点)和跨模态关系(边)的不同语义属性。然后,我们设计了一种模态提示补全机制,通过图形提示机制补全缺失模态的不完整图形表征,生成幻觉图形拓扑,将缺失的嵌入引向完整的表征。通过已完成的图形,我们精心开发了一种知识指导下的分层跨模态聚合,其中包括一个全局元路径邻接模块和一个局部多关系聚合模块,前者用于挖掘由领域知识驱动的路径上的潜在异质邻接,后者用于跨各种异质关系的全面跨模态交互。我们在严格的基准实验中评估了我们的方法的有效性,并与之前的先进技术进行了对比。总之,GTP-4o 是通过图论整体嵌入、关联和感知来自各种临床模式的异构模式这一有趣领域的初步尝试。项目页面:https://gtp-4-o.github.io/。

16.Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models

标题:注意干扰:在视觉语言模型的参数高效持续学习中保留预训练知识

author:Longxiang Tang, Zhuotao Tian, Kai Li, Chunming He, Hantao Zhou, Hengshuang Zhao, Xiu Li, Jiaya Jia

publish:ECCV 2024

date Time:2024-07-07

paper pdf:http://arxiv.org/pdf/2407.05342v1

摘要
本研究针对的是领域-类别增量学习问题,这是一个现实但具有挑战性的持续学习场景,不同任务的领域分布和目标类别都不尽相同。为了处理这些不同的任务,我们引入了预先训练好的视觉语言模型(VLM),因为它们具有很强的通用性。不过,这也带来了一个新问题:在适应新任务时,预先训练的视觉语言模型中编码的知识可能会受到干扰,从而影响其固有的零误差能力。现有的方法通过在额外的数据集上进行知识提炼来调整 VLM 来解决这个问题,这需要大量的计算开销。为了有效解决这一问题,我们提出了分布感知无干扰知识集成(DIKI)框架,从避免信息干扰的角度出发,保留 VLM 的预训练知识。具体来说,我们设计了一种完全残差机制,将新学习的知识注入冻结的主干网,同时将对预训练知识的不利影响降至最低。此外,这种残差特性使我们能够采用分布感知集成校准方案,明确控制来自未知分布的测试数据的信息植入过程。实验证明,我们的 DIKI 超越了当前最先进的方法,只使用了 0.86% 的训练参数,大大减少了训练时间。代码见:https://github.com/lloongx/DIKI 。

17.FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding

标题:FlowLearn:评估大型视觉语言模型对流程图的理解能力

author:Huitong Pan, Qi Zhang, Cornelia Caragea, Eduard Dragut, Longin Jan Latecki

publish:ECAI 2024

date Time:2024-07-06

paper pdf:http://arxiv.org/pdf/2407.05183v1

摘要
流程图是一种图形工具,用于以简洁的可视化方式表示复杂的概念。本文介绍了 FlowLearn 数据集,这是一种为增强对流程图的理解而量身定制的资源。FlowLearn 包含复杂的科学流程图和模拟流程图。科学子集包含 3858 幅来自科学文献的流程图,模拟子集包含 10,000 幅使用可定制脚本创建的流程图。该数据集使用视觉组件注释、OCR、Mermaid 代码表示法和 VQA 问答对进行了丰富。尽管大型视觉语言模型(LVLM)在各种视觉理解任务中的能力已得到证实,但它们在解码流程图(科学交流的重要元素)方面的有效性还有待深入研究。FlowLearn 测试集旨在评估 LVLM 在流程图理解方面的性能。我们的研究对最先进的 LVLM 进行了全面评估,找出了现有的局限性,并为未来在这一相对欠缺探索的领域进行改进奠定了基础。例如,在涉及模拟流程图的任务中,GPT-4V 在计算节点数方面的准确率最高(58%),而 Claude 在 OCR 任务中的准确率最高(83%)。值得注意的是,在 FlowLearn 框架内,没有一个模型在所有任务中都表现出色,这凸显了进一步发展的重要机遇。

18.RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models

标题:RULE:医学视觉语言模型中的可靠多模态事实性 RAG

author:Peng Xia, Kangyu Zhu, Haoran Li, Hongtu Zhu, Yun Li, Gang Li, Linjun Zhang, Huaxiu Yao

date Time:2024-07-06

paper pdf:http://arxiv.org/pdf/2407.05131v1

摘要
最近出现的医学大型视觉语言模型(Med-LVLMs)提高了医疗诊断水平。然而,目前的医学大型视觉语言模型经常会遇到事实问题,生成的回复往往与既定的医学事实不符。利用外部知识的检索增强生成(RAG)可以提高这些模型的事实准确性,但也带来了两大挑战。首先,有限的检索上下文可能无法涵盖所有必要信息,而过度检索则会引入不相关和不准确的参考资料,从而干扰模型的生成。其次,在模型最初做出正确响应的情况下,应用 RAG 可能会导致过度依赖检索到的上下文,从而得出错误的答案。为了解决这些问题,我们提出了由两部分组成的 RULE。首先,我们引入了一种可证明的有效策略,通过校准选择检索语境的数量来控制事实性风险。其次,在过度依赖检索语境导致错误的样本基础上,我们策划了一个偏好数据集来对模型进行微调,平衡其对固有知识和检索语境生成的依赖。我们在三个医疗 VQA 数据集上展示了 RULE 的有效性,事实准确率平均提高了 20.8%。我们在 https://github.com/richard-peng-xia/RULE 上公开发布了我们的基准和代码。

19.CLIPVQA:Video Quality Assessment via CLIP

标题:CLIPVQA:通过 CLIP 进行视频质量评估

author:Fengchuang Xing, Mingjie Li, Yuan-Gen Wang, Guopu Zhu, Xiaochun Cao

date Time:2024-07-06

paper pdf:http://arxiv.org/pdf/2407.04928v1

摘要
在从网络规模的数据中学习视觉语言表征方面,对比语言图像预训练(CLIP)机制在许多视觉任务中都表现出了卓越的性能。然而,将其应用于广泛研究的视频质量评估(VQA)任务仍是一个未决问题。在本文中,我们针对 VQA 问题提出了一种高效且有效的基于 CLIP 的变换器方法(CLIPVQA)。具体来说,我们首先设计了一种有效的视频帧感知范式,目的是提取视频帧中丰富的时空质量和内容信息。然后,利用自注意机制将时空质量特征充分整合在一起,以产生视频级质量表示。为了利用视频的质量语言描述进行监督,我们开发了一种基于 CLIP 的语言嵌入编码器,然后通过交叉注意模块将其与生成的内容信息充分聚合,从而产生视频语言表示。最后,视频级质量和视频语言表示被融合在一起,用于最终的视频质量预测,其中采用了向量化回归损失,以实现高效的端到端优化。为了评估 CLIPVQA 的性能,我们在八个不同分辨率的野生视频数据集上进行了综合实验。实验结果表明,与现有的基准 VQA 方法相比,所提出的 CLIPVQA 实现了新的一流 VQA 性能,并将通用性提高了 37%。此外,还进行了一系列烧蚀研究,以验证 CLIPVQA 中每个模块的有效性。

20.OmChat: A Recipe to Train Multimodal Language Models with Strong Long Context and Video Understanding

标题:OmChat:训练具有强大长语境和视频理解能力的多模态语言模型的秘诀

author:Tiancheng Zhao, Qianqian Zhang, Kyusong Lee, Peng Liu, Lu Zhang, Chunxin Fang, Jiajia Liao, Kelei Jiang, Yibo Ma, Ruochen Xu

publish:14 pages

date Time:2024-07-06

paper pdf:http://arxiv.org/pdf/2407.04923v1

摘要
我们向您介绍 OmChat,这是一款专为处理长语境和视频理解任务而设计的模型。OmChat 的新架构规范了不同视觉输入的处理方式,使其更高效、适应性更强。它采用动态视觉编码流程,能有效处理各种分辨率的图像,捕捉各种图像质量的细节。OmChat 采用主动渐进式多模态预训练策略,可逐步提高模型对长语境的处理能力,并增强其整体能力。通过在训练过程中选择高质量数据,OmChat 可以从最相关、信息量最大的数据点进行学习。OmChat 支持高达 512K 的上下文长度,在涉及多张图片和视频的任务中表现出色,在这些基准测试中优于大多数开源模型。此外,OmChat 还提出了一种提示策略,用于统一复杂的多模态输入(包括单图像文本、多图像文本和视频),并在单图像基准测试中取得了具有竞争力的性能。为了进一步评估该模型的能力,我们提出了一个名为 "干草堆中的时空视觉针 "的基准数据集。该数据集评估了 OmChat 理解长视频中时间视觉细节的能力。我们的分析强调了 OmChat 取得成功的几个关键因素:支持任何方面的高图像分辨率、主动渐进式预训练策略和高质量的监督微调数据集。本报告详细概述了 OmChat 的功能以及提高其视觉理解性能的策略。

21.Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge

标题:重新思考利用外部知识为多模态大语言模型提供视觉提示

author:Yuanze Lin, Yunsheng Li, Dongdong Chen, Weijian Xu, Ronald Clark, Philip Torr, Lu Yuan

date Time:2024-07-05

paper pdf:http://arxiv.org/pdf/2407.04681v1

摘要
近年来,多模态大语言模型(MLLMs)通过在大量高质量图像-文本数据集上进行训练,取得了长足的进步,使其能够很好地理解图像。然而,在文本中明确传达细粒度或空间密集信息(如遮罩)的固有困难给多模态大语言模型带来了挑战,限制了它们回答需要理解细节或局部视觉元素的问题的能力。受检索增强生成(RAG)概念的启发,本文提出了一种新的视觉提示方法,将从专业视觉模型(如实例分割/OCR 模型)中收集到的细粒度外部知识整合到 MLLM 中。这是提高 MLLM 性能的一个前景广阔但尚未得到充分探索的方向。我们的方法有别于目前的研究,后者将外部知识转化为额外的文本提示,从而使模型必须间接学习视觉内容与文本坐标之间的对应关系。相反,我们建议将细粒度的知识信息直接嵌入空间嵌入图作为视觉提示。这种设计可以毫不费力地集成到各种 MLLM 中,如 LLaVA 和 Mipha,从而大大提高它们的视觉理解性能。通过严格的实验,我们证明了我们的方法可以提高 MLLM 在九个基准测试中的性能,增强其细粒度上下文感知能力。

22.MARS: Paying more attention to visual attributes for text-based person search

标题:MARS:在基于文本的人物搜索中更多关注视觉属性

author:Alex Ergasti, Tomaso Fontanini, Claudio Ferrari, Massimo Bertozzi, Andrea Prati

date Time:2024-07-05

paper pdf:http://arxiv.org/pdf/2407.04287v1

摘要
基于文本的人物搜索(TBPS)是一个在研究界备受关注的问题。其任务是根据文字描述检索特定个人的一张或多张图像。这项任务的多模态性质要求学习在共享潜空间内连接文本和图像数据的表示方法。现有的 TBPS 系统面临两大挑战。一个是身份间噪声,这是由于文本描述固有的模糊性和不精确性造成的,它表明视觉属性的描述如何能够普遍地与不同的人相关联;另一个是身份内变化,即所有的干扰,如姿势、光照等,这些干扰会改变给定主体的相同文本属性的视觉外观。为了解决这些问题,本文提出了一种名为 MARS(Mae-Attribute-Relation-Sensitive)的新型 TBPS 架构,它通过引入两个关键组件来增强当前最先进的模型:视觉重构损失和属性损失。前者采用经过训练的遮蔽自动编码器,借助文本描述重建随机遮蔽的图像片段。这样做可以鼓励模型在潜在空间中学习更具表现力的表征和文本-视觉关系。而 “属性损失”(Attribute Loss)则平衡了不同类型属性(定义为文本中的形容词-名词块)的贡献。这种损失可确保在人物检索过程中考虑到每个属性。在三个常用数据集(即 CUHK-PEDES、ICFG-PEDES 和 RSTPReid)上进行的广泛实验表明,该方法的性能有所改进,平均精确度(mAP)指标与当前技术水平相比有显著提高。

23.Elevating All Zero-Shot Sketch-Based Image Retrieval Through Multimodal Prompt Learning

标题:通过多模态提示学习提升基于草图的全零镜头图像检索能力

author:Mainak Singha, Ankit Jha, Divyam Gupta, Pranav Singla, Biplab Banerjee

publish:Accepted in ECCV 2024

date Time:2024-07-05

paper pdf:http://arxiv.org/pdf/2407.04207v1

摘要
我们利用视觉语言基础模型 CLIP,解决了基于草图的图像检索(SBIR)在各种环境下固有的挑战,包括零镜头 SBIR、广义零镜头 SBIR 和细粒度零镜头 SBIR。虽然近期已有研究利用 CLIP 来增强 SBIR,但这些方法主要遵循单模态提示处理,而忽略了充分利用 CLIP 的综合视觉和文本能力。为了缩小这一差距,我们引入了 SpLIP,这是一种新颖的多模式提示学习方案,旨在与冻结的 CLIP 主干网一起有效运行。与现有的多模式提示方法不同,我们的方法要么独立处理视觉和文本提示,要么以有限的方式整合它们,从而导致次优泛化。SpLIP 实施了一种双向提示共享策略,使 CLIP 的视觉编码器和文本编码器之间能够相互交换知识,从而形成了一种更具凝聚力和协同性的提示处理机制,大大缩小了草图和照片嵌入之间的语义差距。除了开创性的多模态提示学习外,我们还提出了两项创新策略,以进一步完善嵌入空间。第一种是为草图-照片三重损失生成自适应余量,由 CLIP 的类文本嵌入进行调节。第二项是引入一项新任务,称为条件跨模态拼图,旨在通过使用未剪辑照片的知识隐式地模拟草图的可行补丁排列,从而增强草图与照片的精细配准。我们对多个基准进行了全面的实验评估,结果表明 SpLIP 在所有三种 SBIR 场景中都表现出色。代码见 https://github.com/mainaksingha01/SpLIP。

24.CLIP-DR: Textual Knowledge-Guided Diabetic Retinopathy Grading with Ranking-aware Prompting

标题:CLIP-DR:文本知识引导下的糖尿病视网膜病变分级与等级感知提示

author:Qinkai Yu, Jianyang Xie, Anh Nguyen, He Zhao, Jiong Zhang, Huazhu Fu, Yitian Zhao, Yalin Zheng, Yanda Meng

publish:Accepted by MICCAI 2024

date Time:2024-07-04

paper pdf:http://arxiv.org/pdf/2407.04068v1

摘要
糖尿病视网膜病变(DR)是糖尿病的一种并发症,通常需要几十年的时间才能达到危及视力的程度。准确、可靠地检测糖尿病视网膜病变的严重程度对于及时管理和治疗糖尿病至关重要。然而,目前大多数 DR 分级方法对数据变异(如彩色眼底图像)的鲁棒性不足,给准确、鲁棒性分级带来了巨大困难。在这项工作中,我们基于以下三点提出了一种新型 DR 分级框架 CLIP-DR:1) 近期预训练的视觉语言模型(如 CLIP)在各种下游任务中展示了显著的泛化能力,可作为有效的基线模型。2) 图像-文本对的 DR 分级通常遵循可识别的自然序列,但大多数现有的 DR 分级方法都忽略了这一点。3) DR 严重程度等级之间的长尾分布使分级过程变得复杂。这项工作提出了一种新颖的等级感知提示策略,以帮助 CLIP 模型利用顺序信息。具体来说,我们在两个不同的等级方向上,在相邻的文本-图片对之间依次设计可学习的提示。此外,我们还在 CLIP 的结构中引入了相似性矩阵平滑模块,以平衡类别分布。最后,我们在 GDRBench 基准上与几种最先进的方法进行了广泛的比较,证明了 CLIP-DR 的鲁棒性和卓越性能。实现代码可在\footnote{\url{https://github.com/Qinkaiyu/CLIP-DR}获取。

25.Visualizing Dialogues: Enhancing Image Selection through Dialogue Understanding with Large Language Models

标题:对话可视化:利用大型语言模型通过对话理解加强图像选择

author:Chang-Sheng Kao, Yun-Nung Chen

date Time:2024-07-04

paper pdf:http://arxiv.org/pdf/2407.03615v1

摘要
对话系统的最新进展凸显了整合多模态响应的重要性,它可以通过不同的模态而不是仅仅依赖基于文本的互动来传达想法。这种丰富性不仅能提高整体交流效率,还能提升对话体验的质量。然而,由于预先训练的视觉语言模型(VLM)在准确理解复杂对话方面的限制,现有的对话到图像检索方法面临着局限性。为了解决这个问题,我们提出了一种新方法,利用大型语言模型(LLM)的强大推理能力生成精确的对话相关视觉描述符,从而促进与图像的无缝连接。在基准数据上进行的广泛实验验证了我们提出的方法在生成简洁准确的视觉描述符方面的有效性,从而显著提高了对话到图像的检索性能。此外,我们的研究结果还证明了该方法在不同视觉线索、不同 LLM 和不同数据集上的通用性,从而强调了该方法在现实世界应用中的实用性和潜在影响。


原文地址:https://blog.csdn.net/weixin_44362044/article/details/140335544

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!