自学内容网 自学内容网

AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.05-2024.09.10

1.DetailCLIP: Detail-Oriented CLIP for Fine-Grained Tasks

标题:DetailCLIP:面向细粒度任务的面向细节的 CLIP

author:Amin Karimi Monsefi, Kishore Prakash Sailaja, Ali Alilooee, Ser-Nam Lim, Rajiv Ramnath

date Time:2024-09-10

paper pdf:http://arxiv.org/pdf/2409.06809v1

摘要
在本文中,我们介绍了 “DetailCLIP:面向细节的 CLIP”,以解决基于对比学习的视觉语言模型,尤其是 CLIP,在处理分割等面向细节和细粒度任务时的局限性。虽然 CLIP 及其变体在图像和文本表征的全局对齐方面表现出色,但它们往往难以捕捉到精确分割所需的细粒度细节。为了克服这些挑战,我们提出了一个新颖的框架,该框架采用了补丁级自抖和像素级重构损失比较,并增强了基于注意力的标记去除机制。这种方法有选择性地保留了语义相关的标记,使模型能够专注于与我们模型的特定功能(包括文本信息处理、补丁比较和图像重建)相一致的图像关键区域,确保模型能够学习高级语义和详细的视觉特征。我们的实验证明,DetailCLIP 在分割准确性上超越了现有的基于 CLIP 的模型和传统的自监督学习 (SSL) 模型,并在不同的数据集上表现出卓越的泛化能力。DetailCLIP 代表了视觉语言建模领域的重大进步,为需要高级语义理解和详细特征提取的任务提供了强大的解决方案。https://github.com/KishoreP1/DetailCLIP。

2.EyeCLIP: A visual-language foundation model for multi-modal ophthalmic image analysis

标题:EyeCLIP:用于多模式眼科图像分析的视觉语言基础模型

author:Danli Shi, Weiyi Zhang, Jiancheng Yang, Siyu Huang, Xiaolan Chen, Mayinuer Yusufu, Kai Jin, Shan Lin, Shunming Liu, Qing Zhang, Mingguang He

date Time:2024-09-10

paper pdf:http://arxiv.org/pdf/2409.06644v2

摘要
早期发现青光眼、黄斑变性和糖尿病视网膜病变等眼科疾病对于预防视力丧失至关重要。虽然人工智能(AI)基础模型在应对这些挑战方面大有可为,但现有的眼科基础模型主要侧重于单一模式,而眼科疾病的诊断需要多种模式。一个关键但往往被忽视的方面是如何利用针对同一患者的各种模式的多视角信息。此外,由于眼科疾病的长尾特性,标准的完全监督或无监督学习方法往往难以奏效。因此,整合临床文本以捕捉更广泛的疾病谱至关重要。我们提出的 EyeCLIP 是一种视觉语言基础模型,它是利用超过 277 万张多模态眼科图像和部分文本数据开发而成的。为了充分利用大量的多模态无标记和有标记数据,我们引入了一种预训练策略,该策略结合了自我监督重构、多模态图像对比学习和图像-文本对比学习,以学习多种模态的共享表征。通过使用 14 个基准数据集进行评估,EyeCLIP 可广泛应用于涉及眼部和全身疾病的下游任务,在疾病分类、视觉问题解答和跨模态检索方面取得了最先进的性能。与以前的方法相比,EyeCLIP 取得了重大进步,特别是在现实世界的长尾场景中展示了少镜头甚至零镜头的能力。

3.Quantifying and Enabling the Interpretability of CLIP-like Models

标题:量化 CLIP 类模型并提高其可解释性

author:Avinash Madasu, Yossi Gandelsman, Vasudev Lal, Phillip Howard

date Time:2024-09-10

paper pdf:http://arxiv.org/pdf/2409.06579v1

摘要
CLIP 是最流行的基础模型之一,被大量用于许多视觉语言任务。然而,人们对 CLIP 的内部运作却知之甚少。为了弥补这一差距,我们提出了一项研究,以量化 CLIP 类模型的可解释性。我们对 OpenAI 和 OpenCLIP 的六种不同 CLIP 模型进行了研究,这些模型的大小、预训练数据类型和补丁大小各不相同。我们的方法首先是使用 TEXTSPAN 算法和上下文学习,将单个注意头分解为特定属性。然后,我们使用新的指标来评估这些注意点的解释难易程度,这些指标用于衡量注意点内部的属性一致性和注意点之间的属性不连续性。我们的研究结果表明,较大的 CLIP 模型通常比较小的模型更容易解读。为了进一步帮助用户了解 CLIP 模型的内部运作,我们介绍了 CLIP-InterpreT,这是一个专为可解释性分析而设计的工具。CLIP-InterpreT 提供五种类型的分析:基于属性的近邻搜索、每头主题分割、对比分割、图像的每头近邻和文本的每头近邻。

4.Mitigating Hallucination in Visual-Language Models via Re-Balancing Contrastive Decoding

标题:通过重新平衡对比解码减轻视觉语言模型中的幻觉

author:Xiaoyu Liang, Jiayuan Yu, Lianrui Mu, Jiedong Zhuang, Jiaqi Hu, Yuchen Yang, Jiangnan Ye, Lu Lu, Jian Chen, Haoji Hu

publish:PRCV

date Time:2024-09-10

paper pdf:http://arxiv.org/pdf/2409.06485v1

摘要
尽管视觉语言模型(VLMs)在视觉问题解答和图像字幕等任务中表现出了令人印象深刻的能力,但它们在处理幻觉时仍然举步维艰。对这些模型中注意力分布的分析表明,视觉语言模型倾向于处理文本标记而非视觉标记。这种注意力分布的不平衡导致 VLM 在多模态知识冲突的情况下偏向于文本知识,从而造成与图像信息的差异。在本文中,我们提出了重新平衡对比解码(RBD)方法,利用文本和视觉分支来重新平衡 VLM 中的注意力分布。具体来说,文本分支注入图像噪声,以刺激模型对文本的依赖,从而减少文本偏差。同时,视觉分支专注于重要标记的选择,完善注意力机制以突出主要主题。这种双分支策略使 RBD 方法能够在增强视觉信息的同时减少文本偏差。实验结果表明,我们的 RBD 方法在 CHAIR 和 POPE 指标上优于现有方法,在减轻幻觉的同时并没有降低模型的一般能力。

5.Revisiting Prompt Pretraining of Vision-Language Models

标题:重新审视视觉语言模型的提示预训练

author:Zhenyuan Chen, Lingfeng Yang, Shuo Chen, Zhaowei Chen, Jiajun Liang, Xiang Li

date Time:2024-09-10

paper pdf:http://arxiv.org/pdf/2409.06166v1

摘要
提示学习是为各种下游任务定制视觉语言模型(VLM)的有效方法,只需调整极少量的输入提示标记参数。最近,大规模数据集(如 ImageNet-21K)中的提示预训练在通用视觉识别的提示学习中发挥了至关重要的作用。然而,我们重新审视并观察到,在提示预训练过程中,由于大量图像的存在,有限的可学习提示可能会面临拟合不足的风险,同时导致泛化效果不佳。针对上述问题,我们在本文中提出了一个名为 "重新审视提示预训练(Revisiting Prompt Pretraining,RPP)"的总体框架,旨在从提示结构和提示监督两个方面提高拟合和泛化能力。在提示结构方面,我们打破了常见的限制,即查询、关键字和值向量都来自共享的可学习提示标记。取而代之的是,我们引入了非共享的单个查询、密钥和值可学习提示,从而通过增加参数多样性来提高模型的拟合能力。在提示监督方面,我们还利用了由对比语言图像预训练(CLIP)教师模型提供的零镜头概率预测得出的软标签。这些软标签能更细致、更全面地洞察类间关系,从而使预训练过程具有更好的泛化能力。RPP 生成了更具弹性的提示初始化,增强了其在各种视觉识别任务中的稳健转移能力。在各种基准测试中进行的实验一致证实,我们的预训练提示具有最先进(SOTA)的性能。代码和模型即将发布。

6.MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

标题:MMEvol:利用 Evol-Instruct 增强多模态大型语言模型的能力

author:Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li

date Time:2024-09-09

paper pdf:http://arxiv.org/pdf/2409.05840v2

摘要
多模态大语言模型(MLLMs)的发展随着各领域(如多模态代理、嵌入式智能)日益增长的需求而取得了长足的进步。虽然模型驱动的方法试图通过不同的架构来增强 MLLM 的能力,但其收益已变得越来越微不足道。相反,数据驱动方法虽然能扩展图像-文本指令数据,但却更加有效,而且还面临数据多样性和复杂性有限的挑战。缺乏高质量数据是 MLLMs 发展的一大障碍。为了解决数据质量瓶颈问题,我们提出了一种新颖的多模态教学数据演化框架 MMEvol。该框架通过细粒度感知、认知推理和交互进化的精巧组合,不断提高数据质量,生成更复杂、更多样的图像-文本指令数据集,从而增强 MLLM 的能力。从最初的指令集 SEED-163K 开始,我们利用 MMEvol 系统性地扩大了指令类型的多样性,扩展了视觉推理步骤以提高认知推理能力,并深入探索图像中的细粒度信息以增强视觉理解和稳健性。为了全面评估我们的方法的有效性,我们在 13 项视觉语言任务中进行了广泛的定性分析和定量实验。结果表明,与使用初始种子数据训练的基线模型相比,我们的方法平均提高了 3.1 个百分点的准确率。此外,与最先进的模型相比,我们的方法使用的数据量明显更少,在九个任务中达到了最先进的(SOTA)性能。

7.Seeing is Believing? Enhancing Vision-Language Navigation using Visual Perturbations

标题:眼见为实?利用视觉干扰增强视觉语言导航能力

author:Xuesong Zhang, Jia Li, Yunbo Xu, Zhenzhen Hu, Richang Hong

publish:5 pages, 2 figures, submitted to ICASSP 2025

date Time:2024-09-09

paper pdf:http://arxiv.org/pdf/2409.05552v1

摘要
在自然语言指令的指导下,为实体代理进行自主导航仍然是视觉语言导航(VLN)领域的一项艰巨挑战。尽管最近在学习细粒度和多种视觉表征方面取得了令人瞩目的进展,但过度适应训练环境的趋势导致泛化性能不尽人意。在这项工作中,我们提出了一种多功能多分支架构(MBA),旨在探索和利用多样化的视觉输入。具体来说,我们引入了三种不同的视觉变体:地面实况深度图像、与不一致视图整合的视觉输入以及注入随机噪音的视觉输入,以丰富视觉输入表征的多样性,防止过度拟合原始 RGB 观察结果。为了自适应地融合这些不同的输入,提出的 MBA 将基本代理模型扩展为多分支变体,其中每个分支处理不同的视觉输入。令人惊讶的是,即使是随机噪声也能进一步提高在未知环境中的导航性能。在三个 VLN 基准(R2R、REVERIE、SOON)上进行的广泛实验表明,我们提出的方法等同于甚至超越了最先进的结果。源代码将公开发布。

8.Alt-MoE: Multimodal Alignment via Alternating Optimization of Multi-directional MoE with Unimodal Models

标题:Alt-MoE:通过单模态模型交替优化多向 MoE 实现多模态对齐

author:Hongyang Lei, Xiaolong Cheng, Dan Wang, Qi Qin, Huazhen Huang, Yetao Wu, Qingqing Gu, Zhonglin Jiang, Yong Chen, Luo Ji

publish:work in progress

date Time:2024-09-09

paper pdf:http://arxiv.org/pdf/2409.05929v1

摘要
最近的大型多模态模型(LMM)通过采用轻量级连接模块来促进现有预训练单模态模型的知识表征和融合,在多模态配准方面取得了重大进展。然而,这些方法仍然依赖于特定模态和特定方向的连接器,导致知识表征的条块分割和计算效率的降低,从而限制了模型形成统一的多模态表征的能力。为了解决这些问题,我们引入了一个新颖的训练框架 Alt-MoE,它采用专家混合物(MoE)作为跨模态的统一多向连接器,并采用多步顺序交替单向配准策略,通过迭代收敛到双向配准。广泛的实证研究揭示了以下要点:1)Alt-MoE 通过整合单模态模型的各种知识表征,实现了有竞争力的结果。这种方法无缝融合了现有高性能单模态模型的专业知识,有效地将其特定领域的知识合成为一个有内聚力的多模态表征。2) Alt-MoE 可以在不改变模型架构或训练策略的情况下,高效地扩展到新的任务和模式。此外,Alt-MoE 在潜空间中运行,通过轻量级多向 MoE 支持向量预存储和实时检索,从而促进海量数据处理。我们的方法已在几个性能良好的单模态模型(LLAMA3、Qwen2 和 DINOv2)上进行了验证,在广泛的下游任务和数据集上取得了有竞争力的结果。

9.RexUniNLU: Recursive Method with Explicit Schema Instructor for Universal NLU

标题:RexUniNLU:带有显式模式指导器的递归方法用于通用 NLU

author:Chengyuan Liu, Shihang Wang, Fubang Zhao, Kun Kuang, Yangyang Kang, Weiming Lu, Changlong Sun, Fei Wu

publish:arXiv admin note: substantial text overlap with arXiv:2304.14770

date Time:2024-09-09

paper pdf:http://arxiv.org/pdf/2409.05275v1

摘要
信息提取(IE)和文本分类(CLS)是 NLU 的基本支柱,这两门学科都依赖于分析输入序列,将输出结果归类到预先建立的模式中。然而,目前还没有一个基于编码器的模型能从这个角度将信息输入和信息分类任务统一起来。为了充分探索 NLU 任务中共享的基础,我们为通用 NLU 提出了一种带有显式模式指导器的递归方法。具体来说,我们首先用一种形式化的表述重新定义了真正的通用信息提取(UIE),这种表述涵盖了几乎所有的提取模式,包括以往的 UIE 模型尚未解决的四元和五元模式。然后,我们将这一表述扩展到所有 CLS 和多模态 NLU 任务。在此基础上,我们引入了 RexUniNLU,这是一种通用的 NLU 解决方案,它对 IE 和 CLS 采用了明确的模式约束,涵盖了所有 IE 和 CLS 任务,防止了模式与输入序列之间的错误连接。为了避免不同模式之间的干扰,我们重新设置了位置id和注意力掩码矩阵。我们在中英文 IE、中英文 CLS 和多模态上进行了广泛的实验,揭示了其有效性和优越性。我们的代码已公开发布。

10.Enhancing Outlier Knowledge for Few-Shot Out-of-Distribution Detection with Extensible Local Prompts

标题:利用可扩展的本地提示增强离群点知识,以进行少发离群点检测

author:Fanhu Zeng, Zhen Cheng, Fei Zhu, Xu-Yao Zhang

date Time:2024-09-07

paper pdf:http://arxiv.org/pdf/2409.04796v1

摘要
分布外(OOD)检测旨在将异常值从已知类别中区分出来,在实际应用中越来越受到重视。最近,视觉语言模型(VLM)的出现提高了人们对通过少数几次调整来增强 VLM 的 OOD 检测能力的兴趣。然而,现有的方法主要侧重于优化全局提示,而忽略了对异常值的局部信息的精细利用。受此启发,我们冻结了全局提示,并引入了一种新颖的从粗到细的调整范式,以强调通过局部提示进行区域增强。我们的方法由两部分组成:全局提示引导的负增强和局部提示增强的区域正则化。前者利用冻结的粗略全局提示作为引导线索,纳入负增强,从而利用本地离群点知识。后者利用可训练的本地提示和区域正则化来有效捕捉本地信息,从而帮助离群点识别。我们还提出了与区域相关的指标,以增强离群点检测的丰富性。此外,由于我们的方法只探索如何增强局部提示,因此可以在推理过程中与训练有素的全局提示无缝集成,从而提高性能。综合实验证明了我们方法的有效性和潜力。值得注意的是,我们的方法在具有挑战性的 ImageNet-1k 数据集上进行了 4 次调整,与最先进的方法相比,平均 FPR95 降低了 5.17%,甚至优于先前方法的 16 次调整结果。

11.MuAP: Multi-step Adaptive Prompt Learning for Vision-Language Model with Missing Modality

标题:MuAP:缺失模态视觉语言模型的多步自适应提示学习

author:Ruiting Dai, Yuqiao Tan, Lisi Mo, Tao He, Ke Qin, Shuang Liang

date Time:2024-09-07

paper pdf:http://arxiv.org/pdf/2409.04693v1

摘要
最近,提示学习因其在各种视觉语言(VL)任务中的成功应用而备受关注。然而,现有的基于提示的模型主要侧重于研究完整模态设置下的提示生成和提示策略,这并不能准确反映部分模态信息可能缺失的真实世界场景。在本文中,我们首次对模态不完整时的提示学习行为进行了全面研究,揭示了基于提示的模型对模态缺失的高度敏感性。为此,我们提出了一个新颖的多步自适应提示学习(MuAP)框架,旨在生成多模态提示并执行多步提示调整,通过迭代调整模态来自适应地学习知识。具体来说,我们为每种模态生成多模态提示,并设计提示策略将其整合到转换器模型中。随后,我们依次从单一阶段和对齐阶段对提示进行调整,使每种模态提示都能被自主自适应地学习,从而缓解了以往工作中只能学习文本提示所造成的不平衡问题。广泛的实验证明了我们的 MuAP 的有效性,在所有基准数据集上,该模型都比最先进的模型有显著改进

12.Multi-Modal Diffusion for Hand-Object Grasp Generation

标题:手部物体抓取生成的多模式扩散

author:Jinkun Cao, Jingyuan Liu, Kris Kitani, Yi Zhou

publish:8-page paper, 7-page appendix and 10 pages

date Time:2024-09-06

paper pdf:http://arxiv.org/pdf/2409.04560v1

摘要
在这项工作中,我们的重点是生成手对物体的抓握。与以往根据给定物体生成手部姿势的工作相比,我们的目标是通过单一模型同时泛化手部和物体的形状。我们提出的多模态抓取扩散(MGD)方法可以从异构数据源中学习两种模态的先验和条件后验分布。因此,它通过利用大规模三维物体数据集,缓解了手部物体抓取数据集的局限性。根据定性和定量实验,有条件和无条件生成的手部抓握都具有良好的视觉可信度和多样性。所提出的方法还能很好地泛化到未见过的物体形状。代码和权重将发布在 \url{https://github.com/noahcao/mgd} 上。

13.VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation

标题:VILA-U:整合视觉理解和生成的统一基础模型

author:Yecheng Wu, Zhuoyang Zhang, Junyu Chen, Haotian Tang, Dacheng Li, Yunhao Fang, Ligeng Zhu, Enze Xie, Hongxu Yin, Li Yi, Song Han, Yao Lu

publish:11 pages, 7 figures, 8 tables

date Time:2024-09-06

paper pdf:http://arxiv.org/pdf/2409.04429v1

摘要
VILA-U 是集视频、图像、语言理解和生成于一体的统一基础模型。传统的视觉语言模型(VLM)使用单独的模块来理解和生成视觉内容,这可能会导致错位和复杂性增加。相比之下,VILA-U 为这两项任务采用了单一的自回归下一标记预测框架,无需扩散模型等额外组件。这种方法不仅简化了模型,而且在视觉语言理解和生成方面取得了接近最先进水平的性能。VILA-U 的成功主要归功于两个因素:统一视觉塔在预训练过程中将离散的视觉标记与文本输入对齐,从而增强了视觉感知;自回归图像生成可以通过高质量的数据集达到与扩散模型相似的质量。这使得 VILA-U 的性能可与使用完全基于标记的自回归框架的更复杂模型相媲美。

14.Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver

标题:图表形式化增强型多模式几何问题解决工具

author:Zeren Zhang, Jo-Ku Cheng, Jingyang Deng, Lu Tian, Jinwen Ma, Ziran Qin, Xiaokai Zhang, Na Zhu, Tuo Leng

date Time:2024-09-06

paper pdf:http://arxiv.org/pdf/2409.04214v2

摘要
数学推理一直是人工智能模型面临的挑战,尤其是对于需要语言和视觉信号的几何问题。由于大多数 MLLM 的视觉编码器都是根据自然场景训练的,因此它们往往难以理解几何图形,在解决几何问题方面的表现并不比只处理文本的 LLM 好多少。由于缺乏表示几何关系的有效方法,这一局限性更加明显。为了解决这些问题,我们引入了图表形式化增强几何问题求解器(DFE-GPS),这是一个整合了视觉特征、几何形式语言和自然语言表示的新框架。我们提出了一种新颖的合成数据方法,并创建了一个大规模几何数据集 SynthGeo228K,同时标注了形式语言和自然语言说明,旨在增强视觉编码器对几何结构的理解。我们的框架提高了 MLLMs 处理几何图表的能力,并将其应用扩展到 formalgeo7k 数据集上的开放式任务。


原文地址:https://blog.csdn.net/weixin_44362044/article/details/142417820

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!