【论文笔记】Visual Instruction Tuning

🕗 发布于 2024-09-30 08:37 论文阅读 深度学习 多模态大模型

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题: Visual Instruction Tuning
作者: Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee
发表: Advances in Neural Information Processing Systems 36 (NeurIPS 2023)
arxiv: https://arxiv.org/abs/2304.08485
项目主页: https://llava-vl.github.io/

基本信息

摘要

使用机器生成的指令遵循数据对大型语言模型（LLMs）进行指令微调已被证明可以提升新任务上的零样本能力，但在多模态领域这一想法探索较少。

我们首次尝试使用仅语言GPT-4生成多模态语言-图像指令遵循数据。

通过对这些生成数据进行指令微调，我们引入了LLaVA：大型语言和视觉助手，这是一个端到端训练的大规模多模态模型，它将视觉编码器和LLM连接起来，以实现通用视觉和语言理解。

为了促进未来对视觉指令遵循的研究，我们构建了两个具有多样性和挑战性应用任务的评估基准。

我们的实验表明，LLaVA展示了令人印象深刻的跨模态聊天能力，有时在未见过的图像/指令上表现出多模态GPT-4的行为，并在一个合成的多模态指令遵循数据集上相对于GPT-4实现了85.1%的相对分数。

当在科学问答（Science QA）上进行微调时，LLaVA和GPT-4的协同作用达到了92.53%的新最精确度。

我们将GPT-4生成的视觉指令微调数据、我们的模型和代码公开提供。

主要贡献

提出了一种视觉指令数据生成的方法流程
设计并训练了LLaVA，在Science QA上达到了SOTA
提出了一个有挑战性的多模态指令遵循Benchmark，LLaVA-Bench(COCO and In-the-Wild)
开源代码

GPT辅助视觉指令数据生成

基于COCO数据集，将其文本标签输入到GPT-4，构造出三类视觉指令数据：

Conversation，对话数据。以对话形式提出关于图像视觉内容的一系列问题，包括物体类型、计数物体、物体动作、物体位置以及物体之间的相对位置。
Detailed description，详细描述。对图像进行丰富而全面的描述。
Complex reasoning，复杂推理。深入推理问题，答案通常需要遵循严谨逻辑的逐步推理过程。

GPT辅助视觉指令数据生成

视觉指令调优

模型结构

LLaVA模型结构

Visual Encoder: CLIP ViT-L/14
Projection: Linear Layer w/o Bias
Language Model: Vicuna

训练流程

两阶段训练：

Stage 1 特征对齐预训练:
- 数据集: CC595K
- 🔥Projection
- ❄️Visual Encoder, Language Model
Stage 2 端到端微调训练:
- 数据集: Multimodal Chatbot, Science QA
- 🔥Projection, Language Model
- ❄️Visual Encoder

Benchmark

LLaVA Benchmark (COCO)。从COCO-Val-2014中随机选择了30张图像，每张图像生成上述三类问题，一共得到90个图像-指令对。
LLaVA Benchmark (In-the-Wild)。收集了24张多样化的图像，构造了共60个问题，为每张图像关联了一个高度详细且人工精选的描述并选择了适当的问题。

LLaVA Benchmark (In-the-Wild)

实验

训练数据消融实验

Ablation on LLaVA-Bench (COCO) with different training data.

主实验

LLaVA+GPT-4(complement): GPT-4先回答，没答出来的让LLaVA答
LLaVA+GPT-4(judge): 二者分别回答，GPT-4总结二者回答得到最终回答

设计选择消融实验

Best variant: Vision Encoder使用哪一层特征作为输出，Before为倒数第二层，Last为最后一层
Predict answer first: 思维链能帮助更快收敛，但无法提高性能上限
Training from scratch: 从头训练 or 预训练
7B model size: 大模型参数降为7B（原为13B）

总结

本文展示了视觉指令微调的有效性。

作者提出了一种自动流程来创建语言-图像指令跟随数据，基于此我们训练了LLaVA，一个多模态模型，用于跟随人类意图完成视觉任务。

它在ScienceQA上进行微调时达到了新的SoTA准确率，在多模态聊天数据上进行微调时具有出色的视觉聊天能力。

此外，作者提出了第一个用于研究多模态指令跟随能力的基准。

作者希望本工作能够激发未来关于构建更强大多模态模型的研究。

原文地址：https://blog.csdn.net/qq_63585949/article/details/142635799

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：ARM Assembly 6: Shift 和 Rotate
下一篇：关于git分支冲突问题

MySQL数据库基础
在过去的mysql中主要是使用的utf8mb3，但是mysql显示的就是utf8，中mysql8中区分显示了。类似于不同的编译器，虽然C/C++的代码是一样的，但是预处理、编译、汇编、链接这些过程却不
阅读更多2024-09-30
Percona Monitoring and Management
Percona Monitoring and Management (PMM)是一款开源的专用于管理和监控MySQL、MongoDB、PostgreSQL。
阅读更多2024-09-30
鸿蒙开发（NEXT/API 12）【已连接穿戴设备查询】手机侧应用开发
Wear Engine提供查询用户已连接的穿戴设备列表（即支持Wear Engine能力且与手机侧运动健康App处于连接状态的穿戴设备）的接口。
阅读更多2024-09-30
Redis数据库
本篇文章介绍了redis的相关知识，并使用springboot集成redis，实现缓存和分布式锁，后续会对文章勘误及更新~~
阅读更多2024-09-30
旧版的存档
【代码】旧版的存档。
阅读更多2024-09-30
Spring Boot 封装统一返回结果及全局异常处理
为了更细致地控制异常处理，我们可以定义一些自定义异常。然后，在全局异常处理器中添加对自定义异常的处理。通过封装统一的返回结果和全局异常处理，我们可以让Spring Boot应用更加健壮和易于维护。这种
阅读更多2024-09-30
【C++】IO流
C++IO流，包含输入输出流、文件流、字符流
阅读更多2024-09-30
低至1元/小时：国庆七天，30元通关《黑神话：悟空》！
随着《黑神话：悟空》自8月20日全球同步上线，正式登陆PC、PS5平台以来，以其精湛的画面和流畅的战斗体验，在发售三天后，该作的全平台销量超过1000万套，打破中国游戏历史记录，被媒体称为“中国首款3
阅读更多2024-09-30
阿里巴巴国际站获取商品详情item_get接口技术分享
item_get API接口是阿里巴巴开放平台提供的一个重要接口，它允许商家通过API调用，获取阿里巴巴平台上的商品详细信息。这些信息包括商品标题、价格、库存、属性、描述等，为商家提供了全面、准确的商
阅读更多2024-09-30
软件测试谣言二三事，认真你就输了
软件测试的职业寿命，取决于互联网行业能存活多久，至少目前看来，这个职业没有消失的风险，至于你能在这个职业待多久，那取决于你自己的能力，我见过不少超过35岁的老员工还在测试的职位上兢兢业业。以广州为例，
阅读更多2024-09-30

【论文笔记】Visual Instruction Tuning

基本信息

摘要

主要贡献

GPT辅助视觉指令数据生成

视觉指令调优

模型结构

训练流程

Benchmark

实验

训练数据消融实验

主实验

设计选择消融实验

总结

相关文章