【多模态读论文系列】LLaVA论文笔记

🕗 发布于 2024-11-06 23:01 论文阅读 深度学习 人工智能

文章目录

论文地址：https://arxiv.org/abs/2304.08485

model & dataset & code https://llava-vl.github.io/

当前LLM的指令微调的研究已见成效，但在结合视觉和语言的多模态任务中尚未得到充分探索。

LLaVA结合了语言理解（由LLM提供）和视觉理解（通过视觉编码器实现），通过在GPT-4生成的数据上进行指令微调。

文章提出了一种新的视觉指令微调方法，首次将指令微调扩展到语言-图像的多模态空间。

数据集

本文使用ChatGPT/GPT-4来生成指令数据。具体方法如下：

在第一步生成的指令跟随数据中，缺乏多样性和深入的推理，为了解决这个问题，本文采用纯语言 GPT-4 或 ChatGPT (可能当时还没有好的图文模型，所以才用这种方法)，创建涉及视觉内容的指令跟随数据。为了将图片信息编码为纯文本，这里使用了两种不同类型文本，（i）图片描述； (ii) 定位场景中的对象的边界框，每个框对对象概念及其空间位置进行编码。

对于给定的图像 $X_v$ 和其相关的描述 $X_c$ ，GPT-4生成一系列问题 $X_q$ 。指令跟随形式：
Human: Xq Xv<STOP> Assistant: Xc<STOP>。

在这里插入图片描述

把图像编码成LLM可识别的序列后，在COCO数据集的图像上生成三种类型的指令跟随数据，如下图所示。

在这里插入图片描述

对话。针对图像的视觉内容提出一系列不同的问题，包括对象类型、对象计数、对象动作、对象位置、对象之间的相对位置。仅考虑有明确答案的问题。以下是相关提示，要了解其他两类数据的生成提示可以去看源码：
详细描述。创建一个提示列表，每次随机抽取一个问题，要求 GPT-4 生成详细描述。

在这里插入图片描述

复杂的推理。以上两种类型侧重于视觉内容本身，在此基础上进一步创建深度推理问题。答案通常需要遵循严格的逻辑进行逐步推理过程。以下是相关提示：

总共收集了 158K 个语言图像指令跟随样本，其中对话样本 58K，详细描述样本 23K，复杂推理样本 77K。

视觉指令微调

架构

在这里插入图片描述

对于输入图像 $X_v$ ，使用预训练的 CLIP 视觉编码器 ViT-L/14对图像进行编码，然后用一个简单的线性层将图像特征映射到词嵌入空间。

训练

数据格式是第一轮对话输入的指令包含问题和图像对，之后的几轮对话输入的是指令，当前对话之前所有的对话都可以用于对当前对话的预测。

在这里插入图片描述

绿色的标记就是用户需要去学习的部分，学习如何回答问题，并且知道在哪里停止，所以只有绿色的部分会用来计算自回归模型中的损失。

文中使用two-stage指令微调过程：

训练成本： 8×A100

Stage 1（lr=2e-3, batch size=128, 1 epoch）：特征对齐预训练。从CC3M数据集中筛选出59.5万对图像-文本对，主要筛选方法是使用spacy计算CC3M数据集上每个名词短语出现的频率，首先筛选出频率大于3的名词短语，对于频率大于3小于100的名词短语对应的图像-文本对全部加入候选数据集，频率大于100的，随机抽取100个包含该名词短语的图像-文本对加入候选数据集。

将这些图像-文本对转换为指令跟随格式的数据，即对于每张图 $X_v$ ，随机生成一个问题 $X_q$ ，该问题是一个请求，提示模型简要描述图像内容。模型的“真实”预测答案 $X_a$ 是图像的原始描述。使用一个投影矩阵 $θ = W$ 将图像特征 $H_v$ 转换到与语言模型词嵌入空间相同的维度，并最大化生成正确答案的概率，从而实现图像和文本的对齐，注意这里每个样本只有一轮对话。

在这里插入图片描述

Stage 2（lr=2e-5, batch size=32, 3 epoch）：端到端微调。这一步把视觉编码器冻结，然后微调投影层和LLaVA中LLM的预训练权重，下面是两个具体的应用场景。
- 多模态对话机器人。使用上面收集的158K 个语言图像指令跟随样本，在三种类型的响应中，对话是多轮的，而其他两种是单轮的。它们在训练中用相同的比例进行采样。
- 科学问答。在 ScienceQA 基准上进行研究，数据集每个问题都以自然语言或图像的形式提供上下文。助手以自然语言提供推理过程，并在多项选择中选择答案。这里将数据组织为单轮对话，将问题和上下文组织为 $X_{instruct}$ ，将推理和答案组织为 $X_a$ 。

两个阶段均使用Adam优化器，cosine衰减学习率，warmup ratio 3%，对于第二阶段的微调，使用FSDP（全分片数据并行）和梯度检查点来节省显存，使用BF16和TF32混合精度。

原文地址：https://blog.csdn.net/watermelon_c/article/details/143453381

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：vue | 自学入门，记录
下一篇：源代码加密解决方案：文档加密与沙盒加密的比较分析

【解决】Pico 串流 Unity 开发环境 Preview 黑屏问题
开发平台：Unity 6.0开发工具：Pico SDK。
阅读更多2024-11-07
python manage.py下的命令及功能
是 Django 框架中用于管理 Django 项目的命令行工具。
阅读更多2024-11-07
继承——面向对象编程的基石
以下是一些关于基类和派生类的基本概念：1.基类（父类）基类是被继承的类，它提供了一些属性和方法，这些可以被子类继承。2.派生类（子类）派生类是从基类继承而来的类，它可以添加新的属性和方法，也可以重写基
阅读更多2024-11-07
MySQL索引
索引可以在数据库表的一列或多列上创建，它们包含了对应列值的引用和指针，使得数据库系统可以快速定位到需要的数据。通过使用索引，数据库系统可以根据索引的排序和搜索算法，快速定位到符合查询条件的数据，提高查
阅读更多2024-11-07
练习LabVIEW第三十九题
程序开始运行后要求用户输入密码，密码正确时字符串显示控件显示 “欢迎进入”，否则显示字符串“密码错误”，同时退出程序。
阅读更多2024-11-07
3. 探索 Netty 的粘包与拆包解决方案
在TCP传输过程中，消息并不是按“包”的概念发送的。粘包：多条消息在接收端拼接在了一起，导致接收方在解析时无法确定消息的边界。拆包：一条细哦西被拆分成了多个部分，导致接收方收不到完整的数据。例如，
阅读更多2024-11-07
BC153 [NOIP2010]数字统计
String，StringBuffer，StringBuilder的区别
阅读更多2024-11-07
51c大模型~合集16
最近几年受益于巨大的参数规模和海量的训练语料，基于Transformer的大型语言模型（LLMs），如ChatGPT和LLaMA系列，在特定领域知识的生成和复杂推理任务中都表现出色的性能。此外，LL
阅读更多2024-11-07
“小波变换+时间序列”再发A会！预测准确率近100％！隔壁课题组都馋哭了
相比传统的时间序列方法，不仅能同时提供时域和频域信息，准确定位时序中的特定事件或模式；还能去除时序数据中的噪声和冗余，在提高时序预测的准确性和可靠性方面效果拔群！正因如此，其也成为各顶会、顶刊的宠儿，
阅读更多2024-11-07
Ngnix
Java八股文
阅读更多2024-11-07

【多模态读论文系列】LLaVA论文笔记

文章目录

相关工作

多模态指令跟随代理

指令微调

数据集

视觉指令微调

架构

训练

【多模态读论文系列】LLaVA论文笔记

文章目录

相关工作

多模态指令跟随代理

指令微调

数据集

视觉指令微调

架构

训练

相关文章