llava1.5论文阅读

🕗 发布于 2024-10-12 16:00 论文阅读

Improved Baselines with Visual Instruction Tuning
通过视觉指令微调增强的基线方法

论文摘要：我们发现，LLaVA中的全连接视觉语言连接器非常强大且数据效率高。

3.3 数据和模型的scaling

受到将线性投影转变为多层感知机（MLP）在自我监督学习中提高性能的启发[9, 10]，

我们发现通过使用两层MLP来增强视觉-语言连接器的表征能力，可以提升LLaVA的多模态功能，相比原始的线性投影有所增强。

QA

LLaVA1.5 的跨模态连接器

LLaVA 1.5使用的是视觉-语言连接方案，具体如下：

视觉编码器：采用 CLIP 的视觉编码器（CLIP-ViT-L/14），并且将输入图像的分辨率从 224px 提升到 336px，这使得模型对图像细节的理解能力更强，能够提取更高质量的视觉特征。
跨模态连接器：由原来的单个线性层替换为多层感知机（MLP）层作为跨模态连接器。MLP 包含两层线性层并使用 GELU 激活函数，这种结构增强了连接器的表达能力，能够更好地融合视觉和语言信息。相比原始的线性投影架构，MLP 跨模态连接器显著提升了 LLaVA 的多模态能力。
语言模型：使用 Vicuna v1.5 13b 作为语言模型，语言模型参数量更大，效果更好。在输入方面，视觉和语言的指令在同一个特征空间，一起拼接后送进模型进行处理，实现了图像和语言在模型中的交互和融合。

CogVLM

CogVLM的跨模态连接器主要是通过视觉专家模块（Visual Expert Module）来实现的。具体情况如下：

结构组成：
- QKV矩阵：每一层的视觉专家模块都包含一个QKV矩阵，其形状与预训练语言模型中的形状相同，并从预训练模型中初始化。该矩阵用于将图像特征转换为与语言模型不同注意力头相匹配的形式，使得图像特征能够更好地与语言模型进行交互和融合。
- MLP层：除了QKV矩阵，视觉专家模块还包含一个MLP（多层感知机）层。MLP层可以对经过QKV矩阵处理后的特征进行进一步的处理和转换，增强模型对视觉和语言特征的深度理解和融合能力。
作用原理：在模型的每一层中，图像特征和文本特征一起进入到新的不同的QKV矩阵和MLP层进行处理。这样的设计使得视觉信息能够在语言模型的各个层中得到充分的交互和融合，而不是仅仅在输入层进行简单的映射。通过这种深度融合的方式，CogVLM能够更好地理解图像和文本之间的关系，提高模型在各种视觉语言任务上的性能。
优势特点：
- 增强特征融合：可训练的视觉专家模块能够缩小图像特征和语言特征之间的差异，提高信息的质量和准确性，实现视觉语言特征的深度融合，避免了浅层对齐方法中信息损失和噪声干扰的问题。
- 保持语言模型性能：在保持语言模型原有参数固定的情况下，当输入序列不包含图像时，模型的表现与原语言模型相同，不会影响语言模型在纯文本任务上的性能。同时，利用冻结的预训练语言模型还可以降低计算成本和内存消耗，提高计算效率和可扩展性。

原文地址：https://blog.csdn.net/jinselizhi/article/details/142855216

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

如何开发一款多商户商城系统小程序
世面上的小程序软件有成品，也有定制的，少不了的就是会员，数据分析，二级分销，分站等后台。辅助功能：对接电商，批量导入，寄件码，快递查询，停发查询，查件码，短信服务，耗材购买，分单系统，业务员，补充快递
阅读更多2024-10-16
Python案例 | 测试网络的下载速度上传速度和 ping 延迟
使用了 speedtest 库来测试网络的下载速度上传速度和 ping 延迟。注意，这里需要先卸载speedtest，再安装speedtest-cli。
阅读更多2024-10-16
字面量常量（Literal Constant）
在编程和计算机架构中，字面量常量（Literal Constant）是指在程序代码中直接给出的固定值，这些值在编译时就已经确定，并且在程序执行过程中不会改变。在GPU的指令集中，支持字面量常量可以使得
阅读更多2024-10-16
编程已成大学生必备技能：新手如何高效入门？
编程是一项需要持续投入和耐心的技能。作为一名大学新生，选择适合自己的编程语言，制定切实可行的学习计划，并避免常见的学习陷阱，能够帮助你在编程学习的道路上走得更远。记住，编程学习是一个不断进步的过程，遇
阅读更多2024-10-16
【电路笔记】-运算放大器多谐振荡器
本文将重点介绍通常称为多谐振荡器的配置，特别是基于运算放大器的电路。事实上，多谐振荡器也可以通过双极晶体管或计时器集成电路（例如 NE555）来设计，但我们将重点关注 OPAMP 的实现。
阅读更多2024-10-16
Spring事务的1道面试题
每次聊起Spring事务，好像很熟悉，又好像很陌生。本篇通过一道面试题和一些实践，来拆解几个Spring事务的常见坑点。
阅读更多2024-10-16
一站式管理神器，基于PostgreSQL数据库，备受瞩目！
它以简洁的界面设计、强大的功能集成，成为众多企业提升效率的选择。
阅读更多2024-10-16
MySQL-多表查询
MySQL-多表查询的相关知识
阅读更多2024-10-16
Nacos安装指南
开发阶段采用单机安装即可。
阅读更多2024-10-16
Oracle AI Vector Search
Oracle AI Vector Search 是 Oracle Database 23ai 中引入的一项新技术，它允许用户在数据库中直接存储和高效查询向量数据。这项技术旨在简化应用程序的开发，并且支
阅读更多2024-10-16

llava1.5论文阅读

3.3 数据和模型的scaling

QA

LLaVA1.5 的 跨模态连接器

CogVLM

相关文章

LLaVA1.5 的跨模态连接器