【论文笔记】LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models

🕗 发布于 2024-11-18 05:30 论文阅读 llama 语言模型大模型 人工智能

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题: LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models
作者: Yanwei Li, Chengyao Wang, Jiaya Jia
发表: ECCV 2024
arXiv: https://arxiv.org/abs/2311.17043

基本信息

摘要

在这项工作中，我们提出了一种新颖的方法来解决视觉语言模型（VLMs）在视频和图像理解中的token生成挑战，称为LLaMA-VID。

当前的VLMs虽然在图像描述和视觉问答等任务上表现出色，但在处理长视频时由于视觉token过多而面临计算负担。

LLaMA-VID通过用两个不同的token来表示每一帧，即上下文token和内容token，来解决这个问题。

上下文token根据用户输入编码整体图像上下文，而内容token封装了每一帧中的视觉线索。

这种双token策略显著减少了长视频的负载，同时保留了关键信息。

通常，LLaMA-VID使现有框架能够支持长达一小时的视频，并通过额外的上下文token提高了其上限。

它已被证明在大多数基于视频或图像的基准测试中优于先前的方法。

代码可在https://github.com/dvlab-research/LLaMA-VID上找到。

The proposed LLaMA-VID achieves leading performance on most of benchmarks with 7B LLMs

LLaMA-VID

在用户指令下，LLaMA-VID通过接收单张图像或视频帧作为输入，并从语言模型（LLM）生成响应。

该过程从视觉编码器开始，将输入帧转换为视觉嵌入。

然后，文本解码器根据用户输入生成文本查询。在上下文注意力中，文本查询从视觉嵌入中聚合与文本相关的视觉线索。

为了提高效率，提供了将视觉嵌入下采样到各种token大小或单个token的选项。

接着，使用线性投影仪将文本引导的上下文token和视觉丰富的内容token构建出来，以表示时间 $t$ 的每一帧。

最后，LLM 接收用户指令和所有视觉token作为输入，并给出响应。

Encoder and Decoder

提出的LLaMA-VID可以用于与单张图片或长视频进行交互。

为了清晰起见，我们假设输入图像是从视频序列中捕获的，如在时间 $t$ ，首先使用基于Transformer的视觉编码器来生成视觉嵌入 $X_t \in \mathbb{R}^{N \times C}$ 。

这里， $\times W/p$ ， $C$ 分别表示图像块的数量和嵌入通道。

对于基于ViT的骨干网络，图像块大小 $p$ 通常设置为14。

同时，我们以用户指令为输入，并生成文本引导的查询 $Q_t \in \mathbb{R}^{M \times C}$ ，其中 $M$ 表示查询的数量。

如图2所示，这种跨模态交互主要发生在文本解码器中，可以轻松地使用BERT或QFormer实例化。

通过这种方式，文本查询 $Q_t$ 包含与用户指令最相关的突出视觉线索。

Token Generation

通过文本查询 $Q_{t}$ 和视觉嵌入 $X_{t}$ ，我们可以轻松地为大型语言模型（LLMs）生成代表性token。

具体来说，上下文注意力被设计为聚合与文本相关的视觉特征，并将它们压缩成一个单一的上下文token。

如图2所示，它以 $Q_{t}$ 和 $X_{t}$ 作为输入，并制定上下文相关的嵌入 $E_{t} \in \mathbb{R}^{1 \times C}$ 为：

$E_{t} = \text{Mean}\left(\text{Softmax}\left(Q_{t} \times X_{t}^{T}\right) \times X_{t}\right)$

其中，Softmax 函数和 Mean 操作分别沿着 $N$ 和 $M$ 维度进行。

与采用32个视觉查询作为 LLMs token的 QFormer 不同，我们仅使用文本查询 $Q_{t}$ 来聚合具有高响应分数的视觉特征以输入指令。因此，与用户相关的最关键视觉线索被有效地保留在压缩嵌入中。

随后，使用线性投影器将嵌入 $E_{t}$ 转换为上下文token $E_{t}^{T} \in \mathbb{R}^{1 \times C}$ ，这与 LLMs 的语言空间对齐。

同时，我们根据计算限制采用自适应池化策略对视觉嵌入进行处理，以产生内容token $E_{t}^{V} \in \mathbb{R}^{n \times C}$ ，其中 $\in [1, N]$ 。

例如，当输入单张图像时，我们保持视觉嵌入 $X_{t}$ 的原始分辨率，而对长视频进行下采样，将 $X_{t}$ 下采样为1个token。这种方法显著减少了每帧 LLMs 的开销，从而有效支持长达数小时的视频。

最后，生成的上下文token $E_{t}^{T}$ 和内容token $E_{t}^{V}$ 被连接起来表示时间 $t$ 的帧。连同其他时间戳的帧，整个视频序列被转换为token格式的语言空间，然后用于生成来自大型语言模型（LLMs）的响应。

Token Generation

Training Strategy

Multimodal data distribution and instruction format for model training in each stage

三阶段训练：

Modality Alignment: 🔥 Context Attention、Projector ❄️ Visual Encoder、Text Decoder、LLM
Instruction Tuning: 🔥 Other ❄️ Visual Encoder
Long Video Tuning: 🔥 Other ❄️ Visual Encoder

Training settings of LLaMA-VID

实验

主实验

Comparison with leading methods on 4 zero-shot video QA datasets

Comparison with leading methods on the video-based generative performance benchmark

Comparison with leading methods on 8 benchmarks

消融实验

Comparison with different token types

Comparison with different token numbers

Comparison with different text decoders

总结

我们引入了LLaMA-VID，这是一种简单而有效的VLMs（视频语言模型）token生成方法。

LLaMA-VID背后的核心概念是用上下文token和内容token来表示图像。具体来说，上下文token是根据输入指令生成的，而内容token则是基于图像内容产生的。

根据预算，内容token可以被压缩为一个token或以未压缩的形式表达。这使我们能够以保留细节的方式表示单个图像，并且只需两个token就能高效地编码每个视频帧。

此外，我们还构建了一个用于理解时长为一小时的视频的指令数据集。

我们在多个基于视频和图像的基准测试上的实验证明了我们方法的优势。

我们希望LLaMA-VID能作为一个强大的高效视觉表示基准。

原文地址：https://blog.csdn.net/qq_63585949/article/details/143837139

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：React中事件绑定和Vue有什么区别？
下一篇：react 如何修改弹出的modal的标题

Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
阅读更多2024-11-23
解决vm虚拟机中ctrl键粘滞问题（一直处于按下状态）
虚拟机中点击鼠标左键没有问题，单独按下键盘也没有问题，但是如果按下键盘的同时在按下鼠标左键就会卡住。而且100%稳定复现。发现问题原因：vm版本的问题，我的版本是17.5.0，升级成17.5.2 bu
阅读更多2024-11-23
第十章 JavaScript的应用
10.1.1 JavaScript简介1 简单性JavaScript 设计之初就考虑到了非专业程序员的使用，因此它的语法相对简单，容易上手。2 动态性JavaScript 是一种解释型语言，代码可以在
阅读更多2024-11-23
非root用户安装CUDA
4.下载完成后执行.run文件，需要添加两个参数，一个是--override，用于跳过某些检查或限制；另一个是--toolkitpath，它表示安装路径，必须是自己目录下面的路径，如果是根目录就会安装
阅读更多2024-11-23
Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
【代码】## Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
阅读更多2024-11-23
【通俗理解】Jensen不等式与变分分布q(z)在积分计算中的应用
Jensen不等式 #变分分布 #积分计算 #期望 #凸函数 #优化问题 #下界估计 #机器学习。
阅读更多2024-11-23
「Mac玩转仓颉内测版27」基础篇7 - 字符串类型详解
本篇将介绍 Cangjie 中的字符串类型，包括字符串的定义、字面量形式、插值表达、常用操作及应用场景，帮助开发者熟练掌握字符串的使用。
阅读更多2024-11-23
数据科学与SQL：组距分组分析 | 区间分布问题
绝对值分布分析也可以理解为组距分组分析。对于某个指标而言，一个记录对应的指标值的绝对值，肯定落在所有指标值的绝对值的最小值和最大值构成的区间内，根据一定的算法，在把这个区间划分为等距离的几个小区间，，
阅读更多2024-11-23
c++编译报C1004错误的原因及解决办法
可能是你的代码文件最后没有正确的结束符，或者是缺少了一些必要的头文件或语句。默认磁盘驱动器没有足够的空间用于临时文件，需要大约两倍于源文件的空间。编译器到达了源文件尾但未解析构造。计算结果为假的 #i
阅读更多2024-11-23
mysql 去重补全取出重复变量函数和存储过程
mysql 去重补全取出重复变量函数和存储过程
阅读更多2024-11-23

【论文笔记】LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models

基本信息

摘要

LLaMA-VID

Encoder and Decoder

Token Generation

Training Strategy

实验

主实验

消融实验

总结

相关文章