最新视频理解大模型之MiniGPT4-video

🕗 发布于 2024-04-14 09:39 音视频

前言

随着大模型的爆火，多模态大模型也随之卷了起来，基本每隔一小段时间就会冒出一个新模型。

今天给大家带来一个最新发现的关于视频理解的多模态大模型。

它的名字是MiniGPT4-video，可以看的出来其是MiniGPT4的一个分支；MiniGPT4主要是图文理解，而MiniGPT4-video则是沿用其思路将其扩展到视频领域。

项目主页 https://vision-cair.github.io/MiniGPT4-video

论文链接 http://arxiv.org/abs/2404.03413.pdf

代码链接 https://github.com/Vision-CAIR/MiniGPT4-video

效果

废话不多说，先看看效果。

（1）为了测试其真实泛化效果，笔者随机从抖音找了一些视频，本地加载模型进行了尝试

demo

在这里插入图片描述

翻译一下模型的回复是：“这个视频是一个由婴儿和幼儿互相玩耍的片段合集。视频展示了孩子们的天真和好玩，他们参与各种活动，比如爬行、笑声和互相拥抱。视频配有欢快的音乐，氛围轻松愉快，充满了喜悦的气氛。
这个视频似乎没有特定的主题或信息，而是旨在展示年幼儿童的天性好奇和好玩。它可以用作娱乐或教育观众有关幼儿发展阶段的方式，或者仅仅是为了给他们带来微笑。
总的来说，这个视频是对童年的天真和快乐的温馨而令人愉悦的描绘。”

整体上效果还不错。

（2）论文中的一些体感case

（3）论文中的一些benchmark量化效果

怎么做到的呢

其整个模型架构设计沿用MiniGPT4的思路，即讲图像encode和文本encode拼在一起，然后送到一个已经开源的LLM模型中进行训练。具体的其一共分了三步进行逐步训练。

stage1 : Large-scale image-text pair pretraining

第一步主要就是训练一个图像特征提取器即一个线性层linear layer。具体的图像先经过EVA-CLIP编码，然后通过linear layer将其映射到LLM，然后使用captioning loss进行更新学习linear layer。

注意这里还没有上升到要处理视频，就是简单的一个图文pair预训练。目的就是让模型先对图片有一个简单的学习和理解。为后面的视频理解打下一个基础。

stage2 : Large-scale video-text pair pretraining

经过stage1后，模型已经对单张图片有了一个不错的理解了，现在开始让其对视频进行理解学习。所谓视频其实就是由一些列单个图片在时间序列进行串联组成的。

所以使用了如下模版来作为处理视频的模版：

<s>[INST]<Img><FrameFeature_1><Sub><Subtitle text_1>... <Img> <FrameFeature_N><Sub><Subtitle text_N><Instruction></INST>

其中<s>、[INST]、<Img>、<Sub>、</INST>都是特殊的占位符或者说分割符号。

<FrameFeature_1>位置就是放经过stage1的linear layer得到的图片特征。

其次一个视频除了有图像，还有字幕这个信息源，所以<Subtitle text_1>的位置就是为了放字幕。

<Instruction>就是放用户针对视频要提问的具体文本问题。

可以看到作者就是将一个视频的多张图片和其对应的字幕以及用户的问题直接平铺cat到一起，以此最后送到LLM进行推理理解。具体在拼接的时候其实是拼接emb。即各个模态先各自过各自的特征网络得到emb，然后再拼接在一起送到上层的LLM也即transformer。

更具体的，作者用的LLM是Llama2-7B，其最大token窗口是4096，作者将一张图片视为64个token。然后每个视频抽45帧，所以一个视频的图像部分用掉了2880个token。同时预留了1000个token给字幕。当然随着用的底座LLM不同，其最大token窗口也是不一样的，那么抽帧数量等等上面也可以适当进行调整，比如论文中也对Mistral进行了训练，感兴趣的同学可以去看一下。

另外需要说明的是stage2这里使用了大量的视频数据，但是这些视频数据对应的输出文本其实都是对视频本身的描述，所以作者的Instruction部分就是预先定义了一些指令池，然后每条样本随机抽一个处理比如：Briefly describe these video.

stage3 : Video question answering instruction finetuning

经过stage2后模型已经对视频有了理解的潜力，只不过需要更多样性的指令来激发模型对指令的理解。所以stage3在训练上和stage2没有任何区别，只是训练数据不一样，其<Instruction>更加多样。

这里stage3这里的作用有点类似LLM的SFT。

小结

可以看到stage1和stage2其实都是在为最终的视频理解打基础，从“看懂图片到看懂视频”打基础，其实大模型领域的预训练pretrain就是在打基础，所以作者也将stage1和stage2过程命名为了是pretraining。

而stage3才是真真的微调finetuning也即在pretrain的基础上通过少量高质量的指令微调数据泛化出最终的视频理解模型。

另外作者所有的训练都是基于Lora进行的，并没有进行全参训练，所以下载模型的时候可以看到各个阶段的模型大小都比较小。

总结

有资源（pretrain阶段需要吃大量的数据，笔者看了一下基本都是按照T起步的）的同学可以做以下两个事情来玩玩：

(1) 奉行scaling law 大法，继续提升性能：比如使用全参训练、尝试基于13B的底座进行训练，又比如使用更多的优质视频数据等等：

Panda-70M:https://github.com/snap-research/Panda-70M

HD-vila-100:https://github.com/microsoft/XPretrain/blob/main/hd-vila-100m/README.md

InternVid：https://github.com/opengvlab/internvideo

相信性能肯定会有一个非常大的提升。

（2）汉化：当前的MiniGPT4-video还是一个以英文为主的模型，还可以尝试将其进行汉化，模型方面可以选择一些中文底座比如qwen等等（其实之前已经有人对MiniGPT4进行了汉化：https://github.com/Coobiw/MiniGPT4Qwen），数据方面可以进行翻译获得。

相信不久MiniGPT4-video的一些汉化工作就会出现。

总的来说上面的工作都可以拿来练练技术和实践。至于有什么实际用处的话，笔者觉得可以多发散想想，比如目前比较火的sora，很多团队在复现其工作，其中数据就是个难点，如果MiniGPT4-video最终的效果还不错，可以考虑拿来做视频打标工作（最起码做银标数据也不错）。

原文地址：https://blog.csdn.net/weixin_42001089/article/details/137720843

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：gma 2.0.8 (2024.04.12) 更新日志
下一篇：二维相位解包裹理论算法和软件【全文翻译-质量引导路径跟踪（4.3）】

11.15 机器学习-集成学习方法-随机森林
机器学习中有一种大类叫**集成学习**（Ensemble Learning），集成学习的基本思想就是将多个分类器组合，从而实现一个预测效果更好的集成分类器。# 就是把多个分类器组合起来用每个分类器都
阅读更多2024-11-16
Linux之vim全选，全部复制，全部删除
（区分大小写！！！全部删除：按esc键后，先按gg（到达顶部），然后dG全部复制：按esc键后，先按gg，然后ggyG全选高亮显示：按esc键后，先按gg，然后ggvG或者ggVG单行复制：按esc键
阅读更多2024-11-16
机器学习 ---线性回归
文章主要介绍了线性回归相关内容，包括简单线性回归与多元线性回归的概念及示例，阐述了残差的定义、在理想与非理想模型中的情况及意义，还讲解了线性回归的正规方程解，涵盖其适用场景、公式推导与代码实现，提及衡
阅读更多2024-11-16
机器学习day5-随机森林和线性代数1
在坐标轴上画出对应的点（离散或者连续），如果是离散的点，需要找一条直线使得这些点尽可能多地在这条直线上，或者能够尽可能均匀地分布在这条直线的两边，达到损失值最小的目标，使其尽可能地接近能够进行准确预测
阅读更多2024-11-16
AUTOSAR COM修改PDU发送周期不生效
首先当前是其他PDU都是能正常发送的，且发送的周期都符合通信矩阵DBC中的定义。经过分析是COM模块使能了MDT的周期发送功能，且该I-PDU配置了MDT（即下图中的Minimum Delay Tim
阅读更多2024-11-16
计算机网络：运输层 —— TCP 的 “三次握手” 与 “四次挥手”
TCP是面向连接的协议，它基于运输连接来传送TCP报文段。TCP运输连接的建立和释放，是每一次面向连接的通信中必不可少的过程。TCP运输连接有以下三个阶段：通过“三报文握手”来建立TCP连接。基于已建
阅读更多2024-11-16
数据结构-5.二叉树
本篇博客给大家带来的是二叉树的知识点, 其中包括面试经常会提问的真题 ArrayList 和 LinkedList 的区别 .文章专栏:Java-数据结构若有问题评论区见如果你不知道分享给谁,那就分
阅读更多2024-11-16
NotePad++中安装XML Tools插件
作为开发人员，日常开发中大部的数据是标准的json格式，但是对于一些古老的应用，例如webservice接口，由于其响应结果是xml，那么我们拿到xml格式的数据后，常常会对其进行格式化，以便阅读。。
阅读更多2024-11-16
在 Unix 和类 Unix 操作系统中，信号是一种异步的通知机制，用于通知进程发生了一些特定的事件。
SIGINT：中断信号，通常由Ctrl+C产生。SIGTERM：终止信号，用于优雅地终止进程。SIGKILL：强制终止信号，立即终止进程。SIGHUP：挂断信号，通常由终端会话结束产生。SIGQUIT
阅读更多2024-11-16
常见查找排序算法
printf("元素 %d 在数组中的下标是 %d\n", key, mid);printf("元素 %d 在数组中的下标是 %d\n", key, i);pr
阅读更多2024-11-16

最新视频理解大模型之MiniGPT4-video

前言

效果

怎么做到的呢

总结

相关文章