【LLM多模态】DreamLLM多模态学习框架

🕗 发布于 2024-07-18 21:38 多模态 LLM 图像生成 diffusion

note

dreamLLM的两个亮点：
- 第一，通过在原始多模态空间中进行直接采样，生成语言和图像后验的生成模型，避免了外部特征提取器（如CLIP）固有的限制和信息损失，获得了更全面的多模态理解；
- 第二，DREAMLLM促进了原始的交错文档生成，对文本和图像内容以及非结构化布局进行建模，从而有效地学习所有条件、边缘和联合多模态分布

文章目录

note
一、模型框架
二、训练过程
- 1. 端到端的交错生成式预训练(i-gpt)
- 2. 三阶段训练
三、模型效果
四、Dream Query Attention
Reference

一、模型框架

问题点：标记在什么位置、模型训练目标是预测这个token吗

论文：DreamLLM: Synergistic Multimodal Comprehension and Creation
论文链接：https://arxiv.org/abs/2309.11499
GitHub：https://github.com/RunpeiDong/DreamLLM

背景介绍1：
（1）自回归模型：模型通过对序列中每个标记进行参数化，生成联合概率分布，用最大似然估计优化模型参数： $\mathcal{L}_{\mathrm{MLLM}}(\Theta=\{\theta, \zeta\}, \mathbf{w}, \boldsymbol{I}):=-\mathbb{E}_t\left[\log p_{\Theta}\left(\mathbf{w}_t \mid \mathbf{w}_{<t}, \boldsymbol{V}_{<K(t)}\right)\right], \quad \boldsymbol{V}_{K(t)}=\mathcal{M}_\zeta \circ \mathcal{H}_\phi\left(I_{K(t)}\right)$
（2）Diffusion Models (DMs)是一种概率生成模型，通过连续的时间信息扩散学习数据的潜在结构。DMs使用前向或扩散过程将数据平滑地转换为高斯噪声。通过积分数据密度q(z)，可以定义一个边缘分布q(z_t|z_1)和扰动数据分布q(z_t)。使用反向去噪概率流p生成从噪声z_T到数据的转换，其中转换由高斯模型p_ξ(z_t-1|z_t)近似。Ho等人证明了使用证据下界（ELBO）进行优化可以通过训练一个参数化的去噪U-Net来简化。最小化目标是通过条件嵌入C和扰动数据z_t = α_tz_1 + (1-α_t)ϵ来实现。
DM模型是基于得分函数的生成模型，可以通过去噪得分匹配来实现。这种方法等价于对梯度进行去噪，从而得到概率密度函数的对数。 $\mathcal{L}_{\mathrm{DM}}(\xi, \mathbf{z}):=\mathbb{E}_{t \sim \mathcal{U}(0,1), \epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{1})}\left[\left\|\boldsymbol{\epsilon}_{\xi}\left(\mathbf{z}_t ; \mathcal{C}, t\right)-\epsilon\right\|^2\right]$

背景介绍2：

两个点：在原始多模态空间中通过直接采样，对语言和图像后验进行生成建模，有助于更好多模态理解；促进原始、交错文档的生成，对文本和图像内容以及非结构化布局进行建模，使得模型能够有效地学习所有条件、边际和联合多模式分布。
涉及生成图像、文本或者两者的生成，需要一个通用的生产模型来同时学习语言和图像后验

在这里插入图片描述

DreamLLM框架
语言模型：基于在shareGPT上训练的LLama的Vicuna
图像编码器：CLIP-Large
图像解码器：Stable Diffusion

当前主流方法会导致语义折损，偏离原始输出空间，作者提出dreamLLM框架
在这里插入图片描述
对上图解释：使用交错的文档（图文交错）用作输入，解码以产生输出。文本和图像都被编码成用于MLLM输入的顺序的、离散的token嵌入。特殊的＜dream＞标记可以预测在哪里生成图像。随后，一系列dream查询被输入到MLLM中，捕获整体历史语义。图像由stable diffusion图像解码器以查询的语义为条件进行合成。然后将合成的图像反馈到MLLM中用于随后的理解。

二、训练过程

1. 端到端的交错生成式预训练(i-gpt)

所有自然文档都可以被视为文本和图像交织信息的载体。而仅有文本、仅有图像以及文本和图像配对的数据可以被看作是具有不同模态组合的交织语料库的特殊情况。因此，赋予模型学习和生成自由形式的交织文档的能力是至关重要的，以涵盖所有可能的分布。

交错结构学习：为了建模交错结构，通过在图像之前添加一个特殊的"<dream>“标记来操作交错序列。在训练过程中，DREAMLLM被训练来预测这个表示图像出现位置的”"标记，并在之后进行条件图像合成。在推理过程中，当预测到这个标记时，DREAMLLM将自主生成一张图像。

分数蒸馏条件合成：为了避免CLIP语义和MLLM之间可能的冲突，研究人员设计了一种不同的学习目标和条件嵌入。他们引入了一系列可学习的dream查询，用于条件合成。在预测为<dream>令牌时，使用条件嵌入来生成文本摘要。

$\mathcal{C}_{K(t)+1}^{\text {DREamLLM }}:=\mathcal{F}_\theta\left(\mathbf{d}, \mathbf{x}_{<t+1}, \boldsymbol{V}_{<K(t)+1}\right)$

通过与潜在变量z相关的去噪分数匹配，可以得到与公式（2）类似的表达式。
$\mathcal{L}_{\mathrm{DM}}^{\text {DREAMLLM }}(\theta, \mathbf{d}, \zeta, \psi, \mathbf{z}):=\mathbb{E}_{t \sim \mathcal{U}(0,1), \epsilon \sim \mathcal{N}(\mathbf{O}, \mathbf{I})}\left[\left\|\epsilon_{\xi}\left(\mathbf{z}_t ; \mathcal{C}^{\text {DREAMLLM }}, t\right)-\boldsymbol{\epsilon}\right\|^2\right],$

模型通过学习条件嵌入来生成图像, 同时使用KL散度来优化生成结果。这种方法可以看作是文本反转和分数蒸馏的一般化形式。
$\min _{\theta, \mathbf{d}, \zeta, \psi} \mathcal{L}_{\mathrm{DM}}^{\text {DREAMLLM }}:=\mathbb{E}_{t, \mathcal{C}^{\text {DREamLLM }}}\left[D_{\mathrm{KL}}\left(q\left(\mathbf{z}_{t-1} \mid \mathbf{z}_t, \mathbf{z}_1, \mathcal{C}^{\text {DREAMLLM }}\right) \| p_{\xi}\left(\mathbf{z}_{t-1} \mid \mathbf{z}_t\right)\right)\right]$

通用多模态生成建模：模型可以用于理解图像和生成图像。图像被处理成视觉嵌入向量, 用于理解。模型的目标是最大似然估计所有因果条件下的后验概率。
$\mathcal{L}_{\text {MLLM }}^{\text {DREAMLLM }}(\Theta=\{\theta, \mathbf{d}, \zeta, \psi\}, \mathbf{x}):=-\mathbb{E}_t\left[\log p_{\Theta}\left(\mathbf{x}_t \mid \mathbf{x}_{<t}\right)\right]$

2. 三阶段训练

对齐训练。这个阶段用于缩小多模态之间的差距，帮助多模态输入适应LLMs。通过预训练线性视觉投影仪、线性条件投影仪和可学习的梦境嵌入，实现冻结LLMs、视觉编码器和SD之间的跨模态流形对齐。使用约30M个图像-文本对数据，训练图像到文本的理解和文本到图像的合成。
I-GPT预训练。使用MMC4-Core和BLIP-LAION数据集进行训练，以学习联合视觉语言分布。同时，通过筛选和配对数据样本，提高了文本到图像的训练效果。
有监督微调。本阶段使用约80K的视觉指令调整数据，使模型能够根据人类指令执行多模态理解和创造性任务。使用GPT-4模型，通过文档摘要或图像标题进行提示，生成约20K的指令跟随文档综合数据和20K的图像综合数据。

三、模型效果

多模态理解能力：
[图片]

条件文本图像合成能力：
[图片]

四、Dream Query Attention

在这里插入图片描述

Reference

[1] ICLR 2024 感知+生成多模态大模型 DreamLLM
[2] DREAMLLM: SYNERGISTIC MULTIMODALCOMPREHENSION AND CREATION

原文地址：https://blog.csdn.net/qq_35812205/article/details/140476725

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【Linux】Linux进程揭秘：从理论到实践的深度探索之旅
下一篇：Java —— 内部类

PHP 中，将 JSON 数据与二进制数据之间进行相互转化主要涉及两个步骤：
要将 JSON 数据转换为二进制数据，首先需要将 JSON 数据解析成 PHP 数组或对象，然后使用 PHP 的。函数将二进制字符串转换为 PHP 数组或对象，然后将其编码为 JSON 数据。如果你只
阅读更多2024-09-28
JavaEE: 探索网络世界的核心-IP协议
13位分片偏移: 是分片相对于原始IP报文开始处的偏移.其实就是在表示当前分片在原报文中处在哪个位置.实际偏移的字节数是这个值 * 8 得到的.因此,除了最后一个报文之外,其他报文的长度必须是8的整数
阅读更多2024-09-28
数据库常见概念
PostgreSQL 支持联合索引和聚簇索引，联合索引可以加速多列条件的查询，而聚簇索引控制数据在磁盘上的排列。适当地使用这些索引可以提高查询性能。
阅读更多2024-09-28
BEV学习---LSS4-模型训练
LSS训练测试
阅读更多2024-09-28
SpringCloud第六章(服务保护CircuitBreaker) -2024
CircuitBreaker是断路器的意思，由于原来的SpringCoud的hystrix停更，所以springcloud社区推出了的新断路器，用来进行springcloud的服务降级、限流、熔断由于
阅读更多2024-09-28
ubuntu 开启root
【代码】ubuntu 开启root。
阅读更多2024-09-28
MySQL数据查询（基础）
SELECT语句用于从表中查询数据。可以选择特定的列，也可以选择所有列。：使用表示选择所有列。
阅读更多2024-09-28
区块链可投会议CCF C--FC 2025 截止10.8 附录用率
CCF C：2025：2023年 39 full and 2 short papers selected from 182 submissions.
阅读更多2024-09-28
第1章 C语言概述
4.打开项目后，右击"源文件"并选择"添加"的"新建项"6.在"hello_word"文件下编写代码并点击运行。1.打开
阅读更多2024-09-28
Git 与 GUI 工具
当我们对 Git 的提交、分支已经非常熟悉，可以熟练使用命令操作 Git 后，再使用 GUI 工具，就可以更高效。
阅读更多2024-09-28