【经典论文阅读】Latent Diffusion Models（LDM）

🕗 发布于 2024-12-11 07:20 论文阅读

Latent Diffusion Models

High-Resolution Image Synthesis with Latent Diffusion Models

摘要

动机：在有限的计算资源下进行扩散模型训练，同时保持质量和灵活性

引入跨注意力层，以卷积方式实现对一般条件输入（如文本或边界框）的响应以及高分辨率合成

1：引言

贡献

1：与纯粹基于 Transformer 的方法相比，在高维数据上的扩展更优雅

1.1 ==> 在压缩级别上工作，提供比之前工作更真实、更细致的重建

1.2 ==> 高效地应用于高分辨率的百万像素图像合成

2：与基于像素的扩散方法相比，在多种任务上（无条件图像生成、修复、随机超分辨率）取得了具有竞争力的性能，显著降低了计算成本和推理成本

3：与之前需要同时学习编码器/解码器架构和基于分数的先验的工作相比，无需对重建能力和生成能力进行复杂的权衡，确保了极高的重建忠实度，对潜在空间的正则化需求极低

4：对于密集条件约束任务（超分辨率、修复、语义合成），可以以卷积方式应用，并生成一致的超大图像

5：设计了基于跨注意力的通用条件机制，支持多模态训练

6：发布了预训练的潜在扩散模型和自编码模型

2：相关工作

1：generative models for image synthesis

2：diffusion probabilistic models（DM）

3：two-stage image synthesis

ARM：自回归模型

3：方法

autoencoding model（自编码模型） ==> learn a space that is perceptually equivalent to the image space

自编码模型的优点：

低维空间采样
利用从UNet继承的inductive bias，使得在处理具有空间结构的数据时**有效，无需激进的压缩
通用压缩模型，其潜在空间可以用于训练多种生成模型

3.1：Perceptual Image Compression

autoencoder（自编码器）==> 通过感知损失 + patch-based对抗目标训练

给定RGB空间的图像 x，编码器 e 把 x 编码到潜在表示 z，z = e(x)
解码器 D 从潜在表示中重建图像 x^~，x^~ = D(z) = D(e(x))

x的维度：

z的维度：
编码器下采样因子 f = H/h = W/w，讨论不同的下采样因子（2的指数倍）

避免潜在空间具有任意的高方差，采用了2种不同的正则化：

KL正则化：对学习到的潜在表示施加轻微的 KL 惩罚，使其趋向于标准正态分布（类似VAE）
VQ正则化：在解码器中使用向量量化层

3.2：Latent Diffusion Models

Diffusion Models

扩散模型：通过逐步对正态分布变量去噪，学习数据分布 p(x)，对应学习固定长度为 T 的马尔可夫链的反向过程

图像合成模型，依赖于变分下界的重新加权变体

目标函数：

Generative Modeling of Latent Representations

通过训练的感知压缩模型（由 e 和 D 组成），可以访问一个高效的、低维的潜在空间

与高维像素空间相比，这个潜在空间更适合基于似然的生成模型，因为：

专注于数据中重要的语义信息
在一个更低维、计算上更高效的空间中进行训练

利用模型提供的与图像相关的归纳偏置：包括构建主要基于 2D 卷积层的 U-Net 的能力，并进一步将目标集中在感知上最相关的信息位上，使用重新加权的目标函数

目标函数修改为：

神经网络的主干：time-conditional UNet

zt 可以在训练期间通过 e 高效地获取

从 p(z) 的采样，可以通过 D 的一次前向传递，解码到图像空间

3.3：Conditioning Mechanisms

底层 U-Net 主干中加入跨注意力机制

为处理来自各种模态的 y，引入了一个特定领域的编码器 Tθ，把 y 映射到一个中间表示 Tθ(y)，维度为

跨注意力层的实现：

对于参数的解释：

framework

通过拼接（concatenation）或更通用的跨注意力机制（cross-attention mechanism）对潜在扩散模型 (LDMs) 进行条件化

基于图像条件对，目标函数修改为：

4：实验

4.1：感知压缩的权衡分析

实验内容：比较不同下采样因子 f（如 1, 2, 4, 8, 16, 32）对 LDM 模型性能的影响。下采样因子越大，压缩越强。

结果与分析：

小的下采样因子（如 f=1,2）导致训练进展缓慢，因为未能充分利用低维潜在空间的优势。
过大的下采样因子（如 f=32）会导致信息损失，限制最终生成质量。
最优权衡出现在 f=4 到 f=8 之间，既保证了高效的训练和推理，又提供了感知上忠实的生成结果。

结论：中等强度的压缩（如 f=4 和 f=8）在效率和质量之间提供了最佳平衡。

4.2：无条件图像生成

实验内容：在多个数据集（CelebA-HQ, FFHQ, LSUN-Churches, LSUN-Bedrooms）上评估 LDM 的无条件生成能力，并通过 FID、Precision 和 Recall 指标与其他方法（如 GAN, DDPM）进行比较。

结果与分析：

LDM 在大多数数据集上的 FID 指标优于现有扩散模型（例如 ADM）和 GAN 方法，尤其在 CelebA-HQ 数据集上达到 SOTA 性能。
与现有基于像素空间的扩散方法相比，LDM 显著降低了推理和训练的计算成本。

结论：LDM 在无条件图像生成任务中表现出色，能够在更低的计算资源下实现更好的质量。

4.3：条件图像生成

实验内容：

通过引入交叉注意力机制（cross-attention），LDM 被扩展到条件生成任务（例如文本到图像生成）。
使用 MS-COCO 数据集评估文本生成性能，并在语义地图条件下进行语义合成。

结果与分析：

在文本到图像生成上，LDM 超越了 DALL-E 和 CogView 等方法，FID 指标显著降低。
在语义合成任务中，LDM 能够在低分辨率训练的基础上生成更高分辨率的图像（如 512×1024）。

结论：LDM 的交叉注意力机制极大地增强了条件生成的灵活性，尤其适用于文本到图像等复杂条件。

4.4：超分辨率任务

实验内容：在 ImageNet 数据集上进行 64×64→256×256 超分辨率任务，与 SR3 模型进行比较。

结果与分析：

LDM 在 FID 指标上优于 SR3，但 IS 指标稍逊。
用户研究表明，在感知一致性上，LDM 生成的高分辨率图像更受欢迎。

结论：LDM 能有效进行超分辨率生成，且具有更高的生成质量。

4.5：图像修复

实验内容：在 Places 数据集上进行图像修复，与 LaMa 等方法比较，评估填补遮挡区域的效果。

结果与分析：

LDM 修复质量（FID）优于大多数现有方法，并通过用户研究证明更受人类偏好。
高分辨率的修复任务（如 512×512）得益于潜在空间的特性。

结论：LDM 提供了一种通用的条件生成方法，在高质量修复任务中表现突出。

总结

性能提升：LDM 在多个任务上展现出较传统扩散模型显著的性能提升，尤其是在计算效率和感知质量之间实现了良好平衡。

通用性与灵活性：LDM 的架构设计（如交叉注意力机制）使其适应多种条件生成任务，例如文本、语义地图到图像生成。

计算优势：相较于像素空间的扩散模型，LDM 大幅减少了训练时间和推理计算需求，降低了硬件门槛。

原文地址：https://blog.csdn.net/m0_65787507/article/details/144381969

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：java全栈day13-后端Web实战2
下一篇：[创业之路-191]：《华为战略管理法-DSTE实战体系》-2-BLM战略规划与执行的基本框架

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14

【经典论文阅读】Latent Diffusion Models（LDM）

Latent Diffusion Models

摘要

1：引言

2：相关工作

3：方法

3.1：Perceptual Image Compression

3.2：Latent Diffusion Models

3.3：Conditioning Mechanisms

4：实验

4.1：感知压缩的权衡分析

4.2：无条件图像生成

4.3：条件图像生成

4.4：超分辨率任务

4.5：图像修复

相关文章