【论文笔记】Adversarial Diffusion Distillation

🕗 发布于 2024-10-15 13:13 论文阅读

Abstract

本文提出了一种新的训练方法，在保持较高图像质量的前提下，仅用1~4步就能有效地对大规模传统图像扩散模型进行采样，使用分数蒸馏(score distillation)，来利用大规模现成的图像扩散模型作为教师信号，并结合对抗损失，以确保即使在1~2个采样步骤的低步骤机制下也能获得高图像保真度。

分析表明，ADD在单个步骤中明显优于现有的少步方法(GANs)，并且仅在4个步骤中达到了最先进的扩散模型(SDXL)的性能。ADD是第一种利用基础模型解锁单步实时图像合成的方法。

1 Introduction

扩散模型的迭代推理过程需要大量的采样步骤，阻碍了其实时应用。
GANs的特点是单步生成，速度固定，但是即便推广到大型数据集，GANs的样本质量方面仍然比不过Diffusion Model。

本文方法很简单，提出Adversarial Diffusion Distillation (ADD)，将预训练的扩散模型的推理步数降低到1~4步，同时保持较高的采样保真度，并有可能进一步提高模型的整体性能。
为实现上述目标，提出两种训练目标：

对抗损失：强制模型在每个前向通道上直接生成真实图像样本，避免其他蒸馏方法中看到的模糊和伪影。
蒸馏损失：使用另一个扩散模型作为教师，有效地利用预训练模型的知识，保留大型扩散模型观察到的强组合性。
推理过程中，本方法不使用classifier-free guidance，减少内存需求，通过迭代细化保留模型生成能力。

3 Method

本文目标：在尽可能少的采样步骤中升成高保真度的样本。

对抗损失支持快速生成，因为在一步前向步骤中训练一个在图像流形中输出样本的模型。
将GANs扩展到大型数据集不仅依赖于判别器，还使用预训练的分类器或CLIP网络来改善文本对齐，过度使用判别器会引入伪影，使图像质量受损。

本文通过分数蒸馏目标，利用预训练扩散模型的梯度，来提高文本对齐和采样质量。
本文还使用预训练的扩散模型权重初始化模型，因为预训练的生成网络可以提高带有对抗损失的训练过程。

3.1 Training Procedure

在这里插入图片描述
图2：ADD。ADD-student训练成一个denoiser，接受扩散输入图像 $x_s$ ，输出样本 $\hat{x}_\theta(x_s,s)$ ，然后优化两个目标：

对抗损失(adversarial loss)，模型旨在误导判别器，判别器经过训练，用于从真实图像集 $x_0$ 中分辨生成样本 $\hat{x}_\theta$ 。
蒸馏损失(distillation loss)，模型经过训练，用于匹配冻结的扩散模型教师的去噪目标 $\hat{x}_\psi$ 。

训练过程如图2所示，包含3个网络。

ADD-student：借助预训练的UNet-DM初始化
判别器：带有可训练权重 $\phi$
DM教师模型：带有冻结参数 $\psi$ 的。

训练过程中，ADD-student从ADD-student从噪声数据 $x_s$ 中生成样本 $\hat{x}_\theta(x_s,s)$ 。噪声数据是从真实图像 $x_0$ 通过前向扩散过程 $x_s=\alpha_s x_0+\sigma_s\epsilon$ 产生的。

本实验中，使用了和学生DM模型相同的 $\alpha_s$ 和 $\sigma_s$ 系数，从集合 $T_\text{student}=\{\tau_1,\cdots,\tau_n\}$ 中，用 $N$ 个学生选定的timestep均匀采样 $s$ 个样本（实践中 $N = 4$ ， $\tau_n=1000$ ，强制模型推理时从纯噪声开始）。

对于对抗目标，生成的样本 $\hat{x}_\theta$ 和真实图像 $x_0$ 送入判别器中区分他们。为了从DM教师处蒸馏知识，将学生样本 $\hat{x}_\theta$ 使用教师模型的前向过程扩散得到 $\hat{x}_{\theta,t}$ ，再使用DM教师的 $\hat{x}_\psi(\hat{x}_{\theta,t},t)$ 去噪预测过程作为蒸馏损失 $\mathcal{L}_\text{distill}$ 的引导目标：
$\mathcal{L}=\mathcal{L}_\text{adv}^\text{G}(\hat{x}_\theta(x_s,s),\phi)+\lambda\mathcal{L}_\text{distill}(\hat{x}_\theta(x_s,s),\psi)\tag{1}$
上述过程是基于像素域描述的，但在潜变量域上操作的过程是一样的。

3.2 Adversarial Loss

本文使用冻结的预训练特征网络 $F$ 和一些轻量判别器头 $\mathcal{D}_{\phi,k}$ 。
对于特征网络 $F$ ，之前的工作提出ViTs做的很好。可训练的判别器头被放到 $F_k$ 上（特征网络上的不同层）。
实践中，使用额外的特征网络提取图像嵌入 $c_\text{img}$ 。
这里使用hinge loss作为对抗目标函数。ADD学生的对抗目标 $\mathcal{L}_\text{adv}(\hat{x}_\theta(x_s,s),\phi)$ 写作：
$\mathcal{L}_\text{adv}^\text{G}(\hat{x}_\theta(x_s,s),\phi)=-\mathbb{E}_{s,\epsilon,x_0}[\sum_k\mathcal{D}_{\phi,k}(F_k(\hat{x}_\theta(x_s,s)))]\tag{2}$
判别器头通过最小化下式训练：
$\begin{aligned} \mathcal{L}_\text{adv}^\text{D}(\hat{x}_\theta(x_s,s),\phi)&=\mathbb{E}_{x_0}[\sum_k\max(0,1-\mathcal{D}_{\phi,k}(F_k(x_0)))+\gamma\text{R1}(\phi)] \\ &+\mathbb{E}_{\hat{x}_\theta}[\sum_k\max(0,1+\mathcal{D}_{\phi,k}(F_k(\hat{x}_\theta)))]\tag{3} \end{aligned}$

3.3 Score Distillation Loss

蒸馏损失可写为
$\mathcal{L}_\text{distill}(\hat{x}_\theta(x_s,s),\psi)=\mathbb{E}_{t,\epsilon'}[c(t)d(\hat{x}_\theta,\hat{x}_\psi(\text{sg}(\hat{x}_{\theta,t});t))]\tag{4}$
其中 $\text{sg}$ 表示中断梯度操作。
$d$ 衡量ADD学生生成的样本 $x_\theta$ 和DM教师的输出 $\hat{x}_\psi(\hat{x}_{\theta,t},t)=(\hat{x}_{\theta,t}-\sigma_t\hat{\epsilon}_\psi(\hat{x}_{\theta,t},t))/\alpha_t$ 之间的距离。
教师不是直接用在生成图像 $\hat{x}_\theta$ 上，而是扩散后的输出 $\hat{x}_{\theta,t}=\alpha_t\hat{x}_\theta+\sigma_t \epsilon'$ ，因为对于教师而言和生成图像的数据分布不同。

定义距离函数 $d(x,y)=||x-y||_2^2$ 。
关于加权函数 $c (t)$ ，考虑两个选择：

指数加权(exponential weighting)，即 $c(t)=\alpha_t$
分数蒸馏采样加权(score distillation sampling, SDS)。

实现过程中， $d(x,y)=||x-y||_2^2$ ，且对 $c (t)$ 有特定的选择时，蒸馏损失和SDS目标 $\mathcal{L}_\text{SDS}$ 等价。SDS损失为：
$\mathcal{L}_\text{SDS}(\phi,x=g(\theta))=\nabla_\theta\mathbb{E}_t[\sigma_t/\sigma_tw(t)\text{KL}(q(z_t|g(\theta);y,t)||p_\theta(z_t;y,t))]$
本文公式的优点是它能够使重建目标直接可视化，并且它自然地促进了连续几个去噪步骤的执行。

原文地址：https://blog.csdn.net/xhyu61/article/details/142919549

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：关于elementui 时间选择器选中的时间和显示的时间不一致的问题
下一篇：十、Python基础语法（循环-while循环）

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20