大白话扩散模型（无公式版）

🕗 发布于 2024-03-25 07:36 概率论 机器学习 人工智能 AIGC

背景

传统的图像生成模型有GAN，VAE等，但是存在模式坍缩，即生成图片缺乏多样性，这是因为模型本身结构导致的。而扩散模型拥有训练稳定，保持图像多样性等特点，逐渐成为现在AIGC领域的主流。

扩散模型

正如其名，该方法是从自然界的扩散现象（热力学第二定律、熵增）得到启发，认为任意我们想要的图片可以由随机噪声经过一系列采样步骤后得到，把对这个过程进行定义和建模就称为扩散模型。虽然原始论文涉及到的知识包括随机分布，马尔科夫链等，而且推导过程极其复杂，但本文不会深入去推导相关的公式，而是把重心放在思考这个过程以及对其中发现的一些问题进行探讨。

前向过程

前向过程其实就是一些假设。给定一张原始的图片，不断地往这张图片加正态分布的噪声，最终这张图片会变成正态分布噪声。

为什么老有这个正态分布出现？其他分布不行吗？

统计学上有个中心极限定理，在特定条件下，大量统计独立的随机变量的和的分布趋于正态分布。依据这一定理的结论，其它概率分布能够用正态分布作为近似。这就降低了很多随机过程的计算难度。

那这个前向过程的作用是啥呢？

如果在假设的条件下，能够得到最终的噪声图片，那么反过来从噪声中也能得到想要的“原始图片”，即我就能从随机噪声生成任意图片，这里就与GAN是一样的。这就是下面的反向过程推导了。

噪声是怎么加的？

前向过程加噪声是先小后大，因为一开始图片质量很高，加很小的噪声就发生很大的变化，而越后面的图片含有噪声越多，失真越严重，必须加更大的噪声才能引起较大变化。如果玩过文生图的话就能发现，选择了一定的采样步数后，前几步图片变化非常大，从模糊的噪声逐渐出现轮廓，后面几步基本不变，只是一些细节发生了变化。

前向过程的最终结论

前向推导出加噪声过程可由 $x_0$ 直接得到，那在训练过程就不必保存中间的过程变量，不需要一步步迭代，节省中间变量占用的内存。相当于前向过程是一个公式，时间复杂度是 $O (1)$ ，整个模型的时间复杂度只取决于反向过程。

反向过程

反向过程其实就是在前面定义的基础上，本来想直接求解 $q(x_{t-1}|x_t)$ 的。但是发现走不通，这样是完全求不出来的。而 $q(x_{t-1}|x_t,x_0)$ 这个是有办法求解的（经过贝叶斯公式一系列变换），但是这样需要假设我们知道 $x_0$ 的情况才行。因此需要加上 $x_0$ ，然后我们用来进行训练一个模型，拟合训练数据的分布之后，就可以预测出 $q(x_{t-1}|x_t)$ ，即对任意噪声图片的任意时刻，我都能预测出前一时刻该图片的样子，不管准不准。问题建模成 $p_\theta(x_{t-1}|x_t)$ 来求解， $\theta$ 就是求解的参数，实际上就是代表模型对 $x_0$ 的预测能力。

训练与采样

在这里插入图片描述

算法2的采样中， $\epsilon_\theta(x_t,t)$ 表示的即是模型预测出来 $t$ 时候加上的噪声，结合如下代码更容易理解。

betas = torch.linspace(start=0.0001, end=0.02, steps=1000)
alphas = 1 - betas
alphas_cum = torch.cumprod(alphas, 0)
alphas_cum_s = torch.sqrt(alphas_cum)
alphas_cum_sm = torch.sqrt(1 - alphas_cum)

# 扩散损失计算
def diffusion_loss(model, x0, t, noise):
    # 根据公式计算 xt
    xt = alphas_cum_s[t] * x0 + alphas_cum_sm[t] * noise
    # 模型预测噪声
    predicted_noise = model(xt, t)
    # 计算Loss
    return mse_loss(predicted_noise, noise)

# 训练过程
for i in len(data_loader):
    # 从数据集读取一个 batch 的真实图片
    x0 = next(data_loader)
    # 采样时间步
    t = torch.randint(0, 1000, (batch_size,))
    # 生成高斯噪声
    noise = torch.randn_like(x_0)
    loss = diffusion_loss(model, x0, t, noise)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

原文地址：https://blog.csdn.net/qq_33137873/article/details/136890652

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Oracle参数文件详解
下一篇：【系统架构师】-信息系统架构

算数基本定理@质因数分解原理
把自然数写成素数的乘积，结论就是著名的算术基本定理。此定理建立了自然数与素数之间的一个重要的关系式。算数基本定理是整除理论性质和结论的精华,是整个初等数论的基础证明一些方程是否有整数解能够从公式的角度
阅读更多2024-11-15
用 Python 从零开始创建神经网络（六）：优化（Optimization）介绍
在随机初始化的模型中，或者即使是采用更复杂方法初始化的模型中，我们的目标是随着时间的推移培训或教育一个模型。为了训练一个模型，我们调整权重和偏差以提高模型的准确性和置信度。为此，我们需要计算模型的错误
阅读更多2024-11-15
海思3403对RTSP进行目标检测
用ss928 实现rtsp流的目标检测
阅读更多2024-11-15
亮数据——助力全球数据抓取的高效代理平台
特别是在需要跨境数据采集的场景中，亮数据的全球代理池能够让用户根据目标网站的地域需求，选择不同地区的IP地址，以此提升数据抓取的稳定性和成功率。亮数据不仅提供了丰富的IP资源，还内置了智能管理系统，可
阅读更多2024-11-15
【卡尔曼滤波】递归算法Recursive的应用 C语言、Python实现（Kalman Filter）
【卡尔曼滤波】递归算法Recursive的应用 C语言、Python实现（Kalman Filter）
阅读更多2024-11-15
记一次工作中订单幂等处理方案
当然可以考虑在数据库新增一张表，这张表上有第三方订单号的字段，并为此字段建立唯一索引，每次下单前预先往这张表插入数据，如果此第三方订单号已存在，那么插入数据必然报错。第一次是通过分布式锁检测，这是在
阅读更多2024-11-15
大数据湖项目建设方案（100页WORD）
随着信息技术的飞速发展，数据量呈现出爆炸性增长的趋势。企业、政府机构及科研单位在运营过程中积累了大量的数据资源，这些数据中蕴含着巨大的价值，但如何高效地存储、处理和分析这些数据，成为了一个亟待解决的问
阅读更多2024-11-15
深度学习笔记14-卷积神经网络2
卷积神经网络，是包含卷积运算且具有深度结构的前馈神经网络。在卷积神经网络中，包含卷积层、池化层和全连接层三种重要的结构。相比前馈神经网络，卷积层和池化层是新增的网络结构，在提取特征时，卷积神经网络使用
阅读更多2024-11-15
[Mysql基础] 表的操作
1.1 语法说明：field表示列名datatype表示列的类型字符集，如果没有指定字符集，则以所在数据库的字符集为准collate校验规则，如果没有指定校验规则，则以所在数据库的校验规则为准。
阅读更多2024-11-15
Mysql-DDL语句
Mysql DDL语句的使用方法和配置命令，可以更加快速熟悉的掌握Mysql基本操作命令
阅读更多2024-11-15

大白话扩散模型（无公式版）

背景

扩散模型

前向过程

反向过程

训练与采样

相关文章