从扩散模型基础到DIT

🕗 发布于 2024-02-23 11:18 扩散模型 Diffusion DIT

Diffusion model 扩散模型如何工作？

输入随机噪声和文本内容，通过多次预测并去除图片中的噪声后，最终生成清晰的图像。

以上左边这张图，刚开始是随机噪声，999为时间序列。

为什么不直接预测下一张图片呢？

预测噪声还是简单一点。

如何训练 Noise Predicter呢？

具体的方法是自己去按步骤加噪音，这样就构建了训练样本。预测目标就是我们加的噪声。

如何加入文字？

可以看出，增加文字输入即可

DDPM原理

当然具体的噪声loss计算，以及去噪公式稍微麻烦一点，并不是直接加减。

左图中为噪声的均方误差loss计算。

图中XT为T时刻的有噪图片，Xt-1为去噪后的图片。

UNET噪声预测器

对于Stable Diffusion等主流的扩散模型，噪声预测部分都是使用UNET。图示结构如下，可以看出输入含噪声图片，输出噪声

训练代码如下：

这里nn_model即为UNET网络，支持图片，时间和文本上下文嵌入等相关信息。参考代码如下：

训练代码

预测代码

DDIM

比DDPM快10倍，采样步数到500步以上DDPM更好，否则DDIM更好。

Stable Diffusion

其他模型结构如下，很类似。

引入VAE（变分自编码器）

为了加快图像生成过程，Stable Diffusion 并不是在像素图像本身上运行扩散过程，而是在图像的压缩版本上运行。该论文称其为“Departure to Latent Space”。

https://arxiv.org/abs/2112.10752

这种压缩（以及后来的解压缩/绘画）是通过自动编码器完成的。自动编码器将图像压缩到潜空间（Latents），然后使用解码器凭借这些压缩后的数据重建。

实际使用过程中直接调用已经训练好的VAE做编码和解码即可。原理如下：

参考：Stable Diffusion｜图解稳定扩散原理 - 知乎

模型细节如下：

注意这里的文本也是做了编码为向量。

DIT(Scalable diffusion models with transformers)

基于transformers的可扩展的扩散模型

DIT利用transformer替换了unet.

有什么好处? 更高的Gflops(网络复杂度)，具备更好的扩展性scaling（tokens扩展，网络深度扩展，增加参数量就能有更好的性能），有较低的t FID of 2.27 （即预测效果）

transformer统一了NLP和视觉领域，SORA正是基于此论文完成主体部分。

什么是FID

即衡量两张图片之间的相似性。

从它的训练和预测代码中，我们看到也使用了训练好的VAE模型。

训练时调用encoder

预测时调用decoder

SORA

在上一篇文章中已经介绍过

原文地址：https://blog.csdn.net/u012599545/article/details/136167196

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

机器学习04-逻辑回归（python）-02原理与损失函数
线性回归输出数值，而逻辑回归输出概率。逻辑回归的输出值是 0 到 1 之间的概率，通常我们会设定一个阈值，比如 0.5，将大于 0.5 的归为 1 类，低于 0.5 的归为 0 类。逻辑回归的工作原理
阅读更多2024-09-22
机器学习之实战篇——图像压缩(K-means聚类算法)
②进行图像压缩，需要减少像素点颜色的种类，本案例中假设压缩后颜色种类为16,假设用整数0~15表示每个整数可以用4bit(即0.5byte)表示，对于压缩后的图片，每个像素点只需存储相应的颜色编号，因
阅读更多2024-09-22
常见项目场景题2（多次输错密码禁止登录，分布式下多线程抢夺资源）
因为 Redis 在执行 Lua 脚本时，可以以原子性的方式执行，从而保证锁释放操作的原子性。同时，以 IP 地址为单位进行限制还可以避免黑客通过使用同-IP 地址进行暴力破解等攻击行为。为了防止误删
阅读更多2024-09-22
滚雪球学SpringCloud[6.3讲]：分布式日志管理与分析
在上期【6.2 Zipkin：分布式追踪系统】中，我们探讨了如何在微服务架构下进行分布式追踪，利用Zipkin跟踪跨服务的请求流转路径，以便识别性能瓶颈、监控延迟和排查系统故障。尽管追踪能够帮助我们解
阅读更多2024-09-22
深度学习之概率论预备知识点（3）
随机变量只能取有限个或可数个值，其概率通过概率质量函数（PMF）来表示。
阅读更多2024-09-22
分布式Id生成策略-美团Leaf
分布式系统ID生成一站式解决
阅读更多2024-09-22
分布式变电站电力监控系统
变电站电力监控系统能提供必要的实时运行信息，尤其是开关和保护行为的信息（事故报警信息），使值班人员和系统调度人员把握安全控制、事故处理的主动性，同时可以提高电网的运行管理水平，减少变电、配电损失，提高
阅读更多2024-09-22
【大模型实战篇】一种关于大模型高质量数据的处理方法-无标注数据类别快速识别及重复数据检测（加权向量-卷积神经网络-聚类算法结合）
大模型、高质量数据、加权词向量、聚类、热门问题识别、卷积神经网络、kmeans、cnn、textcnn、文本特征抽取、无监督算法、大模型快速数据预处理
阅读更多2024-09-22
基于深度学习的可再生能源的效率优化
基于深度学习的可再生能源效率优化是一种应用先进人工智能技术来提升太阳能、风能、水能等可再生能源的生产和利用效率的策略。可再生能源的生产效率通常受限于不稳定的自然条件（如日照、风速等），深度学习能够通过
阅读更多2024-09-22
【计算机网络 - 基础问题】每日 3 题（十七）
✍个人博客：Pandaconda-CSDN博客📣专栏地址：http://t.csdnimg.cn/fYaBd📚专栏简介：在这个专栏中，我将会分享 C++ 面试中常见的面试题给大家~📝推荐参考地址：ht
阅读更多2024-09-22