生成模型初认识

🕗 发布于 2024-10-19 16:51 生成模型

生成模型初认识

参考学习资料：李宏毅-机器学习

以下为课程过程中的简易笔记

生成模型

为什么要用生成模型？——创造力：同一个输入，产生不同的输出（distribution），有一定概率发生某种随机事件
输入：X；从简单分布中随机sample出的向量z；
输出：distribution

AE

自编码器

原始输入特征是有大量冗余的，要重建出原图不需要那么多特征，只要用low dim的中间特征就可以了

VAE

在AE的decoder的输入中增加噪声，噪声的方差是 $e^\sigma$ ，其中 $\sigma$ 也是由神经网络学习到的
因为原始的AE不存在噪声，它的预测是不可理解的，满月和弦月的内插不一定得到比弦月满，比满月弦；但是VAE中加了噪声后，因为噪声的存在，就要求满月和弦月之间内插的点既和满月接近，又和弦月接近，因此就会产生比弦月满，比满月弦的结果
VAE和GAN不一样，VAE说白了就是要不断地重建出训练数据集中有的样本，最多是训练集中样本的组合，是一个不断提高模仿力的过程，要产生和训练集中的样本相像的图像，最好能一模一样，这样重建错误就会最小；但是GAN是要生成以假乱真的图片，产生的新图像并不是要和训练集图片一模一样，而是要产生图像的分布和训练集图像的分布尽可能接近

在这里插入图片描述

GAN

Unconditional GAN

无条件生成，只输入从简单分布sample的向量z

问：Divergence用于衡量2个分布的距离，然而 $P_G$ 和 $P_{Data}$ 的formulation(公式)都不知道，怎么计算Divergence？
GAN：只要能分别从 $P_G$ 和 $P_{Data}$ 两个分布中进行sample（也就是分别从Generator产生的数据和收集到的真实训练数据中做sample），就可以利用Discriminator估算出2者的Divergence

公式理解：

要找一个G，让红框里面的值越小越好(代表 $P_G$ 和 $P_{Data}$ 两个分布的Divergence越小，两个分布越像)；
然而由于两个分布的Divergence的公式并不能直接计算，所以把 $P_G$ 和 $P_{Data}$ 两个分布的Divergence转化为另一个优化问题，通过引入一个Discriminator，在Generator给定的情况下，想要找到一个D，让V(G,D)越大越好

Conditional GAN

有条件生成

Latent Diffusion Model

主要创新：

Difussion Model是在pixel space进行加噪和去噪，训练成本高昂，Latent Diffuion Model将加噪和去噪都搬到了latent sapce，训练成本减少，能接受的condition也变多了

组成部分：

Autoencoder：包括encoder和decoder
Denoiser：将encoder的输出加噪后，还原成decoder的输入
Conditioning Encoder：可以是任意产生一个序列tokens的encoder

输出加噪后，还原成decoder的输入
3. Conditioning Encoder：可以是任意产生一个序列tokens的encoder

3个部分可以分开训

原文地址：https://blog.csdn.net/m0_51619560/article/details/143079890

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Java实现系统注册验证
下一篇：【分布式技术】中间件-zookeeper安装配置

深入剖析：.Net8 引入非root用户运行的新特性提升应用安全性
确保您的.NET应用程序能够以非root用户身份运行，不仅是一个好的安全实践，也是面向未来的必要步骤，毕竟未来的.NET版本与云原生技术的整合将会越来越紧密。如果攻击者能够利用应用中的漏洞或容器配置上
阅读更多2024-10-19
用Python保存PowerPoint演示文稿中的形状为图片
本文演示如何使用Python将PowerPoint演示文稿中的形状保存图像文件。
阅读更多2024-10-19
MySQL在5.6为啥引入索引条件下推
是 MySQL 在 5.6 版本引入的一项优化技术。它通过将某些查询条件推送到存储引擎层来减少回表操作，从而提高查询效率。通常在使用范围查询或多列索引时，当查询条件没有完全匹配最左列，MySQL 会进
阅读更多2024-10-19
西瓜书书本内容杂谈
西瓜书只能说快速过了一遍，花了一个多星期吧，然后后边的内容是一点也看不懂了（能发现前面记得比较详细，到了后边是看不懂一点了，脑壳痛QWQ就不像是一本新手的入门书籍，太难受了ಥ_ಥ，了解概念这本书也不适
阅读更多2024-10-19
【开源免费】基于SpringBoot+Vue.JS社区团购系统（JAVA毕业设计）
社区团购系统作为一种创新的商业模式，具有显著的社会可行性。首先，它通过集中采购和配送，有效降低了物流成本，使得消费者能够以更低的价格购买到优质的商品。其次，社区团购系统依托于社区内的居民，形成了一种基
阅读更多2024-10-19
C for Graphic：径向模糊
原理：获取中心点（centeruv）到当前像素（pixeluv）的朝向法向量（ndir），pixeluv沿着ndir进行向前向后的像素颜色采样，并叠加到当前像素颜色（pixelcolor）以pixel
阅读更多2024-10-19
【MR开发】在Pico设备上接入MRTK3（三）——在Unity中运行MRTK示例
在Pico的Unity开发工程导入MRTK3
阅读更多2024-10-19
AI 编译器学习笔记之七 -- 机器学习的应用
1、MeloTTS:
阅读更多2024-10-19
UNI VFX Missiles Explosions for Visual Effect Graph
它包含以下事件/效果：创建、循环、击中、结束和停止。在此情况下，您从“创建”事件开始，然后自动继续“循环”事件。每次波浪击中敌人时，您都会发送“击中”事件以显示相应的效果。当波浪结束时，发送一个“结束
阅读更多2024-10-19
Agent自动执行异常场景下，通过人工介入提高可用性|实在Agent研究
此时，人工介入成为关键，凭借人类的直觉、经验和全局视角，迅速定位问题并制定解决方案，有效避免错误扩大，显著提升系统的稳定性和可用性。可以看到Tars-Agent不再提示找不到启动程序路径了，而是切换成
阅读更多2024-10-19

生成模型初认识