人工智能算法工程师(高级)课程4-图像生成项目之自编码生成模型与代码详解

🕗 发布于 2024-07-23 07:48 人工智能 算法 机器学习

大家好，我是微学AI，今天给大家介绍一下人工智能算法工程师(高级)课程4-图像生成项目之自编码生成模型与代码详解。自编码生成模型（Autoencoder）是一种无监督学习算法，旨在通过编码器和解码器学习数据的有效表示。本文将介绍自编码生成模型的几种常见类型，包括AE模型、SAE模型、DAE模型和VAE模型，并使用PyTorch搭建这些模型，最后介绍图像生成的原理和技术。

文章目录

一、AE模型（Autoencoder）
- AE模型原理
- AE模型代码：
二、SAE模型（Stacked Autoencoder）
- SAE模型原理
- SAE模型代码实现
三、DAE模型（Denoising Autoencoder）
- 数学原理
- DAE模型代码实现：
四、VAE模型（Variational Autoencoder）
- VAE模型数学原理
- VAE模型代码实现
四、图像生成的原理和技术
五、总结

一、AE模型（Autoencoder）

AE模型原理

AE模型的目标是最小化输入数据x和重构数据x’之间的重构误差。损失函数通常采用均方误差（MSE）：
$\frac{1}{n}\sum_{i=1}^{n}(x_i - x'_i)^2$
其中，n为数据维度。

AE模型代码：

import torch
import torch.nn as nn
import torch.optim as optim
# 定义AE模型
class Autoencoder(nn.Module):
    def __init__(self):
        super(Autoencoder, self).__init__()
        self.encoder = nn.Sequential(
            nn.Linear(784, 256),
            nn.ReLU(True),
            nn.Linear(256, 128),
            nn.ReLU(True),
            nn.Linear(128, 64),
            nn.ReLU(True)
        )
        self.decoder = nn.Sequential(
            nn.Linear(64, 128),
            nn.ReLU(True),
            nn.Linear(128, 256),
            nn.ReLU(True),
            nn.Linear(256, 784),
            nn.Sigmoid()
        )
    def forward(self, x):
        x = self.encoder(x)
        x = self.decoder(x)
        return x
# 实例化模型、损失函数和优化器
model = Autoencoder()
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)
# 训练模型
for epoch in range(100):
    for data in dataloader:
        inputs, _ = data
        inputs = inputs.view(-1, 784)
        outputs = model(inputs)
        loss = criterion(outputs, inputs)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    print(f'Epoch [{epoch+1}/100], Loss: {loss.item()}')

二、SAE模型（Stacked Autoencoder）

SAE模型原理

稀疏自编码器SAE是一种特殊类型的自编码器，它在隐藏层加入稀疏性约束，目的是让隐藏层的激活值在大多数情况下接近零，从而学习更加有效的特征表示。稀疏性可以通过添加额外的损失项来实现，例如KL散度，用于衡量隐藏层激活分布与目标稀疏分布之间的差异。
假设隐藏层的激活概率为 $p_j$ ，目标稀疏系数为 $\rho$ ，则稀疏惩罚项可以表示为：
$\sum_j KL(\rho || p_j) = \rho \log\left(\frac{\rho}{p_j}\right) + (1-\rho)\log\left(\frac{1-\rho}{1-p_j}\right)$

SAE模型代码实现

# SAE模型代码与AE模型类似，只需在AE模型的基础上增加更多层
class StackedAutoencoder(nn.Module):
    def __init__(self):
        super(StackedAutoencoder, self).__init__()
        self.encoder = nn.Sequential(
            nn.Linear(784, 256),
            nn.ReLU(True),
            nn.Linear(256, 128),
            nn.ReLU(True),
            nn.Linear(128, 64),
            nn.ReLU(True)
        )
        self.decoder = nn.Sequential(
            nn.Linear(64, 128),
            nn.ReLU(True),
            nn.Linear(128, 256),
            nn.ReLU(True),
            nn.Linear(256, 784),
            nn.Sigmoid()
        )
    def forward(self, x):
        x = self.encoder(x)
        x = self.decoder(x)
        return x

三、DAE模型（Denoising Autoencoder）

数学原理

DAE在自编码器的基础上引入了去噪的概念，它通过在训练时向输入数据 $\mathbf{x}$ 添加噪声 $\epsilon$ 来生成带噪输入 $\tilde{\mathbf{x}} = \mathbf{x} + \epsilon$ 或者通过某种机制（如随机遮挡）来模拟噪声。DAE的目标是学习一个函数 $f_\text{DAE}(\tilde{\mathbf{x}}; \theta)$ ，该函数能够从带噪输入 $\tilde{\mathbf{x}}$ 中恢复出原始的干净输入 $\mathbf{x}$ 。
DAE的训练目标函数可以表示为：
$L_{\text{DAE}}(\mathbf{x}, \hat{\mathbf{x}}) = \mathbb{E}_{\tilde{\mathbf{x}} \sim q(\tilde{\mathbf{x}}|\mathbf{x})} \left[ L(\mathbf{x}, f_\text{DAE}(\tilde{\mathbf{x}}; \theta)) \right]$
其中 $q(\tilde{\mathbf{x}}|\mathbf{x})$ 是噪声数据的分布， $\mathbb{E}$ 表示期望值，即对所有可能的噪声样本 $\tilde{\mathbf{x}}$ 求平均重构误差。

DAE模型代码实现：

# DAE模型代码与AE模型类似，只需在训练过程中添加噪声
for epoch in range(100):
    for data in dataloader:
        inputs, _ = data
        inputs = inputs.view(-1, 784)
        noisy_inputs = inputs + 0.3 * torch.randn_like(inputs)  # 添加噪声
        outputs = model(noisy_inputs)
        loss = criterion(outputs, inputs)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    print(f'Epoch [{epoch+1}/100], Loss: {loss.item()}')

四、VAE模型（Variational Autoencoder）

VAE模型数学原理

VAE模型引入了变分推断，使模型能够学习到数据的概率分布。损失函数由两部分组成：重构误差和KL散度。
$-\frac{1}{n}\sum_{i=1}^{n}(x_i \log(x'_i) + (1 - x_i) \log(1 - x'_i)) + D_{KL}(q(z|x) || p(z))$
其中， $D_{KL}(q(z|x) || p(z))$ 为KL散度，用于衡量潜在变量分布 $q (z ∣ x)$ 与先验分布 $p (z)$ 之间的差异。
在这里插入图片描述

VAE模型代码实现

class VariationalAutoencoder(nn.Module):
    def __init__(self):
        super(VariationalAutoencoder, self).__init__()
        # 编码器部分
        self.fc1 = nn.Linear(784, 400)
        self.fc21 = nn.Linear(400, 20) # 均值向量
        self.fc22 = nn.Linear(400, 20) # 方差向量
        # 解码器部分
        self.fc3 = nn.Linear(20, 400)
        self.fc4 = nn.Linear(400, 784)
    def encode(self, x):
        h1 = torch.relu(self.fc1(x))
        return self.fc21(h1), self.fc22(h1)
    def reparameterize(self, mu, logvar):
        std = torch.exp(0.5*logvar)
        eps = torch.randn_like(std)
        return mu + eps*std
    def decode(self, z):
        h3 = torch.relu(self.fc3(z))
        return torch.sigmoid(self.fc4(h3))
    def forward(self, x):
        mu, logvar = self.encode(x.view(-1, 784))
        z = self.reparameterize(mu, logvar)
        return self.decode(z), mu, logvar
# 实例化模型、损失函数和优化器
vae = VariationalAutoencoder()
optimizer = optim.Adam(vae.parameters(), lr=1e-3)
# 训练模型
def loss_function(recon_x, x, mu, logvar):
    BCE = nn.functional.binary_cross_entropy(recon_x, x.view(-1, 784), reduction='sum')
    KLD = -0.5 * torch.sum(1 + logvar - mu.pow(2) - logvar.exp())
    return BCE + KLD
for epoch in range(100):
    vae.train()
    train_loss = 0
    for data in dataloader:
        inputs, _ = data
        optimizer.zero_grad()
        recon_batch, mu, logvar = vae(inputs)
        loss = loss_function(recon_batch, inputs, mu, logvar)
        loss.backward()
        train_loss += loss.item()
        optimizer.step()
    print(f'Epoch [{epoch+1}/100], Loss: {train_loss/len(dataloader.dataset)}')

四、图像生成的原理和技术

图像生成是利用学习到的数据表示来生成新的数据样本。在自编码生成模型中，图像生成主要依赖于解码器部分。以下是图像生成的步骤：

从先验分布（例如高斯分布）中采样潜在变量z。
将潜在变量z输入到解码器中，生成新的数据样本。
在VAE模型中，图像生成的代码如下：

# 图像生成
vae.eval()
with torch.no_grad():
    sample = torch.randn(64, 20).to(device)  # 从标准正态分布中抽取样本
    sample = vae.decode(sample).cpu()
    sample = sample.view(64, 1, 28, 28)
    save_image(sample, 'sample.png')

五、总结

本文介绍了自编码生成模型的几种常见类型，并使用PyTorch搭建了这些模型。通过训练，模型能够学习到数据的有效表示。利用这些表示，我们可以生成新的图像样本。掌握图像生成的原理和技术，有助于进一步研究深度学习和生成模型。

原文地址：https://blog.csdn.net/weixin_42878111/article/details/140608069

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：v-for 进行列表的增删改查
下一篇：计算机网络八股文(后续更新)

基本定时器---内部时钟中断
STM32单片机的基本定时器介绍
阅读更多2024-11-15
高效稳定！新加坡服务器托管方案助力企业全球化布局
在全球化的商业环境中，企业对于高效、稳定的服务器托管方案的需求日益迫切。作为亚洲的服务器托管中心，新加坡凭借其独特的地理位置、稳定的政治环境、先进的科技设施以及开放的市场政策，为企业提供了理想的服务器
阅读更多2024-11-15
我要学kali-linux之shell脚本编程1
学习视频来自B站up主 **泷羽sec** 有兴趣的师傅可以关注一下，如涉及侵权马上删除文章，笔记只是方便各位师傅的学习和探讨，文章所提到的网站以及内容，只做学习交流，其他均与本人以及泷羽sec团队无
阅读更多2024-11-15
【网络安全】公钥基础设施
公钥基础设施（Public Key Infrastructure，简称PKI）是一种基于公钥密码学的系统，它提供了一套完整的解决方案，用于管理和保护通过互联网传输的信息。PKI的核心功能包括密钥管理、
阅读更多2024-11-15
PGMP-练练03 ❥(^_-)
由于项目集负责向组织提供收益，因此项目集经理、项目集团队成员、项目经理和团队成员以及其他项目集利益相关者都在收益管理中具有关键角色和责任。项目集 A 正在实现计划收益，然而项目集 B 的项目集经理刚
阅读更多2024-11-15
【c++笔试强训】（第八篇）
其中，有个游戏是这样的：首先，让 n 个小朋友们围成一个大圈，小朋友们的编号是0~n-1。然后，随机指定一个数 m ，让编号为0的小朋友开始报数。每次喊到 m-1 的那个小朋友要出列唱首歌，然后可以在
阅读更多2024-11-15
C语言之中缀表达式转换为波兰表达式、逆波兰表达式
C语言之中缀表达式转换为波兰表达式、逆波兰表达式，通过将运算符号压入栈、弹出栈等操作实现普通（中缀）表达式和前缀后缀（波兰、逆波兰）表达式之间的转换。
阅读更多2024-11-15
curl 安装最新版
配置编译参数：/usr/local为指定的安装路径，--with-ssl表示需要支持ssl。为了使curl能支持ssl功能，需要提前安装openssl，执行下列指令进行安装。库文件在对应的lib路径，
阅读更多2024-11-15
Conda环境与Ubuntu环境移植详解
迁移Conda环境是数据科学和机器学习开发中的一项重要任务。通过YAML文件迁移或直接复制环境文件夹的方法，可以在不同设备间无缝切换Conda环境，确保项目依赖的一致性。在进行环境迁移时，需要注意CU
阅读更多2024-11-15
Java面向对象高级2
感觉就是有时候简化代码用的？
阅读更多2024-11-15