生成对抗网络（GAN，Generative Adversarial Network）

🕗 发布于 2024-10-11 09:46 生成对抗网络 人工智能 神经网络

生成对抗网络（GAN，Generative Adversarial Network）是一种深度学习模型，由两部分组成：生成器（Generator）和判别器（Discriminator）。生成器的目标是生成逼真的样本，而判别器的目标是区分真实样本与生成样本。它们通过对抗过程相互训练，最终使生成器能够生成高度逼真的数据。

基本概念

生成器：从随机噪声（通常是高斯噪声）生成数据，表示为 $G (z)$ ，其中 $z$ 是潜在变量（噪声）。
判别器：判断输入数据是否真实，表示为 $D (x)$ ，其中 $x$ 是输入数据。判别器输出一个值，表示其对输入数据为真实的概率。

目标函数

GAN 的目标是通过最小化以下对抗损失来训练生成器和判别器：

$\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log(1 - D(G(z)))]$

$p_{data}(x)$ ：真实数据分布。
$p_z(z)$ ：潜在变量分布（通常为高斯分布）。
$D (x)$ ：判别器对真实样本的判别概率。
$G (z)$ ：生成器生成的样本。

训练过程

判别器训练：通过真实样本和生成样本的损失来优化判别器。
生成器训练：通过判别器的反馈，优化生成器，使得生成的样本更逼近真实样本。

通过不断的对抗训练，生成器最终能够生成接近真实数据的样本，判别器则不断提高其区分能力。

以下是一个使用 PyTorch 实现的简单 GAN 案例，目标是生成手写数字（MNIST 数据集）。代码包括生成器和判别器的定义，以及训练过程。

GAN 案例代码

如果你要使用自定义的 MNISTDataset 类来加载数据，可以将它集成到之前的 GAN 示例中。以下是完整的代码示例，结合你的 MNISTDataset 实现。

完整的 GAN 示例代码

epoch设置为20，以作示例。

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import os
import matplotlib.pyplot as plt
from torch.utils.data import Dataset, DataLoader

# 自定义 MNIST 数据集类
class MNISTDataset(Dataset):
    def __init__(self, images_path, labels_path, transform=None):
        self.images = self.load_images(images_path)
        self.labels = self.load_labels(labels_path)
        self.transform = transform

    def load_images(self, path):
        with open(path, 'rb') as f:
            f.read(16)  # 跳过前16个字节
            images = np.frombuffer(f.read(), np.uint8).reshape(-1, 1, 28, 28)
        return torch.tensor(images, dtype=torch.float32) / 255.0  # 归一化到 [0, 1]

    def load_labels(self, path):
        with open(path, 'rb') as f:
            f.read(8)  # 跳过前8个字节
            labels = np.frombuffer(f.read(), np.uint8)
        return labels

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, idx):
        image = self.images[idx]
        label = self.labels[idx]

        if self.transform:
            image = self.transform(image)

        return image, label

# 超参数
latent_size = 100
num_epochs = 20
batch_size = 64
learning_rate = 0.0002

# 数据准备
data_root = r'./MNIST'
train_dataset = MNISTDataset(
    images_path=os.path.join(data_root, 'train-images-idx3-ubyte'),
    labels_path=os.path.join(data_root, 'train-labels-idx1-ubyte')
)

data_loader = DataLoader(dataset=train_dataset, batch_size=batch_size, shuffle=True)

# 生成器模型
class Generator(nn.Module):
    def __init__(self):
        super(Generator, self).__init__()
        self.model = nn.Sequential(
            nn.Linear(latent_size, 256),
            nn.ReLU(),
            nn.Linear(256, 512),
            nn.ReLU(),
            nn.Linear(512, 1024),
            nn.ReLU(),
            nn.Linear(1024, 28 * 28),
            nn.Tanh()  # 输出在[-1, 1]范围内
        )

    def forward(self, z):
        return self.model(z).view(-1, 1, 28, 28)

# 判别器模型
class Discriminator(nn.Module):
    def __init__(self):
        super(Discriminator, self).__init__()
        self.model = nn.Sequential(
            nn.Linear(28 * 28, 1024),
            nn.LeakyReLU(0.2),
            nn.Linear(1024, 512),
            nn.LeakyReLU(0.2),
            nn.Linear(512, 256),
            nn.LeakyReLU(0.2),
            nn.Linear(256, 1),
            nn.Sigmoid()  # 输出在[0, 1]范围内
        )

    def forward(self, x):
        return self.model(x.view(-1, 28 * 28))

# 初始化模型和优化器
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')  # 检查是否有 GPU
generator = Generator().to(device)  # 移动到 GPU
discriminator = Discriminator().to(device)  # 移动到 GPU
criterion = nn.BCELoss()
optimizer_G = optim.Adam(generator.parameters(), lr=learning_rate)
optimizer_D = optim.Adam(discriminator.parameters(), lr=learning_rate)

# 训练过程
for epoch in range(num_epochs):
    for i, (images, _) in enumerate(data_loader):
        images = images.to(device)  # 移动输入数据到 GPU

        # 标签
        real_labels = torch.ones(images.size(0), 1).to(device)  # 移动到 GPU
        fake_labels = torch.zeros(images.size(0), 1).to(device)  # 移动到 GPU

        # 判别器训练
        optimizer_D.zero_grad()
        outputs = discriminator(images)
        d_loss_real = criterion(outputs, real_labels)

        z = torch.randn(images.size(0), latent_size).to(device)  # 随机噪声，移动到 GPU
        fake_images = generator(z)
        outputs = discriminator(fake_images.detach())
        d_loss_fake = criterion(outputs, fake_labels)

        d_loss = d_loss_real + d_loss_fake
        d_loss.backward()
        optimizer_D.step()

        # 生成器训练
        optimizer_G.zero_grad()
        outputs = discriminator(fake_images)
        g_loss = criterion(outputs, real_labels)
        g_loss.backward()
        optimizer_G.step()

    if (epoch + 1) % 10 == 0:
        print(f'Epoch [{epoch + 1}/{num_epochs}], d_loss: {d_loss.item():.4f}, g_loss: {g_loss.item():.4f}')

# 可视化生成的图像
with torch.no_grad():
    z = torch.randn(64, latent_size).to(device)  # 随机噪声，移动到 GPU
    fake_images = generator(z)

# 显示生成的图像
grid_img = fake_images.cpu().numpy()  # 移动到 CPU 以便绘图
grid_img = grid_img.reshape(-1, 28, 28)
plt.figure(figsize=(8, 8))
for i in range(64):
    plt.subplot(8, 8, i + 1)
    plt.imshow(grid_img[i], cmap='gray')
    plt.axis('off')
plt.show()

在这里插入图片描述

代码说明

自定义数据集：MNISTDataset 类用于从指定的路径加载 MNIST 数据。
数据归一化：在 load_images 方法中，将图像数据归一化到 [0, 1] 范围。
数据加载：使用 DataLoader 创建训练数据集的加载器。
GAN 模型：包含生成器和判别器的定义。
训练过程：判别器和生成器交替更新。
可视化生成图像：训练结束后生成并显示手写数字图像。

你可以运行这个代码，并观察生成的手写数字。确保 MNIST 数据集文件在指定的路径下。

原文地址：https://blog.csdn.net/AdamCY888/article/details/142832720

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【已解决】HarmonyOS NEXT / DevEco Studio项目错误：ArkTS:ERROR Failed to execute es2abc
下一篇：元数据 - Photoshop

从零开始学习PX4源码7(hello world)
本节主要记录如何在PX4中创建一个应用程序hello world 的过程，具体可以参考官网hello sky的过程hello sky。
阅读更多2024-10-12
C++11 简单手撕多线程编程
std::thread 创建线程阻塞主线程线程分离。
阅读更多2024-10-12
ARM综合编程--LED--ADC--UART--中断--PWM综合示例按键和旋钮控制音乐
包括歌曲和音符数组。定义控制LED灯和按键的GPIO地址（这里你需要提供准确的硬件位置信息）。定义用于ADC旋钮调节音量的变量。// 全局变量定义// 两只老虎// 生日快乐// abcdefg//
阅读更多2024-10-12
java医院后台管理系统设计与实现源码(springboot+vue+mysql)
系统架构：项目简介首页、个人中心、用户管理、零食分类管理、零食信息管理、订单评价管理、系统管理、订单管理。首页、零食信息、零食资讯、个人中心、后台管理、购物车、在线客服等功能。💕💕作者：落落💕💕个人简
阅读更多2024-10-12
MS8510国产PIN对PIN可替代（联阳）IT8987。有技术支持
MS8510 内部集成了 KBC、PMC、PS/2、PWM、ADC、SMBUS、KBS、CIR、SPI、UART、Timer、PECI 等模块，内建 RC、POR、LDO 等模拟电路，外围电路简单，支
阅读更多2024-10-12
Nginx请求头丢失，引发出来的问题
但是目标服务后端打印出来的参数，是没有api_key_id和api_key_value这2个参数的。api_key_id和api_key_value这2个参数传递过程中丢失或则根本没传递。，这个参数默
阅读更多2024-10-12
JavaScript进阶笔记--解构赋值
本文介绍了JavaScript进阶中的解构赋值，包括数组解构，对象解构，forEach和filter方法，以及相关案例
阅读更多2024-10-12
Spring AI 介绍与入门使用 -- 一个Java版Langchain
Spring AI 是由Pivotal的Spring团队专门维护的AI调用框架，它通过标准化不同AI服务提供商的接口实现，使开发者能够以统一的方式编写代码，并仅通过修改配置即可轻松切换不同的AI实现。
阅读更多2024-10-12
2024网络安全学习路线非常详细推荐学习
渗透测试学习、零基础学安全、路线首先咱们聊聊，学习网络安全方向通常会有哪些问题学基础花费很长时间，光语言都有几门，有些人会倒在学习 linux 系统及命令的路上，更多的人会倒在学习语言上；对于网络安全
阅读更多2024-10-12
Go语言学习第二章
数值型1：整数型（int,int8,int16,int32,uint,uint8,uint16,uint32,uint64,byte）第三种,如果没有写变量的类型，那么根据"="后
阅读更多2024-10-12