GAN 用于图像增强

🕗 发布于 2025-01-20 09:57 生成对抗网络 人工智能 神经网络

工程需求，临时学一下gan的原理和基于图像增强的实现

原理

论文链接

我们提出了一个通过对抗过程来估计生成模型的新框架，其中我们同时训练两个模型：捕获数据分布的生成模型G和估计样本来自训练数据而不是G的概率的判别模型D。G的训练过程是最大化D犯错的概率。这个框架对应于一个min-max two-player game。在任意函数G和D的空间中，存在一个唯一解，G恢复训练数据分布，D处处等于1/2。在G和D由mlp定义的情况下，整个系统可以通过反向传播进行训练。在训练或生成样本过程中，不需要任何马尔可夫链或展开近似推理网络。通过对生成的样本进行定性和定量评估，实验证明了该框架的潜力。

之前的方法总是想构造一个分布函数，然后提供参数给函数学习，把分布学出来，但是计算量巨大；Gernerative machine就是学模型来近似想要的结果，虽然算起来容易，但是不知道想要的结果

组件

生成器 (Generator)（是MLP）
- 输入是随机噪声（通常是从Gaussian Distribution或均匀分布中采样的向量）。
- 输出是与真实数据分布尽可能接近的生成样本（如图像、音频、文本等）。
- 目标是“欺骗”判别器，使其无法分辨生成样本和真实样本。
判别器 (Discriminator)（是MLP）
- 输入是生成器的输出样本和真实样本。
- 输出是样本为真实数据的概率（通常在 [0, 1] 之间）。
- 目标是正确区分真实样本和生成样本。

任务

Gernerative fake，Discriminative 判断，二者互相对抗，最后期望G赢

判别器目标：最大化区分真实样本和生成样本的能力

判别器的目标是 最大化 上述公式，即：

提高对真实数据 x 的识别准确度（log⁡D(x)）。
提高对生成数据 G(z)的拒绝能力（log⁡(1−D(G(z)))

鼓励判别器在面对真实数据 x 时输出高概率，即更准确地判断数据为真实。

鼓励判别器在面对生成样本 G(z)时输出低概率，即更准确地判断数据为生成的。

生成器目标：最小化被判别器正确区分生成样本为假的概率

生成器希望“欺骗”判别器，让判别器认为生成样本 G(z)是真实的

拟合过程↑ 绿色是z映射的均值，蓝色线是辨别器，总之就是把随机分布映射成真实分布的一个过程

命题

论文中的命题和证明，这里暂时不展开

统计意义是 two-sample test

迭代过程

先更新Discriminator再更新Generator

总体来说这一版收敛不太稳定

降噪任务

参考视频第1.1节-GAN与图像降噪-基础篇_哔哩哔哩_bilibili

cnn--encoder-decoder, residual learninig 需要成对的训练数据，真实数据难以获得

GAN-CNN based blind denoiser GCBD,无监督上采样模型

看了一下效果还可以

经典应用

DANet*

任务类型：分割任务中的特征增强
DANet 实际上是一种用于语义分割任务的注意力机制网络，而非纯粹的 GAN。
引入了空间注意力 (Spatial Attention) 和 通道注意力 (Channel Attention) 机制，旨在增强特征表达，关注目标区域的细节。

EnlightenGAN

任务类型：低光照图像增强
EnlightenGAN 是一种用于增强低光照图像的生成对抗网络。
它可以改善图像在低光照条件下的亮度和对比度，同时保留细节和自然感

SRGAN*

SRGAN 是一种用于图像超分辨率（Super Resolution）的 GAN，目的是从低分辨率图像生成高分辨率图像。
它通过生成器网络提高图像分辨率，并通过对抗判别器保证生成的高分辨率图像更自然、更逼真。

Generator

前面是残差模块不改变图像分辨率

Pixelshuffer 是基于亚像素卷积的上采样模块

亚像素卷积

用channel换space

Discriminator

通道数不断增加的卷积层每次特征通道数增加一倍时，特征分辨率降低为原来的一半

内容损失也叫感知损失

训练心得

就是说还是吃数据集的，在通用数据集作为预训练权重的情况下针对医学图像表现并不好

通用数据集表现↑

医学数据集表现↑

以及discriminator经常比generator强很多...大概就能对应文中的收敛不稳定吧

改进：ESRGAN

Esrgan:Enhanced super-resolution gene!ative adversaria networks

--引入Residual-in-Residual Dese Block(RRDB)增强生成器能力

--使用激活前的VGG特征来改善感知损失

（激活之后的特征过于稀疏）

--RaGAN模型相对判别器，relativistic average discriminatol

others

CycleGAN：如果需要对某一领域图像（如医学图像）进行特定增强，也可以使用无监督训练方式。

DeblurGAN

原文地址：https://blog.csdn.net/Scabbards_/article/details/145166266

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Vue3数据响应式原理
下一篇：【Vim Masterclass 笔记21】S09L39：Vim 设置与 vimrc 文件的用法示例（二）

vue知识点总结
是Vue提供的一个选项，它允许你观察Vue实例上的数据变化。当观察的数据发生变化时，会执行相应的回调函数，这样你就可以对数据的变化做出响应，执行一些特定的操作。
阅读更多2025-01-20
渗透测试之XEE[外部实体注入]漏洞原理攻击手法 xml语言结构防御手法
XML用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。XML文档结构包括XML声明DTD文档类型定义（可选）文档元素其实XML
阅读更多2025-01-20
IPSEC通信协议
概述IPSEC原理，其本质就是SA的搭建与实现
阅读更多2025-01-20
学习Hibernate的调优方案
Hibernate是一个非常流行的JavaORM（对象关系映射）框架，它可以帮助开发者更轻松地处理数据库操作。然而，如果不进行适当的性能调优，Hibernate可能会导致应用程序运行缓慢。本文将详细探
阅读更多2025-01-20
算法题（40）：加一
循环正常结束说明需要再进一位，利用更新完的digits数组拷贝构造answer数组，然后头插一个1进行进位，最后返回answer。对于非个位的进位元素，我们执行的也是加一操作，而对于非进位元素执行完加
阅读更多2025-01-20
BUUCTF_Web（October 2019 Twice SQL injection）
当用户提交的恶意数据被存入数据库后，应用程序再把它读取出来用于生成新的SQL语句时，如果没有相应的安全措施，是有可能发生SQL注入的，这种注入就叫做二次注入。重新注册账号为admin'unionsel
阅读更多2025-01-20
NavVis手持激光扫描帮助舍弗勒快速打造“数字孪生”工厂-沪敖3D
NavVis助力舍弗勒，完成约150万平米，共48家工厂“数字孪生”！
阅读更多2025-01-20
Python实现过年烟花效果及打包成可执行文件
Pygame初始化与屏幕设置：初始化Pygame并设置屏幕大小。颜色与字体定义：定义烟花和文字的颜色，并加载书法字体。烟花粒子类：定义烟花爆炸后的粒子效果。烟花类：定义烟花的发射、爆炸和绘制逻辑。文字
阅读更多2025-01-20
mysql 主从复制
MySQL主从复制是一种将数据从一个MySQL数据库（主库）复制到一个或多个其他MySQL数据库（从库）的机制，常用于数据备份、读写分离等场景。其原理主要涉及三个线程（主库的二进制日志转储线程和从库的
阅读更多2025-01-20
车载以太网：新能源汽车智驾的幕后英雄
同时，车载以太网与5G、人工智能、云计算等前沿技术的深度融合，将为新能源汽车带来更多创新应用，如车联网的全面升级、远程智能驾驶等，让人们的出行更加智能、便捷、安全。在复杂的城市道路中，摄像头捕捉到的行
阅读更多2025-01-20