StyleGAN——定制人脸生成思路

🕗 发布于 2024-07-23 21:30 生成对抗网络

定制人脸生成思路

控制生成码 ( Z ) 的分布范围：适合粗略控制生成图像的主要特征（如性别、人种、年龄），方法简单但精度较低。
特定维度特征的替换：适用于细致控制图像的特征（如皮肤颜色、发型），实现复杂，需要精确调整生成器内部特征。
Info-StyleGAN：结合 InfoGAN 和 StyleGAN，能够同时控制图像的多种特征，提供灵活和高质量的图像生成，但实现和训练复杂。

1. 控制生成码 ( Z ) 的分布范围

1.1 方法描述：

源头控制生成码 ( Z ) 的分布范围，这种方法涉及对潜在空间的操作，以控制生成图像的粗略特征。
通过调整潜在变量 ( Z ) 的范围和分布，可以影响生成图像的主要特征，例如性别、人种、年龄等。

1.2 具体实现

定制人脸生成需要3个神经网络，分别是Z码生成器，图片生成器，和图片分类器。它的主要思想是，针对我们想要的特定类型的图片，首先训练出一个对应的图片分类器出来，然后固定住图片生成器与图片分类器，只训练Z码生成器（C是随机向量），从而找到Z码的范围，使得通过该Z码生成的图片，能满足图片分类器的要求，即：找到z的分布使得对应y的得分值最高。

在实际模型搭建中，Z码生成器（Dense Generator）是一个256维到512维的简单全连接网络，图片生成器取用StyleGAN里面的模型，图片分类器是一个已训练好的类型分类器（譬如男/女分类器等，用CNN就能达到比较好的效果）。损失函数方面有两个组成部分，一部分是（找到z）让y的得分值越高越好，另一部分是让z的熵越大越好（即z有多样性）。由于实际的训练只需训练三个全连接层，所以epoch数无需太高。最后，每对应一个不同的图片分类器，就会训练出一个对应的Z码生成器。

1.2.1 方法一优化取消Z码生成器，改为微调图片生成器

对于某些分类器来说，训练出的Z码生成器是不太稳定的。举一个例子，如果希望指定生成黑种人或者白种人脸，上述方法可以实现，但是如果用同样的方法训练生成黄种人脸，就很难稳定生成。造成这种现象的原因是，黄种人界于白、黑种人之间，它的特点标志不清晰，因此Z码生成器很难找到一个Z码的区域，能够稳定生成黄种人脸。为了改善这一情况，我们可以考虑取消Z码生成器，改为微调图片生成器。

使用图片分类器从原始数据集中挑选出目标图片（如黄种人脸），制作成新的训练集（New Dataset）。
若数据集数目少，用 ADA 方法做数据增强。
以 StyleGAN 的预训练模型参数初始化新数据集下的图片生成器，训练状态回复至第 10000 个 kimg 处，此时进入 1024*1024 分辨率的微调阶段，然后持续训练。
展示黄种人脸生成器训练过程中的人脸迁移情况。

优点：

可以在生成图像的总体类别或大范围特征上进行控制。
实现简单，通常只需调整潜在变量的范围或分布即可。

缺点：

控制精度较低，无法细致地调整图像的细节特征。只能从大体上控制生成图片的类型，因为图片分类器的制作成本通常比较高（需要大量含标签数据），所以图片分类器的划分角度一般较为宽泛（譬如男/女，老/少，黑/白等），不宜过细。

2. 从生成过程中控制生成图片，特定维度特征的替换

如图，真正决定StyleGAN生成图片类型的，在于控制生成网络的18个特征码（它们分别控制的特征类型已在图中标出）。于是，现在我们希望能更精细控制生成图片的类型，就可以考虑用已有图片的特征码，对其进行替换，从而让其具有被替换图片的特定特征。

一般建议替换5,6,7,8维，因为替换更低的维度会让生成效果不稳定，而替换更高的维度会让生成效果不明显。最终，多做几次尝试就能找到合适的模板以及合适的维度替换方案。

方法描述：
- 在图片生成器的内部，对特定维度上的特征进行替换，将目标（模板）人脸的精细风格引入生成图像中。
- 例如，通过调整生成器的某些层或维度，赋予生成图像特定的细节特征，如白皮肤、卷发等。
优点：
- 可以控制生成图像的细致风格和特征。
- 适用于对细节有较高要求的任务。
缺点：
- 实现较复杂，需要对生成器内部的特征进行精确调整。
- 可能需要对生成器进行大量的实验和调整。

3. Info-StyleGAN（结合 InfoGAN 和 StyleGAN）

构造一个通用模型，它能够实现所有定制化的需求。借助InfoGAN的思想，将Info信息引入StyleGAN的生成器中，构造出新的具有语义限制的生成器。

新的生成器输入info向量-c和噪音向量-z，其中c控制人脸类型，而z决定人脸样貌。生成图片X同时被传给判别器和分类器，其中判别器的作用是保证生成图片的清晰与逼真度，分类器的作用是保证生成图片的类别符合向量c的控制——因为它从生成图片中提取出一个新的向量，这个向量要与c尽可能一致，而c包含的信息仅有图像类别，所以只有生成图片也符合图像类别的情况下，提取出的向量才能与c一致，更详细的证明请参阅InfoGAN。最后分类器与判别器共用大部分参数，只保留最后几层参数不一致。

方法描述：
- 通过将 InfoGAN 与 StyleGAN 结合，形成一个新的架构——Info-StyleGAN。
- InfoGAN 通过引入信息论的概念（如信息最大化）来增强生成图像的控制能力，而 StyleGAN 提供了高质量的图像生成能力。
- 这种方法允许使用一个模型来实现更灵活的控制，包括生成图像的类型、风格和细节。
优点：
- 更通用和灵活，能够同时控制图像的多个特征。
- 提供了细粒度的控制，并能够生成高质量的图像。
缺点：
- 实现复杂，需要对两个模型的结合进行深入研究。
- 训练和调优过程可能需要更多的计算资源和时间。

参考笔记

seeprettyface

原文地址：https://blog.csdn.net/weixin_42917352/article/details/140586663

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Ant Design Vue中日期选择器快捷选择 presets 用法
下一篇：c++模板初识，STL简介

2024年网络安全（黑客技术）三个月自学手册
网络安全可以基于攻击和防御视角来分类，我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。走安全行业的工程方向的，技术上面其实有很大的重叠
阅读更多2024-11-15
数据结构Python版
2.3.3 双链表双链表和链表一样，只不过每个节点有两个链接——一个指向后一个节点，一个指向前一个节点。此外，除了第一个节点，双链表还需要记录最后一个节点。每个结点为DLinkNode类对象，包括存储
阅读更多2024-11-15
连接数据库导出数据库信息支持excel pdf html markdown
1. java -jar运行后连接数据库即可，支持多种数据库。2.支持多种导出格式。
阅读更多2024-11-15
【解决】Layout 下创建槽位后，执行 Image 同步槽位位置后表现错误的问题。
开发平台：Unity 6.0编程语言：CSharp编程平台：Visual Studio 2022。
阅读更多2024-11-15
乐理的学习（简谱过渡五线谱）
调号在五线谱开头标注多个“♯”或“♭”每个“♯”或“♭”对应一个音符位置的升降，比如：C大调（无升降）是自然大调的基础形式，不需要额外调号。G大调：在调号中添加一个“F♯”，表示所有的F都要弹F♯。D
阅读更多2024-11-15
CSS回顾-颜色单位详解
本文介绍了 CSS 中的颜色单位相关知识。包括颜色名称、十六进制颜色值、RGB、RGBA、HSL、HSLA 等颜色单位的表示方式、特点及使用场景。还阐述了颜色单位之间（颜色名称与十六进制、十六进制与
阅读更多2024-11-15
Spring Boot中集成Redis与MySQL
用途：将键或简单的值序列化为字符串。适用场景：通常用于键的序列化，确保键在 Redis 中以字符串存储，以便于直接查看和管理。用途：将对象序列化为 JSON 格式的字符串，并支持 JSON 反序列化回
阅读更多2024-11-15
linux配置nginx
状态如果是Active: active (running)则是正常的。
阅读更多2024-11-15
C03S04-Linux网络之软件仓库、SSH和NFS
SSH是一种安全通道协议，主要用于远程登录到服务器、执行远程命令、传输文件以及管理服务器等。默认的端口号是TCP/22。NFS（网络文件系统，Network File System）是一种件系统协议，
阅读更多2024-11-15
无人机飞手在保家卫国上重要性技术详解
无人机飞手通过操作无人机上的通信设备，可以将侦察到的情报信息及时传输给指挥系统，同时也可以接收指挥系统的指令进行任务调整。无人机飞手经过专业培训，不仅掌握了无人机在不同气候、地形条件下的飞行技巧，还具
阅读更多2024-11-15