【Week-G5】适用于图像翻译的pix2pix模型-Pytorch版本

🕗 发布于 2024-07-25 23:45 深度学习

文章目录

1、基础知识
2、运行代码

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊 | 接辅导、项目定制

本次主要学习Pix2Pix网络，常用于图像翻译，它的核心技术包括三点：
（1）基于CGAN的损失函数：通过DropOut在生成模型中引入随机噪声z
（2）基于U-Net的生成器：包含编码-解码结构，可以学习浅层到深层的特征
（3）基于PatchGAN的判别器：输入图像被划分成块（Patch）

1、基础知识

1.1 图像翻译

首先要先理解图像内容（Image Content）、图像域（Image Domain）和图像翻译这三个概念。

图像内容：指的是图像的固有内容，它是区分不同图像的依据
图像域：指在特定上下文中所涵盖的一组图像的集合，这些图像通常具有某种相似性或共同特征。图像域可以用来表示一类具有共同属性或内容的图像。在图像翻译中，通常涉及至少两个域：源域和目标域。域内的图像可以认为其内容被赋予了某些相同的风格、纹理或其他视觉特性。
图像翻译：是将一个物体的图像表征转换为该物体的另一个表征，例如根据皮包的轮廓得到皮包的彩色图。也就是找到一个函数，能让域A的图像映射到域B，从而实现图像的跨域转换。

1.2 CGAN

之前的学习内容中有包含CGAN的内容。

1.3 U-Net

【U-Net介绍】

U-Net：一种应用于医学图像分割的全卷积网络，网络结构如下：
在这里插入图片描述

（1）编码器-解码器（Encoder-Decoder）结构：U-Net由一个收缩路径（编码器）和一个对称的扩展路径（解码器）组成。编码器部分主要负责通过卷积层提取特征，而解码器部分则用于上采样特征图，逐步恢复到原始图像的尺寸。
（2）跳跃连接（Skip Connections）：在编码和解码阶段之间存在跳跃连接，即从编码器到解码器的深层特征图会与解码器相应层次的输出进行拼接。这种设计可以帮助保持图像的细节信息，并有助于更好地进行精确的分割。
（3）多层次特征融合：U-Net结构允许在不同层级的特征之间进行融合，这样可以让网络同时学习到浅层次的细节特征和深层次的语义特征，从而增强模型对不同尺度结构的识别能力。

1.4 Pix2Pix

Pix2Pix是一种基于条件生成对抗网络（CGAN）的图像翻译模型，该模型将输入的图像对转换为对应的输出图像，通常用于解决图像到图像的转换问题。【1】

（1）基于CGAN的损失函数： Pix2Pix在生成器的模型层中通过Dropout引入了随机噪声
（2）基于U-Net的生成器，如下图：
（3）基于PatchGAN的判别器：将输入图像分成NxN的图像块，然后把这些图像块依次输入到判别器

2、运行代码

源码由博主提供
报错：
在这里插入图片描述
解决方法：修改数据集路径

在这里插入图片描述
运行结果：

原文地址：https://blog.csdn.net/qq_40724911/article/details/140645989

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：让 AI 开发更高效、低成本，DigitalOcean 公布 GPU Droplet 云主机产品
下一篇：Vue3 study

excel如何快速选中某个数字或者某串数字
鼠标光标放在某个数字或者某串数字的末尾，进行双击鼠标左键即可（就会选中当前鼠标光标前相邻的所有数字）：
阅读更多2024-09-17
面试官问：请描述一次你成功解决问题的经历？
面试官为什么要这么问？面试官问你描述一次成功解决问题的经历，主要是为了评估你的几个关键方面：问题解决能力：了解你在面对挑战时的思维方式和应对策略。决策能力：考察你在压力下做出明智决定的能力。沟通技巧：
阅读更多2024-09-17
VLMEvalKit 评测实践:InternVL2 VS Qwen2VL
多模态技术的突破，正在改变我们理解和交互世界的方式。无论是强大的感知能力、复杂的推理分析，还是图文融合的创新应用，InternVL2 与 Qwen2-VL 展现了大模型的无限可能。
阅读更多2024-09-17
mybatis开启日志
步骤很详细，直接上教程……
阅读更多2024-09-17
MySQL——数据库的高级操作（一）数据备份与还原（1）数据的备份
MySQL——数据库的高级操作（一）数据备份与还原（1）数据的备份
阅读更多2024-09-17
Blender渲染太慢怎么办？blender云渲染已开启
此次，渲染101云渲染农场正式加入了对Blender的全面支持，涵盖Blender的所有版本，不论是较新的Blender 4.0还是早期版本，都可轻松对接渲染101平台服务。不论是小型独立项目还是大型
阅读更多2024-09-17
ubuntu安装mysql 8.0忘记root初始密码，如何重新修改密码
修改my.cnf文件，在文件新增 skip-grant-tables，在启动mysql时不启动grant-tables，授权表。5.注释掉skip-grant-tables后重启mysql。2、修改m
阅读更多2024-09-17
JVM面试真题总结（十一）
总的来说，Java内存模型主要解决了多线程环境下共享数据的一致性、可见性等问题，是Java并发编程的基础。这种模型的好处是，由于启动类加载器是最顶部的加载器，因此它加载的都是最可信任的类库（Java的
阅读更多2024-09-17
Ubuntu 软件仓库镜像使用帮助
选择镜像。
阅读更多2024-09-17
用于稀疏自适应深度细化的掩码空间传播网络 CVPR2024
图像引导的深度补全是一项通过利用稀疏深度测量和RGB图像来估计密集深度图的任务；它通过估算深度来填充未测量的区域。由于许多深度传感器（如LiDAR和飞行时间相机（ToF））只能提供稀疏的深度图，这项任
阅读更多2024-09-17