图像修复-SwinIR: Image Restoration Using Swin Transformer

🕗 发布于 2024-10-13 16:31 transformer 深度学习 人工智能 超分辨率重建图像处理

图像修复-SwinIR: Image Restoration Using Swin Transformer

SwinIR是一个专门用于图像修复任务的基线模型，它基于Swin Transformer架构。相比于基于卷积神经网络的传统方法，SwinIR利用了Transformer在高层次视觉任务中的优异表现。

文章目录

- - 图像修复-SwinIR: Image Restoration Using Swin Transformer

在阅读本篇文章之前，必须对Swin Transformer架构有一定了解，可以查看Swin Transformer详情

SwinIR架构图

三部分组成：浅层特征提取（shallow feature extraction）、深层特征提取（deep feature extraction）、深层特征提取（deep feature extraction）

浅层特征提取（shallow feature extraction）：负责从输入的低质量图像中提取初始特征。

深层特征提取（deep feature extraction）：由多个残差Swin Transformer块（Residual Swin Transformer Blocks，RSTB）组成，每个块内部包含多个Swin Transformer层，结合了残差连接。这一模块用于提取深层次的图像特征。

高质量图像重建（high-quality image reconstruction）：将深层次提取的特征转换为高质量的输出图像。

在这里插入图片描述

浅层特征提取

首先，对于给定的低质量图像LQ∈H×W×C（其中 H 为高度，W 为宽度，C为输入通道数），通过一个 3 × 3 卷积层 HSF 提取浅层特征 F0。卷积层通过对早期视觉处理的良好效果，稳定了优化过程并提升了结果，同时将输入从图像空间映射到高维特征空间。卷积层通过对早期视觉处理的良好效果，稳定了优化过程并提升了结果，同时将输入从图像空间映射到高维特征空间。

架构代码

self.conv_first = nn.Conv2d(num_in_ch, embed_dim, 3, 1, 1) # 就是简单的卷积，下采样

深层特征提取

由上图中的（a）和（b）作出详细解释，6个STL之后连接一个Conv，再加上残差构成一个RSTB，深层则由6个RSTB组成，后面连接一Conv和残差构成深层特征提取。

STL也就是Swin Transformer Layer，简单来说由两部分组成，就是图中MSA（实际上是一对W-MSA和SW-MSA），然后连接归一化和MPL，同时加上残差连接。
Swin Transformer详情
具体可以看：

在这里插入图片描述

架构代码

self.num_layers = len(depths)  # 设置网络层数，基于给定的 depths 列表长度
self.embed_dim = embed_dim  # 设置嵌入维度
self.ape = ape  # 是否使用绝对位置编码（absolute position embedding）
self.patch_norm = patch_norm  # 是否对patch进行归一化
self.num_features = embed_dim  # 特征通道数等于嵌入维度
self.mlp_ratio = mlp_ratio  # MLP比例系数

# 将图像划分为不重叠的patches
self.patch_embed = PatchEmbed(
    img_size=img_size, patch_size=patch_size, in_chans=embed_dim, embed_dim=embed_dim,
    norm_layer=norm_layer if self.patch_norm else None)  # 设置patch嵌入模块
num_patches = self.patch_embed.num_patches  # 获取patch数量
patches_resolution = self.patch_embed.patches_resolution  # 获取patches的分辨率
self.patches_resolution = patches_resolution  # 保存patches的分辨率

# 将不重叠的patches合并回图像
self.patch_unembed = PatchUnEmbed(
    img_size=img_size, patch_size=patch_size, in_chans=embed_dim, embed_dim=embed_dim,
    norm_layer=norm_layer if self.patch_norm else None)  # 设置patch解嵌入模块

# 绝对位置编码
if self.ape:
    self.absolute_pos_embed = nn.Parameter(torch.zeros(1, num_patches, embed_dim))  # 初始化绝对位置编码参数
    trunc_normal_(self.absolute_pos_embed, std=.02)  # 对位置编码进行截断正态分布初始化

    self.pos_drop = nn.Dropout(p=drop_rate)  # 位置编码的dropout层

    # 随机深度（Stochastic Depth）
    dpr = [x.item() for x in torch.linspace(0, drop_path_rate, sum(depths))]  # 随机深度的递减规则

    # 构建残差Swin Transformer块（RSTB）
    self.layers = nn.ModuleList()  # 保存网络层
    for i_layer in range(self.num_layers):
        # 初始化每层的RSTB模块
        layer = RSTB(dim=embed_dim,
                     input_resolution=(patches_resolution[0], patches_resolution[1]),  # 输入分辨率
                     depth=depths[i_layer],  # 当前层的深度
                     num_heads=num_heads[i_layer],  # 多头注意力机制的头数
                     window_size=window_size,  # 窗口大小
                     mlp_ratio=self.mlp_ratio,  # MLP的比例系数
                     qkv_bias=qkv_bias, qk_scale=qk_scale,  # QKV相关参数
                     drop=drop_rate, attn_drop=attn_drop_rate,  # dropout参数
                     drop_path=dpr[sum(depths[:i_layer]):sum(depths[:i_layer + 1])],  # 随机深度的drop路径
                     norm_layer=norm_layer,  # 归一化层
                     downsample=None,  # 不进行下采样
                     use_checkpoint=use_checkpoint,  # 是否使用梯度检查点
                     img_size=img_size,  # 图像大小
                     patch_size=patch_size,  # patch大小
                     resi_connection=resi_connection  # 残差连接类型
                    )
        self.layers.append(layer)  # 将构建的层添加到层列表中
        self.norm = norm_layer(self.num_features)  # 为每层添加归一化操作

        # 构建深度特征提取中的最后一个卷积层
        if resi_connection == '1conv':
            self.conv_after_body = nn.Conv2d(embed_dim, embed_dim, 3, 1, 1)  # 单层卷积作为残差连接
        elif resi_connection == '3conv':
            # 为了节省参数和内存，使用三层卷积残差连接
            self.conv_after_body = nn.Sequential(
                nn.Conv2d(embed_dim, embed_dim // 4, 3, 1, 1),  # 第一个卷积层，减少通道数
                nn.LeakyReLU(negative_slope=0.2, inplace=True),  # 激活函数LeakyReLU
                nn.Conv2d(embed_dim // 4, embed_dim // 4, 1, 1, 0),  # 第二个1x1卷积层，保持通道数
                nn.LeakyReLU(negative_slope=0.2, inplace=True),  # 激活函数LeakyReLU
                nn.Conv2d(embed_dim // 4, embed_dim, 3, 1, 1)  # 第三个卷积层，恢复通道数
            )

高质量图像重建

图像恢复中的高质量图像重建，针对不同任务（如超分辨率、去噪和JPEG伪影去除）选择不同的上采样策略。

pixelshuffle 模式用于经典超分辨率任务，通过 Pixel Shuffle 技术上采样。
pixelshuffledirect 模式适用于轻量级超分辨率任务，减少参数量。
nearest+conv 模式则针对真实世界超分辨率，结合最近邻插值和卷积减少伪影。而对于去噪和伪影去除等任务，直接通过卷积层输出高质量图像。

架构代码

if self.upsampler == 'pixelshuffle':
    # 针对经典的超分辨率（SR）
    # 在上采样之前的卷积层，3x3卷积用于特征处理，LeakyReLU用于激活
    self.conv_before_upsample = nn.Sequential(
        nn.Conv2d(embed_dim, num_feat, 3, 1, 1),
        nn.LeakyReLU(inplace=True)
    )
    # 使用PixelShuffle进行上采样
    self.upsample = Upsample(upscale, num_feat)
    # 最后的卷积层，用于生成输出图像，3x3卷积
    self.conv_last = nn.Conv2d(num_feat, num_out_ch, 3, 1, 1)

elif self.upsampler == 'pixelshuffledirect':
    # 针对轻量级超分辨率（SR），为了减少参数量
    # 使用一步到位的PixelShuffle直接上采样
    self.upsample = UpsampleOneStep(upscale, embed_dim, num_out_ch,
                                    (patches_resolution[0], patches_resolution[1]))

elif self.upsampler == 'nearest+conv':
    # 针对真实世界超分辨率（SR），减少伪影
    # 在上采样之前的卷积层，3x3卷积处理特征，LeakyReLU用于激活
    self.conv_before_upsample = nn.Sequential(
        nn.Conv2d(embed_dim, num_feat, 3, 1, 1),
        nn.LeakyReLU(inplace=True)
    )
    # 第一个上采样卷积层，使用3x3卷积
    self.conv_up1 = nn.Conv2d(num_feat, num_feat, 3, 1, 1)
    
    if self.upscale == 4:
        # 如果上采样比例为4，则需要第二个卷积层
        self.conv_up2 = nn.Conv2d(num_feat, num_feat, 3, 1, 1)
        # 高分辨率特征的卷积层，3x3卷积
        self.conv_hr = nn.Conv2d(num_feat, num_feat, 3, 1, 1)
        # 最后的卷积层，生成最终输出图像，3x3卷积
        self.conv_last = nn.Conv2d(num_feat, num_out_ch, 3, 1, 1)
        # LeakyReLU激活函数
        self.lrelu = nn.LeakyReLU(negative_slope=0.2, inplace=True)
else:
    # 针对图像去噪和JPEG压缩伪影减少
    # 最后的卷积层，3x3卷积，用于生成输出图像
    self.conv_last = nn.Conv2d(embed_dim, num_out_ch, 3, 1, 1)

损失函数

不同任务下的损失函数根据具体需求有所调整，SR任务中使用L1像素损失，真实世界SR中增加了GAN和感知损失，去噪与压缩伪影去除任务中采用Charbonnier损失以增强稳定性。

图像超分辨率（SR）

在这里插入图片描述

图像去噪和JPEG压缩伪影去除

在这里插入图片描述

需要源码讲解可以联系我

原文地址：https://blog.csdn.net/sgr011215/article/details/142894631

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：10.8Python数学基础-函数与极限
下一篇：强基计划揭秘、攻略、机遇全知晓，开启普通学子名校逆袭路

qiankun 主项目和子项目都是 vue2，部署在同一台服务器上，nginx 配置
在部署主应用和子应用时，遇到主应用转发到子应用时，静态资源无法访问的问题，重点是查看子应用publicPath这个配置，这个是静态文件的访问前缀，如果部署到服务器上，子应用的静态资源无法访问到，可以看
阅读更多2024-10-14
Android中Fragment的使用场景与生命周期
此外，还有一些特殊情况下会调用的生命周期方法，如onSaveInstanceState(Bundle outState)，它用于保存Fragment的状态，以便在Activity重新创建时恢复Frag
阅读更多2024-10-14
深度学习 shape 属性
在 MXNet 的ndarray中，shape属性用于获取数组的维度信息。它返回一个表示数组各维度大小的元组，可以帮助了解数据的结构和形状。
阅读更多2024-10-14
Java 一维数组作为函数参数
/同理五个数据只是偶然，可能会更多。printf("第%d个你输入的值%d\n", i + 1, a[i]);printf("第%d个你输入的值%d\n",i+
阅读更多2024-10-14
MySQL 之事务隔离级别
不同的事务隔离级别在数据一致性和并发性能之间进行了不同的权衡。如果需要保证一定的数据一致性，可以选择可重复读；如果对数据一致性要求极高，可以选择串行化，但要注意其对并发性能的影响。同时，还可以通过合理
阅读更多2024-10-14
Gin框架简易搭建(4)--项目开发
很快将对投票验证信息以及录入活动和参赛者的功能将在后续实现。
阅读更多2024-10-14
【数据结构与算法】9. 二叉树的基本操作
🙏小杨水平有限，欢迎各位大佬指点，相互学习进步！小杨近些在学习人工智能方面的知识,发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。。
阅读更多2024-10-14
数据结构：红黑树
前面我们介绍了AVL树来解决搜索二叉树不平衡的问题，今天我们带来一种新的解决方案，同时，这种解决方案在实践中比AVL树更常用，这种数据结构就是红黑树。
阅读更多2024-10-14
如何使用Pandas库处理大型数据集？
在使用Pandas处理大型数据集时，合理利用内存和计算资源是关键。通过使用分块加载、减少不必要的数据列、优化数据类型以及结合并行化处理等技术，你可以有效地处理更大的数据集而不耗尽系统资源。
阅读更多2024-10-14
《PyTorch深度学习快速入门教程》学习笔记（第16周）
本周报的目的在于汇报《PyTorch深度学习快速入门教程》课程第二周的学习成果，主要聚焦于Tensorboard的使用以及其相关内容。在这本周的学习中，课程内容主要涵盖了Tensorboard使用，包
阅读更多2024-10-14

图像修复-SwinIR: Image Restoration Using Swin Transformer

图像修复-SwinIR: Image Restoration Using Swin Transformer

文章目录

SwinIR架构图

浅层特征提取

架构代码

深层特征提取

架构代码

高质量图像重建

架构代码

损失函数

图像超分辨率（SR）

图像去噪和JPEG压缩伪影去除

相关文章