关于上采样＆下采样

🕗 发布于 2024-11-10 18:40 深度学习 人工智能

文章目录

上采样有nn.Upsample() ，但是没有对应的下采样。因为下采样实现的方式有很多的，通常，下采样任务是通过池化层（如 nn.MaxPool2d、nn.AvgPool2d）或者卷积层（如 nn.Conv2d with stride > 1）来实现的。 不过就是这两种方法的计算方式是一样的。

为什么 PyTorch 没有提供 `nn.Downsample` ?

Downsample 是一个概念性的操作，因为在深度学习中，下采样往往是带有特定目标的。例如，卷积下采样可以提取特征，池化下采样则关注特定模式,AvgPool2d 更适合平滑特征图，而 MaxPool2d更适合保留显著特征。因此，PyTorch 提供的下采样操作方法较为灵活多样，而没有提供单一的 nn.Downsample。

在实践中：

池化层 适合简单降维，没有引入学习参数。不会增加特征学习的能力，因此适合在下游卷积层或特征提取层前使用
卷积层 在下采样时还能学习特征，适合增强模型的表达能力，但是会引入学习参数。

总的来说，PyTorch选择不提供 Downsample，是因为池化和卷积已经涵盖了常用的下采样需求，同时允许用户有更大的控制和灵活性

那请问nn.Upsample是怎么做到的上采样的呢？

nn.Upsample 是 PyTorch 中用于上采样的层，能够将较小的特征图放大到更高的分辨率。它通过插值来实现上采样，可以选择不同的插值方法来填充新生成的像素值，常见的方法包括 nearest（最近邻插值）和 bilinear（双线性插值）。

具体有以下几种常用的模式：

nearest（最近邻插值）：简单复制最近的像素值。这种方式计算快，但生成的图像会比较“块状”。
不会增加计算开销，也不会增加新的参数，适合生成粗略的上采样结果。
bilinear（双线性插值）：通过周围 2x2 的像素值加权平均来计算新像素值，使上采样后的图像更平滑。适合处理需要平滑过渡的图像，但会稍微增加计算量。
bicubic（双三次插值）（仅支持 4D 输入）：使用更复杂的插值公式，基于周围 4x4 像素加权计算新像素，能生成更平滑的图像。这种方式更耗时，通常用于生成高质量图像。
trilinear（三线性插值）（适用于 5D 张量）：用于 3D 特征图的上采样，可以在体素数据（3D volume data）处理中使用。

使用 nn.Upsample

在使用时，可以设置 scale_factor 参数（指定放大的倍数）或 size 参数（直接指定目标大小）。

import torch
import torch.nn as nn

# 假设输入张量的形状为 [3, 4, 8, 8]
input_tensor = torch.randn(3, 4, 8, 8)

# 创建一个上采样层，将尺寸放大 2 倍
upsample = nn.Upsample(scale_factor=2, mode='bilinear')
output_tensor = upsample(input_tensor)
print(output_tensor.shape)  # 输出为 [3, 4, 16, 16]

在此示例中，我们将 scale_factor=2，上采样方式为 bilinear，因此尺寸从 [8, 8] 放大到了 [16, 16] 。

nn.Upsample 的应用场景

生成对称网络：在编码-解码结构（如 U-Net）中，用于将下采样的特征图恢复到更高分辨率。
生成对抗网络（GANs）：用于生成高清晰度图像。

总结: nn.Upsample 是一种不增加参数的上采样方法，适合特征图的放大需求，通过不同的插值方式控制上采样质量，具体选择取决于计算效率和精度的平衡。

原文地址：https://blog.csdn.net/qq_43701910/article/details/143650504

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：怎么读论文 - AlexNet论文解读
下一篇：C/C++ 中的预处理器指令有哪些？举例说明其用途

解决 Spring Boot 中 `Ambiguous mapping. Cannot map ‘xxxController‘ method` 错误
在使用 Spring Boot 开发 Web 应用时，经常会遇到各种各样的错误。其中一种常见的错误是。本文将详细介绍这个错误的原因及解决方法，帮助开发者快速定位并解决问题。解决错误的关键在于确保每个方
阅读更多2024-11-15
数据分析案例-笔记本电脑价格数据可视化分析
本实验数据集来源于Kaggle，原始数据集共有1303条数据，13个变量，各变量含义如下：0 laptop_ID-数字-产品ID1 Company-字符串-笔记本电脑制造商2 Product-字符串-
阅读更多2024-11-15
Linux 如何查看当前系统版本的详细信息？
系统中基本都存在，所以是一种标准的获取系统信息的方式。命令以标准的方式提供详细的发行版信息。发行版的说明文件一般位于。
阅读更多2024-11-15
初级数据结构——栈
数据结构栈（Stack）是一种线性的数据结构，它只允许在序列的一端（称为栈顶）进行插入和删除操作。这种特性使得栈成为许多算法和问题解决中的有力工具。栈是一种简单而强大的数据结构，它遵循后进先出的原则，
阅读更多2024-11-15
网络安全练习之 ctfshow_web
根据前面得到的qq邮箱中的qq号查询用户，目前电脑版的QQ添加好友好像不能查看详细信息，手机版的可以看到对方所在地为陕西西安。路径是：/editor/attached/file/tmp/html/no
阅读更多2024-11-15
Python 三种方式实现自动化任务
本文介绍了用Python实现机器人过程自动化的三个包，方便读者选择、对比学习。
阅读更多2024-11-15
C++基础：Pimpl设计模式的实现
PIMPL （ Private Implementation 或 Pointer to Implementation ）是通过一个私有的成员指针，将指针所指向的类的内部实现数据进行隐藏。
阅读更多2024-11-15
【flutter】flutter2升级到3.
以这个 https://github.com/aa286211636/Flutter_QQ 为例子，升级下看看。只有登录界面能正常显示，别的页面都是报错。flutter这版本变动，基本不能直接ru
阅读更多2024-11-15
【JAVA毕业设计】基于Vue和SpringBoot的宠物咖啡馆平台
基于Vue.js和SpringBoot的宠物咖啡馆平台是一个综合性的在线服务系统，旨在为宠物爱好者提供一个便捷的宠物护理和社交场所。该平台分为管理后台和用户网页端，以满足不同用户群体的需求。管理后台主
阅读更多2024-11-15
认证鉴权框架SpringSecurity-2--重点组件和过滤器链篇
这4个接口中，每一个都是当认证或者授权过程中发生结果后触发，可以是失败的场景也可以是成功后触发。1个成功后执行，3个为失败后促发执行。
阅读更多2024-11-15