李沐47_转置卷积

🕗 发布于 2024-04-18 11:26 深度学习 pytorch 计算机视觉 python 神经网络

转置卷积

1.卷积不会增大输入的高宽，要么不变，要么减半

2.转置卷积可以用来增大输入高宽

3.用id卷积卷，增大卷积核的数量可以达到增大特征图的目的

import torch
from torch import nn
from d2l import torch as d2l

输入矩阵X和卷积核矩阵K实现基本的转置卷积运算trans_conv。

def trans_conv(X, K):
    h, w = K.shape
    Y = torch.zeros((X.shape[0] + h - 1, X.shape[1] + w - 1))
    for i in range(X.shape[0]):
        for j in range(X.shape[1]):
            Y[i: i + h, j: j + w] += X[i, j] * K
    return Y

构建输入张量X和卷积核张量K从而验证上述实现输出。此实现是基本的二维转置卷积运算。

X = torch.tensor([[0.0, 1.0], [2.0, 3.0]])
K = torch.tensor([[0.0, 1.0], [2.0, 3.0]])
trans_conv(X, K)

tensor([[ 0.,  0.,  1.],
        [ 0.,  4.,  6.],
        [ 4., 12.,  9.]])

当输入X和卷积核K都是四维张量时，我们可以使用高级API获得相同的结果。

X, K = X.reshape(1, 1, 2, 2), K.reshape(1, 1, 2, 2)
tconv = nn.ConvTranspose2d(1, 1, kernel_size=2, bias=False)
tconv.weight.data = K
tconv(X)

tensor([[[[ 0.,  0.,  1.],
          [ 0.,  4.,  6.],
          [ 4., 12.,  9.]]]], grad_fn=<ConvolutionBackward0>)

填充、步幅和多通道

与常规卷积不同，在转置卷积中，填充被应用于的输出（常规卷积将填充应用于输入）。

tconv = nn.ConvTranspose2d(1, 1, kernel_size=2, padding=1, bias=False)
tconv.weight.data = K
tconv(X)

tensor([[[[4.]]]], grad_fn=<ConvolutionBackward0>)

验证步幅为2的转置卷积的输出。

tconv = nn.ConvTranspose2d(1, 1, kernel_size=2, stride=2, bias=False)
tconv.weight.data = K
tconv(X)

tensor([[[[0., 0., 0., 1.],
          [0., 0., 2., 3.],
          [0., 2., 0., 3.],
          [4., 6., 6., 9.]]]], grad_fn=<ConvolutionBackward0>)

X = torch.rand(size=(1, 10, 16, 16))
conv = nn.Conv2d(10, 20, kernel_size=5, padding=2, stride=3)
tconv = nn.ConvTranspose2d(20, 10, kernel_size=5, padding=2, stride=3)
tconv(conv(X)).shape == X.shape

True

定义了一个3X3的输入X和2X2卷积核K，然后使用corr2d函数计算卷积输出Y。

X = torch.arange(9.0).reshape(3, 3)
K = torch.tensor([[1.0, 2.0], [3.0, 4.0]])
Y = d2l.corr2d(X, K)
Y

tensor([[27., 37.],
        [57., 67.]])

将卷积核K重写为包含大量0的稀疏权重矩阵W。权重矩阵的形状是（4，9），其中非0元素来自卷积核K。

def kernel2matrix(K):
    k, W = torch.zeros(5), torch.zeros((4, 9))
    k[:2], k[3:5] = K[0, :], K[1, :]
    W[0, :5], W[1, 1:6], W[2, 3:8], W[3, 4:] = k, k, k, k
    return W

W = kernel2matrix(K)
W

tensor([[1., 2., 0., 3., 4., 0., 0., 0., 0.],
        [0., 1., 2., 0., 3., 4., 0., 0., 0.],
        [0., 0., 0., 1., 2., 0., 3., 4., 0.],
        [0., 0., 0., 0., 1., 2., 0., 3., 4.]])

逐行连结输入X，获得了一个长度为9的矢量。然后，W的矩阵乘法和向量化的X给出了一个长度为4的向量。重塑它之后，可以获得与上面的原始卷积操作所得相同的结果Y：我们刚刚使用矩阵乘法实现了卷积。

Y == torch.matmul(W, X.reshape(-1)).reshape(2, 2)

tensor([[True, True],
        [True, True]])

将上面的常规卷积2X2的输出Y作为转置卷积的输入。想要通过矩阵相乘来实现它，我们只需要将权重矩阵W的形状转置为（9，4）。

Z = trans_conv(Y, K)
Z == torch.matmul(W.T, Y.reshape(-1)).reshape(3, 3)

tensor([[True, True, True],
        [True, True, True],
        [True, True, True]])

原文地址：https://blog.csdn.net/Rrrrrr900/article/details/137881744

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：机器学习-随机森林算法预测房租模型
下一篇：学习java第四十六天

FPGA 第7讲简单组合逻辑译码器
经过验证对比发现两种方法虽然最后实现的功能是一样的，而所得到的 RTL 视图差别较大，但最后的逻辑资源使用却是相同的（时序逻辑中不一定相同），说明综合器进行了适当的优化。if-else 的这种写法是存
阅读更多2024-11-16
梧桐杯初赛入围（人工智能赛道） 15 / 100
本项目开发了一套先进的医疗问答系统，该系统融合了 Reinforced Attention Generator (RAG) 技术与大模型，旨在通过精确的知识检索和问答生成技术，显著提升心理健康咨询系统
阅读更多2024-11-16
faiss 提供了多种索引类型
faiss 多种索引类型
阅读更多2024-11-16
物联网低功耗广域网LoRa开发(二)：LoRa开发环境搭建及驱动移植
【代码】物联网低功耗广域网LoRa开发(二)：LoRa开发环境搭建及驱动移植。
阅读更多2024-11-16
【隐私计算】隐私计算的应用场景探索(大模型隐私计算、隐私数据存储计算、Web3、隐私物联网等)
隐私计算、隐私保护、大模型安全、大模型隐私推理、数据安全、数据隐私、web3、分布式网络、去中心化网络、隐私数据存储、大厂数据保护、隐私计算应用探索
阅读更多2024-11-16
EHOME视频平台EasyCVR多品牌摄像机视频平台监控视频编码H.265与Smart 265的区别？
Smart 265和Smart 264的区别是一个是在H.264编码基础上，一个是在H.265编码基础上，其作用都是在当前码率参数下进一步节省码流，如果你摄像头图像上运动画面越少，静止画面越多，则码率
阅读更多2024-11-16
软件测试基础二十九（接口测试 mock）
软件测试基础之接口测试 mock
阅读更多2024-11-16
《FreeRTOS任务基础知识以及任务创建相关函数》
FreeRTOS学习日志（4）--FreeRTOS任务基础知识以及任务创建相关函数
阅读更多2024-11-16
dlopen: cannot load any more object with static TLS & sklearn, HPOBench, smac3
成功解决：升级glibc版本到2.23。
阅读更多2024-11-16
2024年11月15日Github流行趋势
项目名称：MinerU项目名称：exo项目名称：nvm项目名称：kotaemon项目名称：VideoLingo项目名称：motion项目名称：primeng项目名称：bbot项目名称：es-toolk
阅读更多2024-11-16

李沐47_转置卷积

转置卷积

填充、步幅和多通道

相关文章