卷积的计算——nn.Conv2d（Torch.nn里的Convolution Layers模块里的Conv2d类）

🕗 发布于 2024-10-11 08:16 深度学习 pytorch 人工智能

**前置知识：

1、张量和通道

张量：多维数组，用来表示数据（图像、视频等）

通道：图像数据的一部分，表示不同的颜色或特征层

通道只是张量的其中一个维度

以一张RGB图像为例，

该图像数据可以用一个三维张量（shape等于（C,H,W））来表示

其中C表示通道数（对于RGB图像，C=3），H表示高度，W表示宽度

再以一批64张图像组成的数据对象来看，

它可以用一个四维张量（shape等于（N,C,H,W））来表示

其中N表示批次大小（一批次图像的数量）

关于通道的补充：

2、Reshape：输入数据和卷积核张量的重塑

input = torch.reshape(input, (1, 1, 5, 5))

1：第一个 1 表示有 1 张图片（批量大小）
1：第二个 1 表示输入的通道数（这里是单通道，表示灰度图像）
5 和 5：分别表示图像的高度和宽度

kernel = torch.reshape(kernel, (1, 1, 3, 3))

1：第一个 1 表示有 1 个卷积核（输出通道数）
1：第二个 1 表示卷积核的输入通道数（与input的输入通道数匹配）
3 和 3：分别表示卷积核的高度和宽度

通过重塑，增加的信息主要是关于批量大小和通道数，

这使得输入和卷积核符合 conv2d 函数的要求

（输入张量必须是四维的，形状为 (N, C, H, W)，

卷积核（权重）必须是四维的，形状为 (out_channels, in_channels, kernel_height, kernel_width)：）

补充：

一张2*2RGB图像与一个3*3卷积核的卷积：

reshape后：

input的形状是（1，3，2，2），1表示1张图片

卷积核的形状是（1，3，3，3），1表示1个输出通道

3、output=F.conv2d(input,kernel,stride=1,padding=1)

input	输入张量（4维）
kernel	卷积核（4维）
stride	卷积核移动的步幅（可以是一个整数或元组，默认为 1）
padding	在输入的边缘添加零填充（帮助保持输出的空间尺寸）

**代码：

步骤：

import torch.nn.functional as F

定义input、kernel——>修改成四维形状reshape——>使用conv2d进行卷积

灰度图像的卷积：帮助识别图像中的特定特征，如边缘或纹理

import torch
import torch.nn.functional as F

input=torch.tensor([
    [1,2,0,3,1],
    [0,1,2,3,1],
    [1,2,1,0,0],
    [5,2,3,1,1],
    [2,1,0,1,1]
])

#卷积核
kernel=torch.tensor([
    [1,2,1],
    [0,1,0],
    [2,1,0]
])

print(input.shape)
print(kernel.shape)

input=torch.reshape(input,(1,1,5,5))  #图片数，图层数（通道数），宽，高
kernel=torch.reshape(kernel,(1,1,3,3))

print(input.shape)
print(kernel.shape)

output1=F.conv2d(input,kernel,stride=1)
print(output1)

output2=F.conv2d(input,kernel,stride=2)
print(output2)

output3=F.conv2d(input,kernel,stride=1,padding=1)
print(output3)

原文地址：https://blog.csdn.net/2302_79795489/article/details/142823757

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：欧科云链研究院深掘链上数据：洞察未来Web3的隐秘价值
下一篇：【深度学习基础模型】胶囊网络（Capsule Networks, CapsNet）详细理解并附实现代码。

【JavaScript】JavaScript开篇基础（2）
在 JavaScript 中，函数是头等公民，这意味着函数可以像其他数据类型一样被处理。函数可以作为其他函数的返回值、参数，甚至可以在函数内部定义。
阅读更多2024-10-12
论文 | Context-faithful Prompting for Large Language Models
这篇文章通过实验证明了基于意见的提示和反事实演示可以有效提高 LLM 在特定语境下的忠诚度。这些方法可以帮助 LLM 更准确地理解上下文信息，并提供更可靠和更可信的答案。这篇文章主要探讨了如何提高大型
阅读更多2024-10-12
c++ emplace
emplace系列函数通过在容器内原地构造对象来提高性能，特别是当对象的构造和复制代价较高时。相比于push_back和insertemplace更加高效，因为它避免了临时对象的构造、复制或移动。常见
阅读更多2024-10-12
Python列表操作详解
《Python 列表操作详解》文档深入全面地介绍了 Python 中列表这一重要数据结构的各种操作方法。内容涵盖了列表的创建、访问元素、添加和删除元素、列表切片、排序、反转等核心操作。通过详细的代码示
阅读更多2024-10-12
HarmonyOS NEXT应用元服务开发标注屏幕朗读内容的场景
控件包含显示文本（text）、无障碍文本（accessibilityText）2个属性，其中，显示文本为用户界面上呈现的信息，无障碍文本为无障碍专有的朗读信息，不在界面上显示。屏幕朗读提取信息进行朗读
阅读更多2024-10-12
Nginx常见问题
什么是Nginx？Nginx是一个轻量级/高性能的反向代理Web服务器，他实现非常高效的反向代理、负载平衡，他可以处理2-3万并发连接数，官方监测能支持5万并发，现在中国使用nginx网站用户有很多
阅读更多2024-10-12
git pull
git pll
阅读更多2024-10-12
第十一章 RabbitMQ之消费者确认机制
消费者确认机制（Consumer Acknowledgement）是为了确认消费者是否成功处理消息。当消费者处理消息结束后，应该向RabbitMQ发送一个回执，告知RabbitMQ自己消息处理状态：a
阅读更多2024-10-12
echarts多折线按组分类控制显示隐藏
需求：目前有俩个组数组分别为sss和aaa，sss和aaa有4个属性，分别为温度、湿度、气压和ppm，根据不同的属性每组画出4条折现，结果应该为8条折现，每条折现颜色不一致，名称也不一致，时间也不一致
阅读更多2024-10-12
vue项目子组件在打开时调用父组件传过来的props里的数据
vue项目子组件在打开时调用父组件传过来的props里的数据
阅读更多2024-10-12