Pytorch卷积理解：Input Shape灵活性与实验解析

PDF文件

150KB | 更新于2024-08-30 | 115 浏览量 | 举报 1 收藏

立即下载

在PyTorch中，卷积层（Conv2d）是深度学习模型中处理图像数据的重要组件，用于提取特征并减少数据的维度。卷积层的定义如下： ```python class torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True) ``` 其中，`in_channels` 表示输入通道数，即输入图像的每个像素通道数量，例如RGB图像通常有3个通道。`out_channels` 是输出通道数，也就是卷积后每个像素会生成的新特征数量。`kernel_size` 是卷积核的大小，通常是一个元组，如(3, 3)表示3x3的卷积核。值得注意的是，尽管PyTorch的Conv2d函数在文档中并未明确指定`input_shape`，但其内部逻辑确实依赖于输入数据的维度。当我们在构建网络时，实际上已经隐含地假设了输入数据的形状遵循 `(N, C_in, H, W)` 的格式，其中 `N` 是批量大小，`C_in` 是输入通道数，`H` 和 `W` 是图像的高度和宽度。当你实例化一个卷积层，如 `self.conv1 = nn.Conv2d(1, 6, 5)`，虽然没有直接指定输入图像的具体尺寸，但层的构造函数会根据`in_channels`自动调整预期的输入数据。这意味着你可以传递不同大小的`H`和`W`值，只要它们与`in_channels`和`kernel_size`相匹配，且满足卷积操作的边界条件（如填充(padding)和步长(stride)）。例如，如果你的`input_shape`是 `(1, 1, 28, 28)`，这表示单通道的28x28像素图像，然后使用一个3x3的卷积核，可能需要设置适当的padding为1（使得输出尺寸不变），因为3+2*1=5，可以保持输出和输入相同的高度和宽度。在实践中，网络结构的设计者通常会在训练之前确定好输入图像的确切尺寸，以确保数据能够正确地馈送到卷积层。虽然理论上讲，PyTorch的Conv2d层可以在没有预定义输入尺寸的情况下工作，但在实际应用中，为了代码的清晰性和效率，最好还是提供明确的输入形状。此外，对于最大池化层（如`F.max_pool2d()`）和全连接层（如`nn.Linear()`），也需要考虑到它们对输入维度的要求，以便将数据展平成一维向量供后续处理。在`Net`类中，你展示了如何创建一个简单的卷积神经网络，包括两次卷积、两次最大池化以及两个全连接层。`num_flat_features`方法用于将四维张量展平为二维张量，以适应全连接层的输入需求。这个例子展示了如何在实际网络架构中整合卷积层，并确保输入尺寸的适配性。

Pytorch 卷积中的卷积中的 Input Shape用法用法

先看先看Pytorch中的卷积中的卷积

class torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1,

bias=True)

二维卷积层, 输入的尺度是(N, C_in,H,W)，输出尺度（N,C_out,H_out,W_out）的计算方式

这里比较奇怪的是这个卷积层居然没有定义input shape，输入尺寸明明是：（N, C_in, H，W），但是定义中却只需要输入

in_channel的size，就能完成卷积，那是不是说这样任意size的image都可以进行卷积呢？

然后我进行了下面这样的实验：

import torch

import torch.nn as nn

import torch.nn.functional as F

class Net(nn.Module):

def __init__(self):

super(Net, self).__init__()

# 输入图像channel：1；输出channel：6；5x5卷积核

self.conv1 = nn.Conv2d(1, 6, 5)

self.conv2 = nn.Conv2d(6, 16, 5)

# an affine operation: y = Wx + b

self.fc1 = nn.Linear(16 * 5 * 5, 120)

self.fc2 = nn.Linear(120, 84)

self.fc3 = nn.Linear(84, 10)

def forward(self, x):

# 2x2 Max pooling

x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))

# If the size is a square you can only specify a single number

x = F.max_pool2d(F.relu(self.conv2(x)), 2)

x = x.view(-1, self.num_flat_features(x))

x = F.relu(self.fc1(x))

x = F.relu(self.fc2(x))

x = self.fc3(x)

return x

def num_flat_features(self, x):

size = x.size()[1:] # 除去批大小维度的其余维度

num_features = 1

for s in size:

num_features *= s

return num_features

net = Net()

print(net)

输出

Net(

(conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))

(conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))

(fc1): Linear(in_features=400, out_features=120, bias=True)

(fc2): Linear(in_features=120, out_features=84, bias=True)

(fc3): Linear(in_features=84, out_features=10, bias=True)

)

官网Tutorial 说：这个网络（LeNet）的期待输入是32×32，我就比较奇怪他又没有设置Input shape或者Tensorflow里的Input

层，怎么就知道(H,W) =(32, 32)。

下载后可阅读完整内容，剩余3页未读，继续阅读

开通会员，免费下载（低至0.43元/天)

成为会员后, 你将解锁

下载资源随意下

优质VIP博文免费学

优质文库回答免费看

付费资源9折优惠

weixin_38672794

粉丝: 5

Pytorch卷积理解：Input Shape灵活性与实验解析

pytorch中获取模型input/output shape实例

PyTorch获取模型输入输出Shape详解

PyTorch中的卷积神经网络（CNN）原理与实践

【LSTM的编程实现】PyTorch中LSTM模块的使用方法

pytorch卷积conv2d

pytorch卷积网络

pytorch卷积上采样

pytorch中普通卷积和可分离卷积分别怎么调用

pytorch反卷积

pytorch转置卷积

最新资源