PyTorch中池化层的padding和ceil_mode参数设置

本文详细解析了PyTorch中池化操作的参数设置,包括padding、ceil_mode和count_include_pad对输出特征图大小的影响,以及如何通过调整这些参数实现特定的输出尺寸。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在池化操作的接口中,padding和ceil_mode这两个参数会影响到输出特征图的大小。padding即对特征图大小进行扩充的像素数量;ceil_mode指明,当剩余的像素不足滤波器大小,是否仍对这些像素进行运算。
对于池化操作来说,当stride为1时,希望输出与输入保持不变;当stride为2时,希望输出特征图的宽高均为输入的一半。下面以avg_pool2d讲解如何尽量简单达到上述目的:

import torch
import torch.nn.functional as f

y = torch.tensor([[[[1,5,4,9]]]])

print(f.avg_pool2d(y, (1, 3), stride=2, padding=0, ceil_mode=False)) # tensor([[[[3]]]])
print(f.avg_pool2d(y, (1, 3), stride=2, padding=0, ceil_mode=True))  # tensor([[[[3, 6]]]])
print(f.avg_pool2d(y, (1, 3), stride=2, padding=(0, 1), ceil_mode=False)) # tensor([[[[2, 6]]]])
print(f.avg_pool2d(y, (1, 3), stride=2, padding=(0, 1), ceil_mode=True))  # tensor([[[[2, 6, 4]]]])

print(f.avg_pool2d(y, (1, 3), stride=1, padding=0, ceil_mode=False)) # tensor([[[[3, 6]]]])
print(f.avg_pool2d(y, (1, 3), stride=1, padding=0, ceil_mode=True))  # tensor([[[[3, 6]]]])
print(f.avg_pool2d(y, (1, 3), stride=1, padding=(0, 1), ceil_mode=False)) # tensor([[[[2, 3, 6, 4]]]])
print(f.avg_pool2d(y, (1, 3), stride=1, padding=(0, 1), ceil_mode=True))  # tensor([[[[2, 3, 6, 4]]]])

stride=2时:
若padding为0,则padding后仍为[1, 5, 4, 9]。第一次运算对[1, 5, 4]进行,得到3(向下取整);由于stride=2,则 第二次运算只剩[4, 9]这一个像素,小于kernel_size,此时,若ceil_mode=False,则直接不对剩余的部分运算,因此输出大小为1;若ceil_mode=True,则对剩余部分继续计算,取[4, 9]的均值6(向下取整),因此输出大小为2。若padding=1,PyTorch的默认padding值为0,则该维度上padding后为[0, 1, 5, 4, 9, 0],ceil_mode=False时,输出为[2, 6];ceil_mode=True时,输出为[2, 6, 4]。

stride=1时:
若padding=0,则输出为[3, 6];若padding=1,输入为[0, 1, 5, 4, 9, 0],输出为[2, 3, 6, 4]。stride=1时,ceil_mode的值不起作用,始终为False。

总结:

stride=2,padding=1或ceil__mode=True;stride=1时,必须有padding=1,ceil_mode的设置不起作用。

推广:

ceil_mode始终保持PyTorch的默认值False,且padding始终为kernel_size // 2。

PyTorch中池化操作还有一个与padding有关的参数count_include_pad,默认为True。意义是在运算(比如计算平均值或最大值)时,始终将padding的值纳入计算。

import torch
import torch.nn.functional as f
y = torch.tensor([[[[1,5,4,9]]]])

print(f.avg_pool2d(y, (1, 3), stride=2, padding=(0, 1), ceil_mode=False)) # tensor([[[[2, 6]]]])
print(f.avg_pool2d(y, (1, 3), stride=2, padding=(0, 1), count_include_pad=False, ceil_mode=False)) # tensor([[[[3, 6]]]])

print(f.avg_pool2d(y, (1, 3), stride=1, padding=(0, 1), ceil_mode=False)) # tensor([[[[2, 3, 6, 4]]]])
print(f.avg_pool2d(y, (1, 3), stride=1, padding=(0, 1), count_include_pad=False, ceil_mode=False)) # tensor([[[[3, 3, 6, 4]]]])

如在上述例子中,stride=2,padding=1,ceil_mode=False时,若将count_include_pad设为False,则结果由[2, 6]变为[3, 6]。一般的,进行平均池化时,将该参数设为False;进行最大池化时,可保持默认不变,为True。

### PyTorch 池化层使用方法 #### 最大池化操作示例 最大池化是一种常用的降采样技术,可以减少特征图的空间尺寸。在PyTorch中,`nn.MaxPool2d` 类用于执行二维的最大池化操作[^1]。 ```python import torch from torch import nn # 创建一个形状为 (1, 1, 4, 4) 的张量作为输入数据 X = torch.tensor([[[ [0., 1., 2., 3.], [4., 5., 6., 7.], [8., 9., 10., 11.], [12., 13., 14., 15.] ]]]) # 定义一个最大池化层,窗口大小为 2x2,默认步幅等于窗口大小 maxpool_layer = nn.MaxPool2d(kernel_size=2) # 应用最大池化层输入数据上 output = maxpool_layer(X) print(output) ``` 这段代码展示了如何创建一个简单的最大池化层,并应用它来处理给定的输入矩阵。输出将是经过最大池化后的结果,其空间维度会减半。 #### LPPool2d 介绍 除了最大池化外,LPPool2d 是另一种类型的池化方式,在某些情况下可能更为适用。该类接受参数 `norm_type` 来指定范数类型以及其他的常规配置选项如 `kernel_size`, `stride` `ceil_mode` 等[^2]。 ```python lp_pool_layer = nn.LPPool2d(norm_type=2, kernel_size=(2, 2), stride=2) output_lp = lp_pool_layer(X) print(output_lp) ``` 这里定义了一个基于 Lp 范数的池化层实例,并同样应用于之前的输入张量 `X` 上进行测试。 #### 自定义池化层设置 如同卷积那样,池化层也支持自定义填充 (`padding`) 及调整滑动窗口之间的距离即步幅(`stride`). 这些特性允许灵活控制最终输出的尺寸布局[^4]. ```python custom_maxpool_layer = nn.MaxPool2d(kernel_size=2, padding=1, stride=1) output_custom = custom_maxpool_layer(X) print(output_custom.shape) ``` 上述例子设置了额外的一圈零填充,并让每次只移动一步而不是默认情况下的两步,这将影响到最后得到的结果数组的形式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值