10-编码器-解码器架构

编码器-解码器 

        机器翻译中,输入和输出的序列都是可变的。处理这种类型的输入输出,采取编码器-解码器的架构。编码器将输入的可变序列转化为定长的序列,再有解码器转变为可变的序列。该架构如下图所示: 

seq2seq

        使用两个循环神经网络来作为编码器和解码器,应用于seq2seq模型。为了连续生成输出序列的词元, 独立的循环神经网络解码器是基于输入序列的编码信息和输出序列已经看见的或者生成的词元来预测下一个词元。具体结果如下图所示:

        其中特定的“<eos>”表示序列结束词元,一旦输出序列生成此词元,模型就会停止预测。特定的“<bos>”表示序列开始词元,它是解码器的输入序列的第一个词元。解码器的初始隐状态是编码器的最终的隐状态,并且编码器最终的隐状态在每一个时间步都作为解码器的输入序列的一部分。

束搜索 

        束搜索是介于贪心搜索和穷举法之间的方法,贪心搜索是在每时刻都选择当前概率最大的预测值,穷举是将所有可能的序列都进行查看,最后选择一个概率最大的预测值。束搜索只在第一个时间步,选择K个最大的预测值,之后的时间步里同贪心搜索一样选择概率最大的预测序列,最后将得到的预测序列进行比较,选择其中概率最大的。如下图所示:

        设束宽位2,输出长度为2,候选输出序列有A、C、AB、CE、ABD、CED。最后,基于这六个序列(例如,丢弃包括“<eos>”和之后的部分),获得最终候选输出序列集合。 然后选择其中条件概率乘积最高的序列作为输出序列: 

 \frac{1}{L^\alpha} \log P(y_1, \ldots, y_{L}\mid \mathbf{c}) = \frac{1}{L^\alpha} \sum_{t'=1}^L \log P(y_{t'} \mid y_1, \ldots, y_{t'-1}, \mathbf{c}),

        其中L是最终候选序列的长度, α通常设置为0.75。 因为一个较长的序列在上式的求和中会有更多的对数项, 因此分母中的L^\alpha用于惩罚长序列。贪心搜索可以看作是一种束宽为1的特殊类型的束搜索。通过灵活地选择束宽,束搜索可以在正确率和计算代价之间进行权衡。

### CNN 编码器-解码器架构工作原理 #### 工作机制概述 卷积神经网络(CNN)中的编码器-解码器结构是一种特殊的网络设计模式,广泛应用于图像处理领域。该架构由两部分组成:编码器解码器。 #### 编码过程 给定原始像素图 \(I\) ,基本的 CNN 分支通过一系列尺度将其编码成多级特征映射[^1]。每一层可以是一个操作函数组合的结果,比如卷积(Conv),池化(Pooling),批标准化(BN)以及激活函数等。这些操作共同作用于输入数据上,逐步提取抽象层次更高的语义信息: ```python import torch.nn as nn class Encoder(nn.Module): def __init__(self): super(Encoder, self).__init__() self.conv1 = nn.Conv2d(in_channels=3, out_channels=64, kernel_size=3, stride=1, padding=1) self.bn1 = nn.BatchNorm2d(num_features=64) self.relu = nn.ReLU() def forward(self, x): x = self.conv1(x) x = self.bn1(x) x = self.relu(x) return x ``` 上述代码展示了如何构建一个简单的编码模块,在实际应用中通常会有多个这样的模块堆叠起来形成完整的编码路径。 #### 解码过程 解码阶段旨在恢复空间分辨率并重建目标输出。这通常是通过对来自编码端的信息进行反向传播来实现,即采用转置卷积、最近邻插值或其他形式的放大方法增加维度大小的同时减少通道数量: ```python class Decoder(nn.Module): def __init__(self): super(Decoder, self).__init__() self.deconv1 = nn.ConvTranspose2d(in_channels=64, out_channels=3, kernel_size=3, stride=1, padding=1) def forward(self, x): x = self.deconv1(x) return x ``` 整个编解码流程能够有效地捕捉到输入图片内部复杂的几何关系,并用于后续的任务分析。 ### 应用场景实例 #### 图像分割 在医学影像诊断方面,由于 CNN 可以捕获医疗图像中存在的复杂空间依赖性,因此非常适合执行区分性的分类任务[^2]。对于特定器官或病变区域的精确定位而言,基于 U-net 架构编码器-解码器模型表现尤为出色。 #### 超分辨率重建 当面对低质量或者模糊不清的照片时,利用此框架可以从少量细节中推测出更精细的内容,从而达到提升画质的效果。 #### 风格迁移 借助预训练好的艺术风格滤镜作为先验知识指导新作品创作的过程也离不开此类技术的支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值