m0_71247265-CSDN博客

原创 NLP—基于编码器—解码器和注意力机制的机器翻译

如果编码器和解码器的隐藏单元个数不同或层数不同，我们该如何改进解码器的隐藏状态初始化方法？有三种方法：1.线性映射初始化：使用线性映射将编码器的最终隐藏状态映射到解码器的隐藏状态空间。这可以通过一个线性层或全连接层来实现，将编码器的最终隐藏状态转换为解码器隐藏状态的维度。2.复制和填充：如果编码器和解码器的隐藏单元个数不同但层数相同，可以使用填充方法将编码器隐藏状态的最后一层复制到解码器的隐藏状态初始化。3.零填充：如果编码器的隐藏单元个数多于解码器，可以使用零填充来初始化解码器的隐藏状态。

2024-06-28 14:44:56 1419

原创 NLP——基于Transformer& PyTorch实现机器翻译（日译中）

Transformer模型是一种基于注意力机制（attention mechanism）的深度学习模型，专门用于处理序列到序列的任务，例如机器翻译、文本生成等。Transformer 是第一个完全依赖自注意力（self-attention）来计算输入和输出的表示，而不使用序列对齐的递归神经网络或卷积神经网络的转换模型，取代了传统的循环神经网络（RNN）和长短期记忆网络（LSTM）在处理长距离依赖和并行计算能力上的限制，由于其并行计算的特性，Transformer在训练时能够更高效地处理大规模数据。

2024-06-28 10:20:27 1475

原创 NLP——使用前馈神经网络进行姓氏分类

最简单的MLP由三层组成（如图3.1所示），分别为1.输入向量，负责接收输入特征；2.隐藏向量，位于输入层和输出层之间的中间层。每个隐藏层包含多个神经元（节点），隐藏层的输入即为输入层的输出，值是组成该层的不同感知器的输出；3.输出向量，产生最终输出，在分类任务中，每个神经元代表一个类别标签。图3.1 最简单的MLP结构在MLP中，每个神经元类似于感知器，计算其输入的加权和，并应用激活函数以产生输出。一个层中神经元的输出作为下一层神经元的输入，通过网络传播信息。

2024-06-26 20:34:30 1867 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人