【笔记】Encoder-Decoder模型

最新推荐文章于 2025-05-27 22:35:43 发布

原创最新推荐文章于 2025-05-27 22:35:43 发布 · 536 阅读

1 ·

CC 4.0 BY-SA版权

python/机器学习专栏收录该内容

19 篇文章

订阅专栏

本文介绍了一种基于神经网络的编码解码框架，该框架通过编码器将输入转换为上下文向量，并通过解码器预测目标序列。文章详细阐述了编码器与解码器的工作原理及如何使用注意力机制优化解码过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Encoder-Decoder Framework

Encoder-Decoder
参考

Encoder-Decoder

在这里插入图片描述

Encoder

输入: $X=(x_1, x_2, ..., x_{T_x})$
输出: 上下文向量(context vector) $c$
步骤：
$h_t=f(x_t,h_{t-1}) \\ c=q(\{h_1,..., h_{T_x}\}) \tag{1}$
其中， $h_t\in \R^n$ 表示t时刻的隐含状态；c表示由隐含状态序列得到的向量；f, q 是非线性模型

举例：Sutskever et al. Sequence to sequence learning with neural networks(NIPS, 2014)
使用 $h_t=LSTM(x_t,h_{t-1}) , c=h_{T_x}$

Decoder

目的：预测下一个翻译出来的词 $y_{t}$
输入: $c$ ，之前预测出来的词 ${y_1,..., y_{t-1}\}$
步骤：用条件概率表示
$p(\boldsymbol{y})=\prod^T_{t=1}p(y_t|\{y_1,..., y_{t-1}\},c) ,\boldsymbol{y}=(y_1,...,y_{T_y}) \tag{2}$
如果使用RNN族，那么条件概率写为
$p(y_t|\{y_1,..., y_{t-1}\} ,c)=g(y_{t-1},s_t,c)$
其中，g是非线性模型；s为隐藏层; $s_t=f(s_{t-1},y_{t-1},c)$