Gated Feedback Recurrent Neural Network
2015, ICML. [paper]
提出了一种新的循环神经网络的架构gated-feedback RNN (GF-RNN),设计了一种全局门控单元(global gating unit)控制信息如何从上层网络传递到底层网络。
作者认为GF-RNN表现好的主要原因在于,它可以自适应地使得不同的RNN层建模不同时间尺度的信息,并且允许层间的信息交互,尤其是在现有方法中比较少见的从上层网络到底层网络的信息传递。
Introduction
时间序列通常包含变化快和变化相对较慢的成分,并且这些内部隐含的不确定的成分通常都是以层次结构的形式出现。
建模这种层次结构最简单的做法就是叠加多层网络[1,2]。而CW-RNN[3]的做法是将隐藏状态的神经元分成多个组,每组按照不同的更新频率进行更新,建模时间序列中包含的不同时间尺度的信息,并且允许不同时间尺度信息之间进行交互。
本文提出的GF-RNN主要想解决的问题是,如何自适应地建模多种时间尺度的信息。
Gated Feedback Recurrent Neural Network
GF-RNN与传统RNN最大的不同就在于,GF-RNN不仅允许信息从上一个时间步的低层隐藏层流入到当前时间步的高层隐藏层中,还允许信息从上一个时间步的高层隐藏层流入到当前时间步的低层隐藏层中,如图(b)。前者是传统的多层RNN中的信息传递方式,如图(a),而后者则是传统多层RNN中没有的。
Global Reset Gate
GF-RNN除了允许信息从上层隐藏层流入下层隐藏层外,还提出了全局重置门(global reset gate) 控制信息如何从上层网络传递到底层网络。
g i → j = σ ( w g i → j h t j − 1 + u g i → j h t − 1 ∗ ) g^{i\to j}=\sigma(\mathrm w^{i\to j}_g\mathrm h^{j-1}_t+\mathrm u^{i\to j}_g\mathrm h^*_{t-1}) gi→j=σ(wgi→jhtj−1+ugi→