阅读论文《Train RNN as fast as CNN》

Fly_TheWind

于 2018-05-05 21:52:39 发布

阅读量912

点赞数

CC 4.0 BY-SA版权

分类专栏： NLP 文章标签： NLP cuDNN-LSTM RNN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Fly_TheWind/article/details/80209999

Train RNN as fast as CNN

@(NLP)[cuDNN-LSTM, SRU]

ABSTRACT

作者提出了一个简单循环单元的架构（SRU），能够轻易的实现并行化。SRU像CNN一样快，比优化后的LSTM实现快5到10倍。

In SRU, the majority of computation for each step is independent of the recurrence and can be easily parallelized. SRU is as fast as a convolutional layer and 5-10x faster than an optimized LSTM implementation.

Architecture

这里写图片描述

左边是通用的RNN结构，右边是SRU

在传统的结构中，每次输入step $x_t$ , $t = 1, … ,n$ 依赖于前一步。这阻碍了并行化。
SRU的设计，使得处理输入的过程能与其他输入独立（大灰块），用相对轻量级的计算做递归组合（小灰块）。主要的计算（虚线框内）能被轻易的并行化。

Average processing time

这里写图片描述

使用cuDNN LSTM和字级别的2D卷积，提出的SRU在32个样本每一批的平均处理时间（毫秒）
- D：特征维数
- K：特征宽度
- $l$ ：每一个序列的令牌数

METHOD

Formula

SRU的基础形式包含一个遗忘门，给出一个在t时间给出 $x_t$ 输入，我们可以计算一个装换 $\widetilde{x}_t$ 和一个遗忘门 $f_t$

x ˜ t = W x t

$\widetilde{x}_t = Wx_t$

f t = σ (W f x t + b f)

$f_t = \sigma(W_fx_t+b_f)$
计算只依赖

xt x t $x_t$ ，使得能让所有的时间步并行化，遗忘门能调制用来产生输出的状态的

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。