Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting
AAAI2021 Best paper
Informer 的主要工作是使用 Transfomer 实现长序列预测(Long Sequence Time-Series Forecasting),以下称为 LSTF。针对 Transfomer 在长序列预测中的不足(平方时间复杂度、高内存占用和现有编解码结构的局限性),提出 ProbSparse 注意力机制、自注意力蒸馏技术和生成式解码器等模块解决或缓解上述问题。
Motivation
- LSTF任务具有重要的研究意义,对政策计划和投资避险等多种需要长时预测的任务至关重要。
- 目前现有方法多专注于短期预测,模型缺乏长期预测能力。
- Transformer具有较强的捕获长距离依赖的能力,但是,在计算时间复杂度、空间复杂度以及如何加强长序列输入和输出的关联上都需要优化。即传统Transformer解决LSTF有以下三点不足:
- Self-attention的平方级的计算时间复杂度。
- Transformer通常需要堆叠多层网络,导致内存占用瓶颈。
- step-by-step解码预测,使得推理速度慢。
Contribution
- 提出ProbSparse Self-attention,能够筛选出所有最重要的一部分query,能够大大的减少计算的时间复杂度和空间复杂度。
- 提出了一个Self-attention Distilling操作,通过卷积和池化操作减少维度和网络参数量。
- 提出Generative Style Decoder,只需一步即可得到所有预测结果。
Preliminary
-
输入输出形式化表示
输入: X t = { x 1 t , ⋯ , x L x t ∣ x i t ∈ R d x } \mathcal{X^t}=\left\{x_1^t,\cdots,x_{L_x}^t|x_i^t\in \mathbb{R}^{d_x}\right\} Xt={ x1t,⋯,xLxt∣xit∈Rdx}
输出: Y t = { y i t , ⋯ , y L y t ∣ y i t ∈ R d y } \mathcal{Y^t}=\left\{y_i^t,\cdots,y_{L_y}^t | y_i^t\in \mathbb{R^{d_y}}\right\} Yt={ yit,⋯,yLyt∣yit∈Rdy}
-
Encoder-Decoder架构
将输入 X t \mathcal{X^t} Xt编码为隐藏状态 H t \mathcal{H^t} Ht,然后将 H t \mathcal{H^t} Ht解码为输出表示 Y t \mathcal{Y^t} Yt。通常推理阶段采用step-by-step模式,即动态解码。
-
输入表示
为增强时间序列输入的全局位置上下文和局部时间上下文,给出了统一的输入表示
X f e e d [ i ] t = α u i t + P E ( L x × ( t − 1 ) + i , ) + ∑ p [ S E ( L x × ( t − 1 ) + i ) ] p \mathcal{X_{feed[i]}^t}=\alpha u_i^t+PE_{(L_x\times (t-1)+i,)}+\sum\limits_p[SE_{(L_x\times(t-1)+i)}]_p Xfeed[i]