Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting论文笔记

最新推荐文章于 2024-10-11 08:10:20 发布

原创

最新推荐文章于 2024-10-11 08:10:20 发布 · 2.2k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

AAAI2021 Best paper

Informer 的主要工作是使用 Transfomer 实现长序列预测（Long Sequence Time-Series Forecasting），以下称为 LSTF。针对 Transfomer 在长序列预测中的不足（平方时间复杂度、高内存占用和现有编解码结构的局限性），提出 ProbSparse 注意力机制、自注意力蒸馏技术和生成式解码器等模块解决或缓解上述问题。

Motivation

LSTF任务具有重要的研究意义，对政策计划和投资避险等多种需要长时预测的任务至关重要。
目前现有方法多专注于短期预测，模型缺乏长期预测能力。
Transformer具有较强的捕获长距离依赖的能力，但是，在计算时间复杂度、空间复杂度以及如何加强长序列输入和输出的关联上都需要优化。即传统Transformer解决LSTF有以下三点不足：
1. Self-attention的平方级的计算时间复杂度。
2. Transformer通常需要堆叠多层网络，导致内存占用瓶颈。
3. step-by-step解码预测，使得推理速度慢。

Contribution

提出ProbSparse Self-attention,能够筛选出所有最重要的一部分query，能够大大的减少计算的时间复杂度和空间复杂度。
提出了一个Self-attention Distilling操作，通过卷积和池化操作减少维度和网络参数量。
提出Generative Style Decoder,只需一步即可得到所有预测结果。

Preliminary

输入输出形式化表示

输入： $\mathcal{X^t}=\left\{x_1^t,\cdots,x_{L_x}^t|x_i^t\in \mathbb{R}^{d_x}\right\}$

输出： $\mathcal{Y^t}=\left\{y_i^t,\cdots,y_{L_y}^t | y_i^t\in \mathbb{R^{d_y}}\right\}$
Encoder-Decoder架构

将输入 $\mathcal{X^t}$ 编码为隐藏状态 $\mathcal{H^t}$ ,然后将 $\mathcal{H^t}$ 解码为输出表示 $\mathcal{Y^t}$ 。通常推理阶段采用step-by-step模式，即动态解码。
输入表示

为增强时间序列输入的全局位置上下文和局部时间上下文，给出了统一的输入表示

$\mathcal{X_{feed[i]}^t}=\alpha u_i^t+PE_{(L_x\times (t-1)+i,)}+\sum\limits_p[SE_{(L_x\times(t-1)+i)}]_p$