Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting论文笔记

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

AAAI2021 Best paper

Informer 的主要工作是使用 Transfomer 实现长序列预测(Long Sequence Time-Series Forecasting),以下称为 LSTF。针对 Transfomer 在长序列预测中的不足(平方时间复杂度、高内存占用和现有编解码结构的局限性),提出 ProbSparse 注意力机制、自注意力蒸馏技术和生成式解码器等模块解决或缓解上述问题。

Motivation

  1. LSTF任务具有重要的研究意义,对政策计划和投资避险等多种需要长时预测的任务至关重要。
  2. 目前现有方法多专注于短期预测,模型缺乏长期预测能力。
  3. Transformer具有较强的捕获长距离依赖的能力,但是,在计算时间复杂度、空间复杂度以及如何加强长序列输入和输出的关联上都需要优化。即传统Transformer解决LSTF有以下三点不足:
    1. Self-attention的平方级的计算时间复杂度。
    2. Transformer通常需要堆叠多层网络,导致内存占用瓶颈。
    3. step-by-step解码预测,使得推理速度慢。

Contribution

  1. 提出ProbSparse Self-attention,能够筛选出所有最重要的一部分query,能够大大的减少计算的时间复杂度和空间复杂度。
  2. 提出了一个Self-attention Distilling操作,通过卷积和池化操作减少维度和网络参数量。
  3. 提出Generative Style Decoder,只需一步即可得到所有预测结果。

Preliminary

  1. 输入输出形式化表示

    输入: X t = { x 1 t , ⋯   , x L x t ∣ x i t ∈ R d x } \mathcal{X^t}=\left\{x_1^t,\cdots,x_{L_x}^t|x_i^t\in \mathbb{R}^{d_x}\right\} Xt={ x1t,,xLxtxitRdx}

    输出: Y t = { y i t , ⋯   , y L y t ∣ y i t ∈ R d y } \mathcal{Y^t}=\left\{y_i^t,\cdots,y_{L_y}^t | y_i^t\in \mathbb{R^{d_y}}\right\} Yt={ yit,,yLytyitRdy}

  2. Encoder-Decoder架构

    将输入 X t \mathcal{X^t} Xt编码为隐藏状态 H t \mathcal{H^t} Ht,然后将 H t \mathcal{H^t} Ht解码为输出表示 Y t \mathcal{Y^t} Yt。通常推理阶段采用step-by-step模式,即动态解码。

  3. 输入表示

    为增强时间序列输入的全局位置上下文和局部时间上下文,给出了统一的输入表示

    X f e e d [ i ] t = α u i t + P E ( L x × ( t − 1 ) + i , ) + ∑ p [ S E ( L x × ( t − 1 ) + i ) ] p \mathcal{X_{feed[i]}^t}=\alpha u_i^t+PE_{(L_x\times (t-1)+i,)}+\sum\limits_p[SE_{(L_x\times(t-1)+i)}]_p Xfeed[i]

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值