PatchTST 论文解读

最新推荐文章于 2025-06-25 17:19:51 发布

chengmoling

最新推荐文章于 2025-06-25 17:19:51 发布

阅读量3.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：论文阅读时间序列文章标签：人工智能

本文链接：https://blog.csdn.net/chengmoling/article/details/130411993

论文阅读同时被 2 个专栏收录

1 篇文章

订阅专栏

时间序列

1 篇文章

订阅专栏

PatchTST模型引入了两种创新方法，一是使用Patch操作处理输入，允许模型处理更长序列同时减少计算复杂度；二是采用通道独立策略处理多变量时间序列。模型通过监督和自监督学习任务进行训练，其中自监督学习通过masking策略增强模型的学习能力。代码和论文已公开。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文地址：https://arxiv.org/pdf/2211.14730.pdf

代码地址：https://github.com/yuqinie98/patchtt

创新点

PatchTST模型有两方便的创新：1）Patch 操作，将输入分成一定数量的patch，然后一个patch类似于之前一个时间点数据输入到模型中，这么做的原因在于让模型能看到更长的的数据，同时也减少了attention的计算； 2）采用channel-independent 的方。多变量的时间序列预测也就对应着多个通道，所谓的通道独立指的是将多个变量的数据拆解成多个单独序列，然后送入到模型中，作者认为，变量之间的相互关系是通过模型的参数共享实现的

模型结构

数据到模型

数据进入到模型的时候，会拆分成多个独立的序列分别送入到模型中，最后拼接得到最终的输出结果

训练任务

论文中提供两类型的任务：一类为监督学习；另一类为自监督学习。以下分别做简单的介绍

监督学习

在监督学习的任务中，目标是预测下个时间步的value。以下为模型的架构图，从图中可以看到，PatchTST模型采用的Transformer的encoder部分对时间序列建模。从图中也可以看到，在数据输入的时候采用Patch操作以便能够建模更长的时间序列。

自监督学习

自监督学习的模型架构图如下，其模仿的时bert mlm 任务，随机mask掉一部分patch, 尝试让模型能够重构出被mask掉的部分，作者认为，单个时间步的mask 任务相对简单，原因在于可以通过该时间点的上下时间点位置能够推断出当前被mask掉的部分，如果被mask 掉的时patch 则模型需要恢复的内容比较多，任务难度加大有助于模型不断去学习更好的知识，模型的建模能力更强。