探究Sakoe - Chiba带对DTW时间序列距离度量在kNN分类中的影响
1. 时间序列与挖掘方法概述
时间序列是按连续顺序排列的一系列数值数据点,通常各点之间间隔均匀。它广泛存在于人类活动的各个方面,像社会、经济、自然现象的呈现,医学观测,科研和工程实验结果等。时间序列挖掘作为人工智能的一个子领域,运用多种数据挖掘方法来理解生成这些时间序列的现象,具体方法包括分类、聚类、异常检测、预测和索引。
在时间序列挖掘中,选择合适的距离/相似度度量至关重要,因为上述方法都会直接或间接地用到距离度量。这些度量需要精心定义,以反映时间序列基于形状和趋势的本质相似性。目前已有多种距离度量方法,从简单直观的欧几里得距离,到更复杂的动态时间规整(DTW)、最长公共子序列(LCS)、带实罚的编辑距离(ERP)和实序列编辑距离(EDR)。然而,距离度量的质量通常难以评估,因为相似性的概念非常主观且依赖于数据。常见的评估方法是通过基于距离的分类器的分类准确率来评估距离度量的质量。其中,简单的1 - 最近邻(1NN)分类器在处理时间序列数据时,被认为是最准确的分类器之一,其性能常常优于许多更复杂的分类方法,包括邻域大小k > 1的k - 最近邻(kNN)分类器。
2. 背景与相关工作
2.1 欧几里得距离的优缺点
欧几里得距离具有易于实现、计算速度快且符合距离度量的优点,因此长期以来是时间序列中常用的相似度度量方法。但由于它对时间序列点进行线性对齐,所以对时间轴上的扭曲和偏移很敏感。
2.2 弹性相似度度量方法
为解决欧几里得距离的不足,人们提出了多种弹性相似度度量方法,如DTW、LCS及其扩展ERP和E