语音相似度评价是用于测量语音之间的相似程度,常使用的算法是动态时间规整(Dynamic time warping,DTW),其原理是通过对齐时间序列来评估它们之间相似性。DTW是一种基于对齐的度量(alignment-based metric)与常见的欧式距离不同,DTW考虑到了时间维度上的信息,因此常用在信号处理领域,比如说话人识别,语音识别等。
下面举个例子解释为什么要用DTW而不是欧式距离,这里我们有一个时间序列的数据集,包含了一些不同的样式。如果我们要对其进行分类,简单的方法就是使用聚类算法,首先采用欧式距离作为度量,我们可以得到如下的结果:
容易发现在第二类中存在一些格格不入的样式;我们看下采用DTW聚类后的结果:
可以明显的发现,DTW聚类后的结果,每个类别的差别(类间聚类)比较小。