时间序列数据挖掘中的距离度量与因果关系发现算法
立即解锁
发布时间: 2025-08-22 02:26:51 阅读量: 29 订阅数: 41 AIGC 

### 时间序列数据挖掘中的距离度量与因果关系发现算法
#### 1. 时间序列数据挖掘中的距离度量
在时间序列数据挖掘中,距离度量是一个关键的概念。有一种替代的距离度量方法——dL,它基于似然比来检验时间序列是否来自同一过程的原假设。
##### 1.1 ECG数据聚类实验
在对ECG数据进行的三个不同实验中,使用k - means和PAM算法,对比了保留不同系数时的聚类准确率。具体数据如下表所示:
| 保留系数 | 三个聚类(dE/dL) | 两个聚类(N和V,dE/dL) | 两个聚类(N和S,dE/dL) |
| ---- | ---- | ---- | ---- |
| 256 | 39%/44% | 53%/61% | 58%/69% |
| | | 69%/69% | 60%/60% |
| | | | 68%/88% |
| 128 | 39%/44% | 47%/64% | 60%/69% |
| | | 71%/69% | 58%/60% |
| | | | 65%/88% |
| 64 | 46%/49% | 49%/63% | 63%/58% |
| | | 71%/71% | 58%/60% |
| | | | 53%/63% |
| 32 | 46%/41% | 43%/44% | 65%/54% |
| | | 64%/71% | 55%/63% |
| | | | 63%/65% |
从这些数据中可以看出,不同的保留系数和距离度量方法(dE和dL)对聚类准确率有不同的影响。
##### 1.2 dL度量的优势
在平均距离和正确分类数量方面,dL表现出明显的优势。例如,平均内部距离方面,dL的平均内部距离低于dE,且正确分类数量C(dL = 850)也高于dE(C = 507)。在使用1 - 最近邻分类器对前16个系数进行准确性测量时,dL的分类准确率也优于dE。
#### 2. TIMERS II算法:因果关系发现
TIMERS II算法用于对决策属性和多个条件属性之间的关系进行分类,分为瞬时、因果和非因果三种类型。
##### 2.1 关系类型定义
- **瞬时规则**:正常的决策规则,例如:if {(Outlookt = sunny) AND (Temperaturet > 20)} then (Playt = yes),其中t表示观察属性值的时间步。
- **因果规则**:决策属性的值由条件属性因果决定,条件属性的值都出现在决策属性的过去时间。例如:If {(outlookt - 1 = sunny) then (outlookt = sunny)。
- **非因果规则**:在预测时间t的决策属性时,使用了时间步大于t的值。例如:if {(outlookt - 1 = overcast) AND (outlookt + 1 = rainy) then (outlookt = rainy)。
##### 2.2 TIMERS II算法流程
```python
TIMERS II(D, α , β, Acth, d, cl, preference) {
aci = RuleGenerator(D, d); # 瞬时准确性; 窗口大小 = 1
for (win = α to β)
for (pos = 1 to win)
(acw,pos , ruleSizew,pos) = RuleGenerator(Temporalise(win, pos, D, d), d)
acc = max(acα,α, …, acβ,β) # 最佳因果结果
aca = max(acα,pos1, …, acβ,pos2), ∀ acx,pos, 1 ≤ pos < x # 最佳非因果结果
if (max(aci, acc, aca) < acth) then stop. # 可能没有足够的相关信息?
Verdict = "for attribute " + d + ", "
Relation = RelationType(cl, (aci, ruleSizei), (aca, ruleSizea), (acc, ruleSizec), preference)
Case relation of
INSTANTANEOUS: verdict += "the relation is instantaneous"
ACAUSAL: verdict += "the relation is acausal" # 存在来自未来的元素
CAUSAL: verdict += "the relation is causal" # 所有条件属性都来自过去
end case
return verdict.
}
```
该算法的输入包括顺序排列的数据记录D、最小和最大时间窗口大小α和β、最小准确性阈值acth、决策属性d和置信水平cl等。输出是一组准确性值和关于决策属性与条件属性之间关系性质的判断。
##### 2.3 选择最佳关系类型
为了选择最佳的关系类型,使用了`RelationType`函数,其流程如下:
```python
Function RelationType(cl, (aci, ruleSizei), (aca, ruleSizea), (acc, ruleSizec), p) {
# 初始化info[]结构
forEach (method = INSTANTANEOUS, ACAUSAL, CAUSAL)
info[method] = (method , accuracymethod, ruleSizemethod, Intervalmethod =
```
0
0
复制全文
相关推荐





