层次聚类算法详解：构建嵌套层次结构与时间复杂度

PDF文件

4星 · 超过85%的资源 | 下载需积分: 14 | 585KB | 更新于2024-09-16 | 201 浏览量 | 举报 1 收藏

立即下载

层次聚类算法是一种在数据挖掘和机器学习中广泛应用的无监督聚类方法，其核心思想是构建一个层次结构，即层次树，来表示数据对象之间的相似性和关系。与顺序聚类不同，层次聚类不形成单一的簇，而是生成一个由越来越大的子集组成的树形结构，每个节点代表一个聚类，子节点包含在父节点中，形成嵌套关系。层次聚类主要分为两种实现方式：合并（Agglomerative）和分裂（Divisive）。合并算法通常更常用，因为它直观易理解，通过不断合并相似度最高的聚类对，形成更大的聚类，直至所有数据点都属于同一个簇。初始时，每个对象作为一个单独的簇，然后每次迭代中，算法会选择两个最相似的簇进行合并，形成一个新的簇，并更新层次结构。合并算法的关键在于计算相似度函数g(Ci, Cj)，这个函数衡量两个聚类Ci和Cj之间的相似度或凝聚度。通用的合并算法通常按照以下步骤进行： 1. 初始化：将所有对象分为单元素聚类（如{x1},…,{xN}），设t=0。 2. 重复直到所有数据点合并成一个大簇： a. t递增1。 b. 在当前层次t-1中找到两个最相似的聚类Ci和Cj。 c. 合并这两个聚类形成Cq，将结果添加到新的层次Ât中，同时移除Ci和Cj。这个过程中的一个重要特点是“惰性”，一旦两个点合并，它们就会保持在一起，除非后续操作将其拆分开。然而，这也带来了一个缺点，即如果在算法初期就存在聚类错误，这些错误会随着层次的增加而累积，难以修正。层次聚类的时间复杂度较高，尤其是在大规模数据集上，因为每层都需要考虑所有可能的聚类对，导致总的时间复杂度为O(N^3)，其中N为数据点的数量。例如，对于一组数据点X={x1, x2, x3, x4, x5}，初始时每个点都是独立的，随着迭代，数据点会根据相似度逐渐聚集到一起，直到形成最终的层次结构。在实际应用中，层次聚类常用于数据分析、图像分割、生物信息学等领域，因其能提供层次清晰的聚类视图。

Change Dir

无多

BlogJava 首页新随笔联系聚合管理

11 Posts :: 0 Stories :: 22 Comments :: 0 Trackbacks

聚类算法学习笔记（四）——层次聚类

1. 层次聚类

层次聚类算法与之前所讲的顺序聚类有很大不同，它不再产生单一聚

类，而是产生一个聚类层次。说白了就是一棵层次树。介绍层次聚类之前，要

先介绍一个概念——嵌套聚类。讲的简单点，聚类的嵌套与程序的嵌套一样，

一个聚类中R

包含了另一个R

，那这就是R

嵌套在R

中，或者说是R

嵌套了

。具体说怎么算嵌套呢？聚类R

={{x

},{x

}嵌套在聚类

={{x

},{x

}}中，但并不嵌套在聚类R

={{x

},{x

}}中。

层次聚类算法产生一个嵌套聚类的层次，算法最多包含N步，在第t步，

执行的操作就是在前t-1步的聚类基础上生成新聚类。主要有合并和分裂两种

实现。我这里只讲合并，因为前一阶段正好课题用到，另外就是合并更容易理

解和实现。当然分裂其实就是合并的相反过程。

令g(C

)为所有可能的X聚类对的函数，此函数用于测量两个聚类之间

的近邻性，用t表示当前聚类的层次级别。通用合并算法的伪码描述如下：

1. 初始化：

a) 选择

={{x

},…,{x

}}

b) 令t=0

2. 重复执行以下步骤：

a) t=t+1

b) 在

t-1

中选择一组(C

)，满足

c) 定义C

ÈC

，并且产生新聚类

t-1

-{C

})È{C

}

直到所有向量全被加入到单一聚类中。

这一方法在t层时将两个向量合并，那么这两个向量在以后的聚类过程中

的后继聚类都是相同的，也就是说一旦它们走到一起，那么以后就不会再分

离……（很专一哦O(∩_∩)O~）。这也就引出了这个算法的缺点，当在算法

开始阶段，若出现聚类错误，那么这种错误将一直会被延续，无法修改。在层

次t上，有N-t个聚类，为了确定t+1层上要合并的聚类对，必须考虑(N-t)(N-t-

1)/2个聚类对。这样，聚类过程总共要考虑的聚类对数量就是(N-1)N(N+1)

/6，也就是说整个算法的时间复杂度是O(N

)。

举例来说，如果令X={x

, x

}，其中x

=[1, 1]

, x

=[2,

, x

=[5, 4]

, x

=[6, 5]

, x

=[6.5, 6]

。那么合并算法执行的过程可

以用下面的图来表示。

公告

写下来的都是资源，都是些随笔短

文，分享给互联网~~

常用链接

我的随笔

我的评论

我的参与

层次聚类算法详解：构建嵌套层次结构与时间复杂度

层次聚类分析

聚类分析及层次聚类法.ppt

层次聚类算法和K-means算法

层次聚类算法,模糊C均值 层次聚类算法,matlab

层次聚类算法,模糊C均值 层次聚类算法,matlab源码.zip.zip

基于python聚类算法的实现-包含：最大最小距离算法、近邻聚类算法、层次聚类算法、K-均值聚类算法、ISODATA聚类算法

凝聚层次聚类的matlab代码.zip_层次聚类_层次聚类 MATLAB_层次聚类MATLAB_层次聚类算法_聚类

ahp.rar_层次聚类_层次聚类 MATLAB_层次聚类算法_算法

K均值聚类算法与层次聚类算法的比较与应用

层次聚类算法 和EM聚类算法的详细介绍

最新资源

层次聚类算法,模糊C均值层次聚类算法,matlab

层次聚类算法,模糊C均值层次聚类算法,matlab源码.zip.zip

层次聚类算法和EM聚类算法的详细介绍