机器学习中的聚类艺术:探索数据的隐秘之美

一 什么是聚类

聚类是一种经典的无监督学习方法,无监督学习的目标是通过对无标记训练样本的学习,发掘和揭示数据集本身潜在的结构与规律,即不依赖于训练数据集的类标记信息。聚类则是试图将数据集的样本划分为若干个互不相交的类簇,从而每个簇对应一个潜在的类别。

聚类直观上来说是将相似的样本聚在一起,从而形成一个类簇(cluster)。那首先的问题是如何来度量相似性(similarity measure)呢?这便是距离度量,在生活中我们说差别小则相似,对应到多维样本,每个样本可以对应于高维空间中的一个数据点,若它们的距离相近,我们便可以称它们相似。那接着如何来评价聚类结果的好坏呢?这便是性能度量,性能度量为评价聚类结果的好坏提供了一系列有效性指标。

二 距离度量

谈及距离度量,最熟悉的莫过于欧式距离了,从年头一直用到年尾的距离计算公式:即对应属性之间相减的平方和再开根号。度量距离还有其它的很多经典方法,通常它们需要满足一些基本性质:

这里列举几种常见的距离度量方式。

2.1 闵可夫斯基距离

最常用的距离度量方法是**“闵可夫斯基距离”(Minkowski distance)**:

当p=1时,闵可夫斯基距离即曼哈顿距离(Manhattan distance)

当p=2时,闵可夫斯基距离即欧氏距离(Euclidean distance)

2.2 余弦距离

余弦距离以两向量夹角余弦值来反映相似度,取值在[0,1][0,1][0,1]之间,值越大,相似度越大。

dist(X,Y)=cos⁡(X,Y)=∑i=1dxiyi∑i=1d(xi)2∑i=1d(yi)2dist(X,Y) = \cos (X,Y) = \frac{ {\sum\nolimits_{i = 1}^d { {x_i}{y_i}} }}{ {\sqrt {\sum\nolimits_{i = 1}^d { { {({x_i})}^2}} } \sqrt {\sum\nolimits_{i = 1}^d { { {({y_i})}^2}} } }}dist(X,Y)=cos(X,Y)=i

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据AI

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值