机器学习中的聚类艺术：探索数据的隐秘之美

大数据AI

于 2024-09-07 10:20:11 发布

阅读量1.2k

点赞数 13

CC 4.0 BY-SA版权

分类专栏： Machine Learning 文章标签：机器学习聚类人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011026329/article/details/141991407

一什么是聚类

聚类是一种经典的无监督学习方法，无监督学习的目标是通过对无标记训练样本的学习，发掘和揭示数据集本身潜在的结构与规律，即不依赖于训练数据集的类标记信息。聚类则是试图将数据集的样本划分为若干个互不相交的类簇，从而每个簇对应一个潜在的类别。

聚类直观上来说是将相似的样本聚在一起，从而形成一个类簇（cluster）。那首先的问题是如何来度量相似性（similarity measure）呢？这便是距离度量，在生活中我们说差别小则相似，对应到多维样本，每个样本可以对应于高维空间中的一个数据点，若它们的距离相近，我们便可以称它们相似。那接着如何来评价聚类结果的好坏呢？这便是性能度量，性能度量为评价聚类结果的好坏提供了一系列有效性指标。

二距离度量

谈及距离度量，最熟悉的莫过于欧式距离了，从年头一直用到年尾的距离计算公式：即对应属性之间相减的平方和再开根号。度量距离还有其它的很多经典方法，通常它们需要满足一些基本性质：

这里列举几种常见的距离度量方式。

2.1 闵可夫斯基距离

最常用的距离度量方法是**“闵可夫斯基距离”（Minkowski distance)**：

当p=1时，闵可夫斯基距离即曼哈顿距离（Manhattan distance）：

当p=2时，闵可夫斯基距离即欧氏距离（Euclidean distance）：

2.2 余弦距离

余弦距离以两向量夹角余弦值来反映相似度，取值在 $[0, 1]$ 之间，值越大，相似度越大。

$\cos (X,Y) = \frac{ {\sum\nolimits_{i = 1}^d { {x_i}{y_i}} }}{ {\sqrt {\sum\nolimits_{i = 1}^d { { {({x_i})}^2}} } \sqrt {\sum\nolimits_{i = 1}^d { { {({y_i})}^2}} } }}$

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄12年

328
原创

2118
点赞

2257
收藏

1758
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: Spark2.x 入门：决策树分类器

下一篇：: Spark2.x 入门： KMeans 聚类算法

最新评论

Spark2.x 入门：协同过滤算法
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
Spark 集群进行 ETL 的架构介绍
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。
【机器学习实战】用sklearn玩转随机森林，分类准确率提升秘籍！
Qiuner: 博客的每一个细节都处理得非常到位，这让我感受到了作者的用心和专注。也欢迎您来逛逛我的博客哦~~在此提前感谢您对我的互/三/支持~~
【机器学习实战】用sklearn玩转随机森林，分类准确率提升秘籍！
鸽鸽程序猿: 这篇文章实在是太棒了！内容丰富，论述清晰，代码实例更是琳琅满目，让人阅读起来津津有味。博主的专业素养和用心程度从中可见一斑，无疑为读者提供了一笔宝贵的知识财富。文章从基础概念出发，由浅入深地阐述了编程的核心思想。在阅读过程中，我感受到了博主对编程的热爱和敬业精神，他/她用通俗易懂的语言，将复杂的编程知识讲解得淋漓尽致。这使得读者在阅读过程中既能够掌握知识，又能够保持兴趣。也欢迎您来逛逛我的博客哦~~在此提前感谢您对我的互/三/支持~~
【机器学习实战】用sklearn玩转随机森林，分类准确率提升秘籍！
忆愿: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文也欢迎您来逛逛我的博客哦

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据AI 你的鼓励将是我创作的最大动力！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。