聚类算法之K-means算法

Microstrong0305

于 2018-03-10 16:54:34 发布

阅读量1.4k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：机器学习机器学习文章标签：机器学习聚类算法 K均值 k-means

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/program_developer/article/details/79509355

本文介绍了K-means聚类算法的原理，包括聚类定义、相似度计算方法如欧式距离和曼哈顿距离，以及K-means的优缺点、对初始质心敏感的问题和K-means++的改进。此外，讨论了K值选择、K-means在处理异常点的局限性及其在大数据集上的效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关注微信公众号【Microstrong】,我写过四年Android代码，了解前端、熟悉后台，现在研究方向是机器学习、深度学习！一起来学习，一起来进步，一起来交流吧！

本文同步更新在我的微信公众号里，地址：https://mp.weixin.qq.com/s?__biz=MzI5NDMzMjY1MA==&mid=2247483987&idx=1&sn=6df96c39e5c1c055a6823c09afea354e&chksm=ec6533d6db12bac05efa7229f4812ae773f80d2970f023506c96fb0bab8e7949df5bb207a7a8&scene=0#rd

目录：

（1）理解相似度度量的各种方法与相互联系（熟悉闵可夫斯基距离，其他作为了解）

（1）掌握K-means聚类的思路和使用条件

（一）聚类的定义

聚类就是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小。聚类是无监督学习。

（二）相似度、距离计算方法总结

相似度跟距离是相反的概念。如果两个样本X_i与X_j,它们的距离比较大，那么它们的相似度是比较小的。总之，我们有了相似度就能度量距离，有了距离就能度量相似度。

（1）闵可夫斯基距离

给定样本X_i = (X_i1;X_i2;X_i3;……X_in)与X_j=(X_j1;X_j2;X_j3;……X_jn)，最常用的是“闵可夫斯基距离”，公式如下：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。