K-means作为面试过程中常考的算法,一定要对下面问题十分熟悉
-
K-means算法过程
Step1:从数据集D中随机选择k个样本作为初始的k个质心向量
Step2:计算数据集中样本Xi分别到k个质心的欧几里得距离d1, d2……dk. 于是我们得到与Xi距离最小的质心并且把Xi划分到和这个质心同一cluster中。
Step3:对数据集中所有样本进行Step2操作
Step4:重新计算k个簇里面的向量均值(就是把k个质心在新的簇下刷新一遍),然后重复Step2- Step4。直到所有的k个质心向量都没有发生变化。 -
K-means算法中初始点的选择对最终结果有影响吗?
合理的确定K个初始类簇中心点对于聚类效果的好坏有很大的影响,不然会导致长时间无法收敛并且得到的是局部最优。 -
K-means聚类中每个类别中心的初始点如何选择?
1)随机法
最简单的确定初始类簇中心点的方法是随机选择K个点作为初始的类簇中心点。
2)选择各批次距离尽可能远的k个点,首先随机选择一个点作为第一个初始类簇中心点,然后选择距离该点最远的那个点作为第二个初始类簇中心点,然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心点,以此类推,直到选出k个初始类簇中心。
3)层次聚类或者Canopy预处理,选择中心点。选用层次聚类或者Canopy算法进行初始聚类,然后利用这些类簇的中心点作为Kmeans算法初始类簇中心点。 -
K-means中的k如何选择
比较类内距离、类间距离以确定K。这个也是最常用的办法,如使用平均轮廓系数,越趋近1聚类效果越好;如计算类内距离/类间距离,值越小越好ÿ