K-means 聚类及其改进_clara(clustering large applications)-CSDN博客

本文链接：https://blog.csdn.net/qq_65799630/article/details/141528232

K-means 聚类及其改进

K-means 是一种常用的聚类算法，算法简单易懂，在簇为凸形状时有较好的聚类效果。本文介绍了 K-means 算法的算法实现及优缺点，并介绍了 K-means 系列算法中常见的改进：K-modes，K-prototypes，K-medoids（PAM），CLARA，CLARANS.

更多算法请见这里：2024 数学建模国赛 C 题攻略（无废话版）

K-means

K-means 是一种常用的聚类算法，它将数据点分为 K 个不同的簇，使得同一簇内的数据点彼此相似度较高，而不同簇之间的数据点相似度较低。K-means 算法的基本思想是通过迭代优化质心位置，将数据点划分到与其最近的质心所属的簇中。

伪代码

Input: 数据集 D, 质心个数 K

# 初始化步骤
1. 从数据集 D 中随机选择 K 个数据点作为初始质心 C
2. 设置迭代次数 t = 0
3. 设置停止条件或最大迭代次数 T_max

# 迭代更新步骤
while t < T_max:
    # 步骤 1: 分配数据点到最近的质心所属的簇
    for each data point x in D:
        计算 x 到每个质心 c_i 的距离 dist_i
        将 x 分配到距离最近的质心所属的簇 cluster_i
    
    # 步骤 2: 更新质心位置
    for each cluster_i:
        计算该簇中所有数据点的均值 mean_i
        将 mean_i 更新为新的质心位置
    
    # 步骤 3: 检查停止条件
    如果质心位置的变化小于阈值，或者达到最大迭代次数，则停止迭代
    否则增加迭代次数 t = t + 1

Output: 最终的簇划分和质心位置