模糊聚类是机器学习中的一种聚类算法,它允许一个数据点以不同的隶属度属于多个聚类。与传统聚类(如K均值聚类)不同,在传统聚类中每个数据点只属于一个聚类。
想象一下,你在一个聚会上,客人们根据共同的兴趣随意形成小组,比如音乐爱好者、美食爱好者和体育迷。有些人显然只适合一个小组,比如只谈论音乐的吉他手。但其他人可能属于多个小组,比如一个既喜欢音乐又喜欢美食的人,可以部分地同时属于这两个小组,而不是被迫只归入一个小组。
模糊聚类流程
模糊聚类遵循一个迭代优化过程,在这个过程中,数据点被分配隶属度值,而不是硬聚类标签。以下是它的工作原理的逐步分解:
步骤1:随机初始化隶属度值
每个数据点都被赋予了所有聚类的隶属度。这些值表示该数据点属于每个聚类的概率。与硬聚类中一个点严格属于一个聚类不同,模糊聚类允许部分隶属。
假设要将数据划分为2个聚类,随机初始化数据点。每个数据点以一定的隶属度同时属于两个聚类,在初始状态下这个隶属度可以假设为任意值。 下表表示数据点的值及其在每个聚类中的隶属度(γ)。