Python-NMI和ARI计算通过sklearn计算

静静喜欢大白

已于 2022-03-31 18:24:53 修改

阅读量2.8k

点赞数

CC 4.0 BY-SA版权

分类专栏： pyg 文章标签： python sklearn 聚类

于 2021-03-22 12:01:46 首次发布

本文链接：https://blog.csdn.net/lj2048/article/details/115070516

这篇博客介绍了Python中使用sklearn库计算聚类效果的ARI（兰德系数）和NMI（调整互信息评分）。内容涵盖聚类的基本概念，无监督学习评价指标，以及如何使用这些指标评估模型。示例代码展示了如何在实际聚类算法如K均值、DBSCAN等中应用这些评估方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

0、基础

聚类属于无监督学习方法，因此学习一下无监督聚类的评价指标！！！

官方手册学习

设定已知先验知识的标签为labels_true，利用聚类算法预测的样本标签为label_pred（这个值需要使用sklearn的kemeans方法对相应的数据：数据X和聚类个数进行处理获得才可以直接传进去使用），互信息是衡量两种预测的一致性，忽略排列的顺序。互信息评估有两种方法，标准化的互信息Normalized Mutual Information(NMI) 和调整后的互信息Adjusted Mutual Information(AMI)。

ARI（兰德系数）

NMI（调整互信息评分）

2、使用

官方手册学习

也就是传一个数据真实标签，直接获取。还需要传一个预测类别：这个值需要使用sklearn的kemeans方法对相应的数据：数据X和聚类个数进行处理获得才可以直接传进去使用

'''
# ARI
metrics.adjusted_mutual_info_score(labels_true, labels_pred)
# NMI
metrics.normalized_mutual_info_score(labels_true, labels_pred)
'''

我的代码使用

from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score, normalized_mutual_info_score, adjusted_rand_score
from sklearn.cluster import KMeans

def kmeans_test(X, y, n_clusters, repeat=10):
    nmi_list = []
    ari_list = []
    for _ in range(repeat):
        kmeans = KMeans(n_clusters=n_clusters)
        y_pred = kmeans.fit_predict(X)
        nmi_score = normalized_mutual_info_score(y, y_pred, average_method='arithmetic')
        ari_score = adjusted_rand_score(y, y_pred)
        nmi_list.append(nmi_score)
        ari_list.append(ari_score)
    return np.mean(nmi_list), np.std(nmi_list), np.mean(ari_list), np.std(ari_list)

3、举例

示例代码：

from sklearn import metrics
labels_true = [0, 0, 0, 1, 1, 1]
labels_pred = [0, 0, 1, 1, 2, 2]

metrics.adjusted_mutual_info_score(labels_true, labels_pred)  
0.22504...

互信息评分中adjusted_mutual_info_score和normalized_mutual_info_score函数其参数都是对称的，交换的参数位置不会改变评分值，示例代码：

>>> metrics.adjusted_mutual_info_score(labels_pred, labels_true)  
0.22504...

利用此函数评估模型最好的值为1，示例代码：

labels_pred = labels_true[:]
metrics.adjusted_mutual_info_score(labels_true, labels_pred)
1.0

metrics.normalized_mutual_info_score(labels_true, labels_pred)
1.0

评估模型最差的值（与labels_true不相关），其结果为非正值，示例代码：

>>> labels_true = [0, 1, 2, 0, 3, 4, 5, 1]
>>> labels_pred = [1, 1, 0, 0, 2, 2, 2, 2]
>>> metrics.adjusted_mutual_info_score(labels_true, labels_pred)  
-0.10526...