1.定义:基尼指数(基尼不纯度):表示在样本集合中一个随机选中的样本被分错的概率。
注意: Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。
def gini_index_single(a,b):
single_gini = 1 - ((a/(a+b))**2) - ((b/(a+b))**2)
return round(single_gini,4)
# 求取基尼指数
def gini_index(a,b,c,d,e,f):
zuo = gini_index_single(a,b)
zhong = gini_index_single(c,d)
you = gini_index_single(e,f)
sum = a+b+c+d+e+f
gini_index = zuo*((a+b)/sum) + zhong*((c+d)/sum) + you*((e+f)/sum)
return round(gini_index,4