Kmeans++ 实现_kmeans++实现-CSDN博客

本文链接：https://blog.csdn.net/eric4784510/article/details/102955645

废话不多说，只说重点。

选择初始seeds的基本思想是：初始的聚类中心之间的相互距离要尽可能的远。

1 从输入的数据点集合中随机选择一个点作为第一个聚类中心；

2 对于数据集中的每一个点x，计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)；

3 选择D(x)最大的数据点作为新的聚类中心，可以使初始聚类中心尽可能分散

4 重复2和3直到k个聚类中心被选出来。

利用这k个初始的聚类中心来运行标准的k - means算法。

c++实现

Mat calculateKmeans(Mat dataM) {
	//  dataM每行一个数据，128维    cv::Mat
	
	vector<vector<float>> centers; //中心

	int img_num = img_path_list.size(),data_count= dataM.rows;
	int first = rand() % (data_count);

	addCenter(centers, (float*)dataM.row(first).data);


	float* minDist = (float*)malloc(sizeof(float) * data_count);//存储每个点当前到中心的最小值，中心点为0
	fill(minDist, minDist + data_count, 1e30);
	
	for (int k = 0; k < WORDS_NUM - 1; k++) {
		if((k+2)%100==0)
			printf("已生成%d个初始中心点...\n", k+2);
		  
		for (int i = 0; i < data_count; i++) {//遍历每一个特征点，更新到最近中心的距离
			priority_queue<float> tmpDist;
			int j = centers.size()-1; 
			float dis = calEuclideanDis(centers[j], (float*)dataM.row(i).data);//只计算到新加入的中心的距离
			if (minDist[i] > dis)//若更小，则更新
				minDist[i] = dis;
		
		}
		//下一个最远的中心
		int maxDis = 0, maxId = 0;
		for (int i = 0; i < data_count;i++) {//找到距所有中心最远的点作为新的聚类中心
			if (minDist[i] > maxDis) {
				maxDis = minDist[i];
				maxId = i;
			}
		}
		addCenter(centers, (float*)dataM.row(maxId).data);
	}
	
	//已生成WORDS_NUM个初始中心，开始kmeans
	int* centerList = (int*)malloc(sizeof(int) * data_count);//存储每个点所属类别的中心点编号，中心点坐标在centers数组里
	fill(centerList, centerList + data_count, -1);
	
	int count = 1;
	while(1){//当属于每个聚类中心的点有变化时
		printf("\n开始第%d次聚类,更新每点到最近中心的距离...\n",count++);

		long labelChange = 0;
		for (int i = 0; i < data_count; i++) {//遍历每一个特征点
			int minCenterId = 0;
			float minDist = 1e30;
			for (int j = 0; j < centers.size(); j++) {//计算第i号点到j号中心的距离，找到最小矩离
				float t = calEuclideanDis(centers[j], (float*)dataM.row(i).data);
				if (t < minDist) {
					minDist = t;
					minCenterId = j;
				}
			}
			
			if (centerList[i] != minCenterId) {
				labelChange++;
				centerList[i] = minCenterId;
			}

		}
		if (labelChange <50) 
			break;//没有点所属类别发生变化，聚类结束

		printf("本轮共有%ld个点所属类别发生改变，计算每一类的新中心...\n",labelChange);


		vector<int> cluster[WORDS_NUM];//存储每一轮属于每个聚类中心的点
		for (int i = 0; i < data_count; i++) {
			cluster[centerList[i]].push_back(i);
		}

		//计算每一类的新中心
		for (int i = 0; i < centers.size(); i++) {
			vector<float> ave_i;

			for (int k = 0; k < 128; k++) {//遍历128维
				float sumk = 0;
				for (auto it=cluster[i].begin(); it != cluster[i].end(); it++) {//对该类中的每一个点
					int index = *it;

					sumk += *(((float*)dataM.row(index).data) + k);
				}
				ave_i.push_back(sumk / cluster[i].size());

			}

			centers[i] = ave_i;//更新第i类的中心
		}
		printf("新中心点已更新！\n");
	}
	printf("kmeans聚类结束！生成label矩阵...\n", count++);

	Mat labels = Mat::zeros(data_count, 1, CV_32S);; //索引
	//生成label矩阵
	for (int i = 0; i < data_count; i++) {
		*((int*)labels.row(i).data) = centerList[i];
	}

	return labels;

}

//添加新的聚类中心
void addCenter(vector<vector<float>> &centers,float * p,int n=128) {
	vector<float> c;
	for (int i = 0; i < n; i++) {
		c.push_back(p[i]);
	}
	centers.push_back(c);
}


//计算两n维向量的欧氏距离
float calEuclideanDis(vector<float>& v1, float* v2, int n = 128) {
	float total = 0.0;
	for (int i = 0; i < n&&i<v1.size(); i++) {
		total += pow(v1[i] - v2[i], 2);
	}
	return total;
}