废话不多说,只说重点。
选择初始seeds的基本思想是:初始的聚类中心之间的相互距离要尽可能的远。
1 从输入的数据点集合中随机选择一个点作为第一个聚类中心;
2 对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x);
3 选择D(x)最大的数据点作为新的聚类中心,可以使初始聚类中心尽可能分散
4 重复2和3直到k个聚类中心被选出来。
利用这k个初始的聚类中心来运行标准的k - means算法。
c++实现
Mat calculateKmeans(Mat dataM) {
// dataM每行一个数据,128维 cv::Mat
vector<vector<float>> centers; //中心
int img_num = img_path_list.size(),data_count= dataM.rows;
int first = rand() % (data_count);
addCenter(centers, (float*)dataM.row(first).data);
float* minDist = (float*)malloc(sizeof(float) * data_count);//存储每个点当前到中心的最小值,中心点为0
fill(minDist, minDist + data_count, 1e30);
for (int k = 0; k < WORDS_NUM - 1; k++) {
if((k+2)%100==0)
printf("已生成%d个初始中心点...\n", k+2);
for (int i = 0; i < data_count; i++) {//遍历每一个特征点,更新到最近中心的距离
priority_queue<float> tmpDist;
int j = centers.size()-1;
float dis = calEuclideanDis(centers[j], (float*)dataM.row(i).data);//只计算到新加入的中心的距离
if (minDist[i] > dis)//若更小,则更新
minDist[i] = dis;
}
//下一个最远的中心
int maxDis = 0, maxId = 0;
for (int i = 0; i < data_count;i++) {//找到距所有中心最远的点作为新的聚类中心
if (minDist[i] > maxDis) {
maxDis = minDist[i];
maxId = i;
}
}
addCenter(centers, (float*)dataM.row(maxId).data);
}
//已生成WORDS_NUM个初始中心,开始kmeans
int* centerList = (int*)malloc(sizeof(int) * data_count);//存储每个点所属类别的中心点编号,中心点坐标在centers数组里
fill(centerList, centerList + data_count, -1);
int count = 1;
while(1){//当属于每个聚类中心的点有变化时
printf("\n开始第%d次聚类,更新每点到最近中心的距离...\n",count++);
long labelChange = 0;
for (int i = 0; i < data_count; i++) {//遍历每一个特征点
int minCenterId = 0;
float minDist = 1e30;
for (int j = 0; j < centers.size(); j++) {//计算第i号点到j号中心的距离,找到最小矩离
float t = calEuclideanDis(centers[j], (float*)dataM.row(i).data);
if (t < minDist) {
minDist = t;
minCenterId = j;
}
}
if (centerList[i] != minCenterId) {
labelChange++;
centerList[i] = minCenterId;
}
}
if (labelChange <50)
break;//没有点所属类别发生变化,聚类结束
printf("本轮共有%ld个点所属类别发生改变,计算每一类的新中心...\n",labelChange);
vector<int> cluster[WORDS_NUM];//存储每一轮属于每个聚类中心的点
for (int i = 0; i < data_count; i++) {
cluster[centerList[i]].push_back(i);
}
//计算每一类的新中心
for (int i = 0; i < centers.size(); i++) {
vector<float> ave_i;
for (int k = 0; k < 128; k++) {//遍历128维
float sumk = 0;
for (auto it=cluster[i].begin(); it != cluster[i].end(); it++) {//对该类中的每一个点
int index = *it;
sumk += *(((float*)dataM.row(index).data) + k);
}
ave_i.push_back(sumk / cluster[i].size());
}
centers[i] = ave_i;//更新第i类的中心
}
printf("新中心点已更新!\n");
}
printf("kmeans聚类结束!生成label矩阵...\n", count++);
Mat labels = Mat::zeros(data_count, 1, CV_32S);; //索引
//生成label矩阵
for (int i = 0; i < data_count; i++) {
*((int*)labels.row(i).data) = centerList[i];
}
return labels;
}
//添加新的聚类中心
void addCenter(vector<vector<float>> ¢ers,float * p,int n=128) {
vector<float> c;
for (int i = 0; i < n; i++) {
c.push_back(p[i]);
}
centers.push_back(c);
}
//计算两n维向量的欧氏距离
float calEuclideanDis(vector<float>& v1, float* v2, int n = 128) {
float total = 0.0;
for (int i = 0; i < n&&i<v1.size(); i++) {
total += pow(v1[i] - v2[i], 2);
}
return total;
}