聚类:Python遗传算法

在监督机器学习中，训练数据已被标记，这意味着每个数据实例都有其对应的输出。在无监督机器学习中，数据没有标签。聚类是一个无监督的学习问题，任务是探索数据以找到每个数据实例的最佳标签。

本文讨论了如何使用遗传算法对数据进行聚类，从随机聚类开始一直运行，直到找到最佳聚类。我们将首先简要修改K-means聚类算法以指出其弱点，然后由遗传算法解决。

略述

根据训练数据是否带有标签，机器学习有两种类型：

在监督学习问题中，模型使用一些描述数据的信息。此信息是数据实例的输出，因此模型知道（并获悉）它收到的每个输入实例的预期输出是什么。这有助于模型评估其性能并学习减少误差（或提高准确性）的方法。

对于分类问题，输出是每个样本的预期类别。对于RGB颜色分类器，输入和输出数据可以如下所示：

Input  1 : 255, 0, 0
Output 1 : Red

Input  2 : 0, 255, 0
Output 2 : Green

假设只有两类：红色和绿色。当模型知道预期的输出时，它将在训练阶段进行自我调整（即其参数）以返回正确的输出。对于新的测试样本，模型将测量其与之前在两个类别中看到的样本的相似性。

在无监督的学习问题中，模型不知道数据的正确输出（输入）。聚类是一个无监督的学习问题，任务是查找每个数据实例的结果（即标签）。

聚类算法的输入仅是如下输入：

Input 1 : 255, 0, 0
Input 2 : 0, 255, 0

聚类后，模型应预测每个数据实例的标签：

Output 1: Red
Output 2: Green

存在一些聚类算法，例如K-means算法（最受欢迎）。分支和绑定；和最大似然估计。

K-means算法是一种流行的聚类算法。尽管非常简单，但本节将快速回顾其工作原理，因为了解它对于使用遗传算法进行聚类至关重要。

K-means算法的输入为：