在监督机器学习中,训练数据已被标记,这意味着每个数据实例都有其对应的输出。 在无监督机器学习中,数据没有标签。 聚类是一个无监督的学习问题,任务是探索数据以找到每个数据实例的最佳标签。
https://embed.notionlytics.com/wt/ZXlKd1lXZGxTV1FpT2lKa01XRXlOVGMyTXpOaVpURTBNVE15WW1SalpUa3dOREUyWkRFNVltUmlZaUlzSW5kdmNtdHpjR0ZqWlZSeVlXTnJaWEpKWkNJNklsZHNTR2hsVEZSUFdXeHpaVmRhUW1ZNU1YQmxJbjA9
本文讨论了如何使用遗传算法对数据进行聚类,从随机聚类开始一直运行,直到找到最佳聚类。 我们将首先简要修改K-means聚类算法以指出其弱点,然后由遗传算法解决。
根据训练数据是否带有标签,机器学习有两种类型:
在监督学习问题中,模型使用一些描述数据的信息。 此信息是数据实例的输出,因此模型知道(并获悉)它收到的每个输入实例的预期输出是什么。 这有助于模型评估其性能并学习减少误差(或提高准确性)的方法。
对于分类问题,输出是每个样本的预期类别。对于RGB颜色分类器,输入和输出数据可以如下所示:
Input 1 : 255, 0, 0
Output 1 : Red
Input 2 : 0, 255, 0
Output 2 : Green
假设只有两类:红色和绿色。 当模型知道预期的输出时,它将在训练阶段进行自我调整(即其参数)以返回正确的输出。 对于新的测试样本,模型将测量其与之前在两个类别中看到的样本的相似性。
在无监督的学习问题中,模型不知道数据的正确输出(输入)。聚类是一个无监督的学习问题,任务是查找每个数据实例的结果(即标签)。
聚类算法的输入仅是如下输入:
Input 1 : 255, 0, 0
Input 2 : 0, 255, 0
聚类后,模型应预测每个数据实例的标签:
Output 1: Red
Output 2: Green
存在一些聚类算法,例如K-means算法(最受欢迎)。分支和绑定;和最大似然估计。
K-means算法是一种流行的聚类算法。尽管非常简单,但本节将快速回顾其工作原理,因为了解它对于使用遗传算法进行聚类至关重要。
K-means算法的输入为: