无监督学习
:是指在未加标签的数据中,根据数据之间本身的属性特征和关联性对数据进行区分,相似相近或关联性强的数据放在一起,而不相似不相近、关联性不强的数据不放在一起。
应用场景:降维,聚类算法,关联算法
有监督学习和无监督学习的区别:
- 有监督学习:
分类问题,要求实现必须明确知道各个类别的消息,建立的前提是待分类项都有一个类别都与之对应,但实际上分类问题获取到的数据记录对应的类别信息无法明确,大数据处理的数据是海量的,信息提交可能不完全
- 无监督学习:
最常见的是聚类问题,不依赖预定义的类和标号的训练示例
so
可以先用无监督学习打标签,再用有监督学习进行分类
聚类分析
定义:聚类分析是分析研究对象(样品或变量)如何按照多个方面的特征进行综合分类的一种多元统计方法,它是根据物以类聚的思想将相似的样品(或变量)归为一类。
把对象分为不同的类别,类别是依据数据的特征确定的。
把相似的东西放在一起,类别内部的差异尽可能小,
类别之间的差异尽可能的大。
作用:
- 作为单独过程,对数据进行打标