定义
监督学习方法可以分为两类,生成方法(generative approach)和判别方法(discriminative approach),所对应学习到的模型被称为生成式模型(generative model)和判别式模型(discriminative model)
生成式模型
这种模型表示了给定输入X产生输出Y的生成关系。
因为有监督学习可以视作一个条件概率分布,说白了就是求在知道特征X的条件下标签Y的概率值。
这里多说一句,也可以视为决策函数Y=f(X),那么就是根据得到的Y和阈值比较找到所属类别,当然也可以把概率值放到函数里,这样条件概率也可以视为一个决策函数了。
反正目前我对机器学习深度学习的粗浅认知是这样的,这些都可以当成自变量(特征),函数(模型),函数值(结果)不是。而这层出不穷的方法,都是为了得到最好的Y值,为了最好的结果要找到最合适的特征,要构建最NB的模型,所以铺天盖地的问题都在围绕特征和模型展开。
生成式模型的大义是指 对每一种可能的标签Y建模,然后求联合概率P(X,Y) 再根据贝叶斯公式分别算概率,选择最优结果。
常见生成式模型
朴素贝叶斯法
判别式模型
由数据直接学习决策函数Y=f(X)或者条件概率分布作为预测的模型。
拿SVM举例,就是我们根据模型算出一个“分界面”,然后算条件概率,概率值大就是最终解。
这样的模型不能反映训练数据本身的特性,只告诉我们分类的结果。
常见判别式模型
Knn, 感知机,决策树,对数几率回归,支持向量机
联系和区别
判别式只在乎估计条件值,在数据的underlying distribution(基础分布?)非常复杂的时候效果很好,比如文本,图像。重点在于得到判别边界
生成式先观察(X,Y)然后在选择P(Y|X),对缺失变量效果不错,有更好的diagnostics,更容易对数据添加先验知识。重点在于数据和标签的联合分布
生成式可以转换为判别式,判别式无法转换为生成式