机器学习总结2(7月12日)
本文章是我在学习了台湾大学教授李宏毅的机器学习课程后,针对其中的要点做的学习笔记。文笔不够优雅,水平不够高深。感兴趣的博友们请移步李宏毅老师的youtube专栏:https://www.youtube.com/channel/UC2ggjtuuWvxrHHHiaDH1dlQ
或者在bilibili上观看网友搬运的视频:http://www.bilibili.com/video/av9770302/
我们通过机器学习得到的最优的模型,与真实的函数总是有一定的差别,即存在偏差(bias)与方差(variance)
假设x的平均值是µ,x的方差是σ2
通过做实验,我们可以了解到,简单的model,它的方差较小,偏差较大。
复杂的model,它的方差较大,偏差较小。
我们发现,方差和偏差的关系好像是互相排斥的,必须找到一个最好的中间值来得到最好的结果。
我们可以通过 交叉检验来解决这个方法(Cross Validation)
具体的做法是:将训练集分为两部分,一部分用来测试,一部分用来检验。然后将训练出来的模型在检验集中检验,寻找产生错误指数最小的那个模型
但是为了减少划分测试集合和检验集合时,可能会存在特殊性的可能,我们也可以是使用更复杂的交叉检验: