作者:橘子派
声明:版权所有,转载请注明出处,谢谢。
交叉验证是数据分析时模型选择的方法之一,将数据集分为三份,分别为训练集(training set),验证集(valication set)和测试集(test set),分别功能为训练模型,选择模型和对学习方法的评估。其算法的思想为重复的使用数据,使得模型的精度越来越高。
交叉验证的方法有以下三种
1.简单交叉验证
将书记分为2份,训练集和测试集,在训练集中多次训练得到不同的模型,再在测试集中测试选择误差最小的模型即可。
2.S折交叉验证
将数据集分为互不相交的S份,用其中一个数据当测试集合,剩下的S-1个当训练集,进行S次训练之后选择误差最小的模型即可。
3.留一交叉验证
当数据集容量等于上述的S时为留一交叉验证,多在数据缺乏的时候使用。
简单交叉验证步骤
1.将集合X随机分成A,B,C三份
2.用A当作测试集合,B,C为训练集,进行数据分析
3.用B当作测试集合,A,C为训练集,进行数据分析
4.用C当作测试集合,A,B为训练集,进行数据分析
5.将数据分析的结果求平均值即可
参考文献:
《统计学习方法》
《Web scraping and machine learning by python》