交叉验证(cross_validation)

作者:橘子派
声明:版权所有,转载请注明出处,谢谢。

交叉验证是数据分析时模型选择的方法之一,将数据集分为三份,分别为训练集(training set)验证集(valication set)测试集(test set),分别功能为训练模型,选择模型和对学习方法的评估。其算法的思想为重复的使用数据,使得模型的精度越来越高。

交叉验证的方法有以下三种
1.简单交叉验证
将书记分为2份,训练集和测试集,在训练集中多次训练得到不同的模型,再在测试集中测试选择误差最小的模型即可。

2.S折交叉验证
将数据集分为互不相交的S份,用其中一个数据当测试集合,剩下的S-1个当训练集,进行S次训练之后选择误差最小的模型即可。

3.留一交叉验证
当数据集容量等于上述的S时为留一交叉验证,多在数据缺乏的时候使用。

简单交叉验证步骤
1.将集合X随机分成A,B,C三份

2.用A当作测试集合,B,C为训练集,进行数据分析

3.用B当作测试集合,A,C为训练集,进行数据分析

4.用C当作测试集合,A,B为训练集,进行数据分析

5.将数据分析的结果求平均值即可

参考文献:
《统计学习方法》
Web scraping and machine learning by python

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值