第十讲:Random Forest
1、Random Forest Algorithm
Bagging:通过平均来降低变化量。
Decision Tree:对不同的数据敏感,变化量大。
aggregation of
aggregation
:用bagging的方式把一堆decision tree结合起来。
RF = bagging + CART
1、并行化、高效
2、继承CART的优点
3、消除完全生长CART的overfit缺点
得到有差异性的g:
随机抽取dataset(bagging)
随机抽取feature(低维投影,特征子空间)
RF = bagging + 随机特征CART
特征 = 投影矩阵*原始特征
投影到原始方向:特征随机抽取
投影到任意方向:特征结合后随机抽取,more powerful。
原始的RF考虑在
CART每一次分支时
将特征结合起来后低维投影。
RF = bagging + 随机结合特征CART