9.AdaBoost分类器----有监督学习 AdaBoost也是一种分类算法,它是一种迭代算法,通过训练多个弱分类器,来得到强分类器,利用最终的强分类器来对数据进行分类,它的基本步骤为: 1.赋予每个训练样本相同的权重,训练第一个弱分类器,此时个样本的权重为1/N(N为样本总数),将弱分类器得到的各样本的分类结果与其真实结果进行比较,分类错误的各样本的权重之和即为a,利用如下公式得到第一个弱分类器的权重; 2.训练样本重新赋予不同的权重,若在前一次的弱分类器中得到的分类结果正确,则减小该样本的权重;否则增大该样本的权重,训练第二个弱分类器,将弱分类器得到的各样本的分类结果与其真实结果进行比较,分类错误各样本的误差之和即为a,利用上述公式得到第二个弱分类器的权重;权重的更新公式为 :其中表示前一个弱分类器中样本i的权重,表示当前弱分类器中该样本i的权重,表示前一个弱分类器的权重 3.重复第2步,直至满足迭代结束条件; 4.将新的样本输入到已经训练好的每一个弱分类f器中,将每个弱分类器得到的结果(分类结果可以数值化处理)乘以其自身的权重作为最终结果;如若要对样本j分类,则分类表达式为: 弱分类器可以为决策树,或者设置阈值等分类方法。。。 AdaBoost的损失函数为指数损失函数,即 优点:易于实现;分类准确率较高;没有太多人为定义的参数; 缺点:要进行多次迭代,所需的计算量会比较大;对边缘点比较敏感; 参考博客:数盟微信群 10.最大期望EM算法---无监督学习 相似的还有HMM(隐马尔科夫模型) EM算法用来在概率参数模型中求得未知参数的最大似然估计,即通过已知参数来求得未知参数,未知的参数即为隐藏变量,它总共有两步:E步和M步 E步:选取一组参数,求出在该参数下未知参数的条件概率值; M步:结合E步求出的未知参数的条件概率,求出似然函数下界函数的最大值 重复上面两步,直至收敛 关于EM算法,我觉得不是那么理解,也还没有找到比较好的学习资源,我看过的博客都不能让我对这个问题有很好的了解,哎。。。或许是人太笨了。。 参考博客:http://www.cnblogs.com/zhangchaoyang/articles/2623364.html 机器学习算法可以分为如下两种模型: 判别式模型:逻辑线性回归 支持向量机 传统的神经网络 最近邻 生成式模型:高斯模型 LDA 朴素贝叶斯 HMM 机器学习这部分写的差不多了,以后有了新的理解或者学习到了新的知识会持续更新的,下面开始写自己在找实习以及找工作的过程中所做的准备,包括自己的一些心得体会,还有准备的各种资料等等。。。 未完待续。。。