KNN:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。
其算法的描述为:
1)计算测试数据与各个训练数据之间的距离;
2)按照距离的递增关系进行排序;
3)选取距离最小的K个点;
4)确定前K个点所在类别的出现频率;
5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。
朴素贝叶斯:
算法优缺点:
朴素贝叶斯分类算法,监督学习算法,而且是生成模型,优缺点主要包括:
(1)算法优点:
对大数量训练和查询时具有较高的速度。即使,使用超大规模的训练集,针对每个项目通常也只会有相对较少的特征数,并且对项目的训练和分类也仅仅是特征概率的数学运算而已。(适合大量数据)
支持增量式运算。即可以实时的对新增的样本进行训练。
朴素贝叶斯对结果解释容易理解。
朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。
所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
(2)算法缺点:
由于使用了样本属性独立性的假设,所以如果样本属性有关联时其效果不好。
理论上,模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为模型假设属性之间相互独立,这个