4.1分类算法概述
1、机器学习算法类型
①监督学习算法:就是我们教计算机如何做事情
②无监督学习算法:在非监督学习中,我们将让计算机自己学习。分为分类和回归
2、分类方法的定义
根据已知类别的训练集数据,建立分类模型,并利用该分类模型预测未知类别数据对象所属的类别
3、分类方法的应用
①模式识别(Pattern Recognition):通过计算机用数学技术方法来研究模式的自动处理和判读
模式识别的目标往往是识别,即分析出待测试的样本所属的模式类别
②预测:从利用历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行类预测
4、分类器的构建图示
4.2概率模型
1、贝叶斯要解决的问题
①正向概率:假设袋子里有N个白球,M个黑球,随机摸一个,摸出黑球的概率有多大
②逆向概率:如果事先不知道袋子里黑白球的比例,随机摸出几个球,根据这些球的颜色,可以推测袋子里面的黑白球比例
2、贝叶斯公式
3、朴素贝叶斯分类算法
①加载数据
from sklearn import datasets
iris = datasets.load_iris()
②导入模型
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
③训练模型+预测数据
y_pred = gnb.fit(iris.data, iris.target).predict(iris.data)
④输出
print("Number of mislabeled points out of a total %d points : %d"% (iris.data.shape[0],(iris.target != y_pred).sum()))