朴素贝叶斯法

本文探讨了基于贝叶斯决策方法的优缺点,详细介绍了朴素贝叶斯法的原理,包括先验概率和条件概率的计算,以及极大似然估计和贝叶斯估计的应用。适合对统计学习和机器学习感兴趣的读者。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

基于贝叶斯决策方法的优缺点:
优点:在数据较少的情况下依然有效,可以处理多类别问题
缺点:对于输入数据较为敏感
适用数据类型:标称型数据
贝叶斯定理阐述了两个随机事件之间的关系:
p(A∣B)=p(B∣A)p(A)p(B)p(A|B) = \frac{p(B|A)p(A)}{p(B)}p(AB)=p(B)p(BA)p(A)
朴素贝叶斯法是基于贝叶斯定理和特征独立性假设的分类方法。对于给定的训练数据,首先基于特征独立性假设学习输入输出的联合概率分布,然后基于此模型,对于给定的输入xxx,利用贝叶斯定理求出后验概率最大的输出yyy

基本方法

XXX是定义在输入空间χ\chiχ上随机变量,其中χ⊆Rn\chi\subseteq R^nχRn为n维向量的集合,YYY是定义在输出空间Υ\UpsilonΥ上的随机变量,输出空间为类标记集合Υ={c1,c2,...,cK}\Upsilon=\{c_1, c_2, ..., c_K\}Υ={c1,c2,...,cK}P(X,Y)P(X, Y)P(X,Y)XXXYYY的联合概率分布。布训练数据为:
T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)\}T={(x1,y1),(x2,y2),...,(xN,yN)}
P(X,Y)P(X, Y)P(X,Y)独立同分布。
朴素贝叶斯通过训练数据先学习先验概率分布及条件概率分布,得到联合概率分布。先验概率分布
p(Y=ck),k=1,2,...,Kp(Y=c_k), k=1, 2, ...,Kp(Y=ck),k=1,2,...,K
条件概率分布
在这里插入图片描述

朴素贝叶斯分类时,对给定的输入xxx,通过学习到的模型计算后验概率分布P(Y=ck∣X=x)P(Y=c_k|X=x)P(Y=ckX=x),将后验概率最大的类作为xxx的类输出。后验概率计算根据贝叶斯定理:
在这里插入图片描述
将(4.3)式带入上式,有
在这里插入图片描述
于是,朴素贝叶斯分类器可以表示为:
在这里插入图片描述

朴素贝叶斯的参数估计

极大似然估计

已知样本服从的分布,估计分布函数的参数θ\thetaθ,比如正太分布的均值和协方差。主要通过构造一个似然函数,让似然函数最大化,求解θ\thetaθ。直观解释是寻找一组参数,使得给定的样本集出现的概率最大。
假设样本服从的概率密度函数为p(x,θ)p(x, \theta)p(x,θ),其中xxx为随机变量,θ\thetaθ为要估计的参数。给定一组样本xi,i=1,...,lx_i, i=1, ..., lxi,i=1,...,l它们服从这种分布,并且相互独立,最大似然估计构造如下似然函数:
在这里插入图片描述
对该函数取对数,得到对数似然函数:
在这里插入图片描述
最后要求解的问题为:
在这里插入图片描述
在朴素贝叶斯法中,应用极大似然估计法估计相应的概率。先验概率P(Y=ck)P(Y=c_k)P(Y=ck)的极大似然估计是
在这里插入图片描述
设第jjj个特征x(j)x^{(j)}x(j)可能取值的集合为aj1,aj2,...,ajsj{a_{j1}, a_{j2}, ..., a_{js_j}}aj1,aj2,...,ajsj,条件概率P(X(j)=ajl∣Y=ck)P(X^{(j)}=a_jl|Y=c_k)P(X(j)=ajlY=ck)的极大似然估计是
在这里插入图片描述
其中,xi(j)x_i^{(j)}xi(j)是第iii个样本的第jjj个特征,ajla_jlajl是第jjj个特征可能取得第lll个值,III为指示函数。

贝叶斯估计

用极大似然估计可能会出现所要估计的概率值为0的情况,影响后验概率的结算结果,使得分类产生偏差。解决这一问题的方法是采用贝叶斯估计
在这里插入图片描述
其中λ>=0\lambda >= 0λ>=0, 等价于在随机变量各个取值的频数上赋予一个正数λ>0\lambda > 0λ>0,当λ>0\lambda > 0λ>0时为极大似然估计,常取λ=1\lambda=1λ=1,这时称为拉普拉斯平滑。

参考:

  1. 《统计学习方法》李航著
  2. 《机器学习与应用》雷明
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值