李航统计学习方法第一章课后习题答案

原创

已于 2023-05-12 20:28:28 修改 · 3.2w 阅读

84 ·

CC 4.0 BY-SA版权

文章标签：

#李航 #习题 #答案 #统计学习方法 #第一章

于 2017-04-14 14:48:36 首次发布

本文详细解答了李航《统计学习方法》第一章的习题，涉及统计学习的三要素：模型、策略、算法。解释了伯努利模型、极大似然估计与贝叶斯估计的区别，并举例说明了如何利用极大似然估计和贝叶斯估计估计伯努利试验中参数θ的值。同时，介绍了模型Pθ(Y|X)、对数损失函数及经验风险最小化的概念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

####1.1
统计学习方法的三要素是模型、策略、算法。

伯努利模型是定义在取值为0与1的随机变量上的概率分布。

统计学分为两派：经典统计学派和贝叶斯统计学派。两者的不同主要是，经典统计学派认为模型已定，参数未知，参数是固定的，只是还不知道；贝叶斯统计学派是通过观察到的现象对概率分布中的主观认定不断进行修正。

极大似然估计和贝叶斯估计的模型都是伯努利模型也就是条件概率模型；极大似然估计用的是经典统计学派的策略，贝叶斯估计用的是贝叶斯统计学派的策略；为了得到使经验风险最小的参数值，使用的算法都是对经验风险求导，使导数为0.

定义随机变量A为一次伯努利试验的结果，A的取值为 ${0,1\}$ ，概率分布为 $P (A)$ ：
$P(A=1)=θP(A=0)=1−θP(A=1)=\theta \\ P(A=0)=1-\theta$

下面分布用极大似然估计和贝叶斯估计来估计 $θ\theta$ 的值。

极大似然估计：
$L(θ)=∏i=1nP(Ai)=θk(1−θ)n−kL(\theta)=\prod_{i=1}^{n}P(A_i)=\theta^k(1-\theta)^{n-k}$
$A_i$ 代表第i次随机试验。
$θ=argmax⁡θL(θ)=kn\theta=arg\max \limits_\theta L(\theta)=\frac{k}{n}$

贝叶斯估计：
$P(θ∣A1,A2,...,An)=P(A1,A2,...An∣θ)π(θ)P(A1,A2,...,An)P(\theta|A_1,A_2,...,A_n)=\frac{P(A_1,A_2,...A_n|\theta)\pi(\theta)}{P(A_1,A_2,...,A_n)}$
根据观察到的结果修正 $θ\theta$ ，也就是假设 $θ\theta$ 是随机变量， $θ\theta$ 服从 $β\beta$ 分布，有很多个可能的取值，我们要取的值时在已知观察结果的条件下使 $θ\theta$ 出现概率最大的值。上式分母是不变的，求分子最大就可以。

$\begin{align*} \theta &=arg\max \limits_\theta {P(A_1,A_2,...A_n|\theta) P(\theta)} \\ &= arg\max \limits_\theta {\prod_{i=1}^{n}P(A_i|\theta)P(\theta)} \\ &=arg \max \limits_\theta {\theta^k(1-\theta)^{n-k}\theta^{a-1}(1-\theta)^{b-1}} \\ &=\frac{k+(a-1)}{n+(a-1)+(b-1)} \end{align*}$