3-6和3-7(nndl)

最新推荐文章于 2025-02-21 19:46:14 发布

Refrain*

最新推荐文章于 2025-02-21 19:46:14 发布

阅读量263

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42660711/article/details/123702260

机器学习专栏收录该内容

18 篇文章

订阅专栏

本文探讨了Softmax回归中加入正则化项对风险函数的影响，指出冗余权重向量需正则化以防止过拟合，并解释了如何通过平均权重向量避免数值溢出。还验证了平均感知器训练中的权重计算方法与公式3.77的一致性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题

在Softmax回归的风险函数 $R(W)=−1N∑n=1N∑c=1Cyc(n)log⁡y^c(n) \mathcal{R}\left( \boldsymbol{W} \right) =-\frac{1}{N}\sum_{n=1}^N{\sum_{c=1}^C{y_{c}^{\left( n \right)}\log \hat{y}_{c}^{\left( n \right)}}}$
$=−1N∑n=1N(y(n))Tlog⁡y^(n) \ \ \ \ \ \ \ =-\frac{1}{N}\sum_{n=1}^N{\left( y^{\left( n \right)} \right) ^T\log \hat{y}^{\left( n \right)}}$
如果加上正则化项会有什么影响？

解析

要注意的是，Softmax回归中使用的𝐶个权重向量是冗余的，即对所有的权重向量都减去一个同样的向量𝒗，不改变其输出结果．因此，Softmax 回归往往需要使用正则化来约束其参数．此外，我们还可以利用这个特性来避免计算Softmax函数时在数值计算上溢出问题．不加入正则化项限制权重向量的大小, 可能造成权重向量过大, 产生上溢。

问题

验证平均感知器训练算法3.2中给出的平均权重向量的计算方式和公式（3.77）等价.

解析

在这里插入图片描述
平均感知器（Averaged Perceptron）平均感知器的形式为：
$y^=sgn(1T∑k=1Kck(wkTx)) \hat{y}=sgn\left( \frac{1}{T}\sum_{k=1}^K{c_k\left( \boldsymbol{w}_{k}^{T}\boldsymbol{x} \right)} \right)$
$\ =sgn \left( \frac{1}{T}\left( \sum_{k=1}^K{c_k\boldsymbol{w}_k} \right) ^T\boldsymbol{x} \right)$
$\ =sgn \left( \left( \frac{1}{T}\sum_{t=1}^T{\boldsymbol{w}_t} \right) ^T\boldsymbol{x} \right)$
$\ =sgn \left( \boldsymbol{\bar{w}}^T\boldsymbol{x} \right)$
其中T为迭代总回合数， $wˉ\bar{w}$ 为T次迭代的平均权重向量。这个方法很简单，只需要在算法3.1中增加一个 $wˉ\bar{w}$ ,并且在每次迭代时都更新 $wˉ\bar{w}$ .
算法3.2：
设预测错误的样本有K个，分别为 $x_1,y_1),(x_2,y_2),···,(x_K,y_K)$ 并且设选取到这些样本时迭代次数为 $t_k$ 根据上述算法知：
$w=x_1y_1+x_2y_2+···+x_ky_k$
$u=t_1x_1y_1+t_2x_2y_2+···+t_kx_ky_k$
因此，
$\bar{w}=w-\frac{1}{T}u$
$\ =x_1y_1+x_2y_2+····+x_ky_k-\frac{1}{T}\left( t_1x_1y_1+t_2x_2y_2+···+t_kx_ky_k \right)$
$\ =\frac{T-t_1}{T}x_1y_1+\frac{T-t_2}{T}x_2y_2+···+\frac{T-t_k}{T}x_ky_k$
公式（3.77）：
$w=\sum_{t=1}^T{w_t}\ \ \ \ w_t=\sum_{i=1}^{k\le t}{x_iy_i}\ \ \bar{w}=\frac{1}{T}w$
$w=\left( x_1y_1+···+x_1y_1 \right) +\left( x_1y_1+x_2y_2+···+x_1y_1+x_2y_2 \right) +···+\left( \sum_{i=1}^k{x_iy_i+···+\sum_{i=1}^k{x_iy_i}} \right)$
上式中i，当第二个预测错误的样本被选取时才开始 $x_2y_2$ 也就是说到达 $t_2$ 时刻才开始加，其余 $x_iy_i$ 类似到达 $t_i$ 时刻开始加，依次 $x_iy_i$ 共相加了 $T-t_i$ 次所以：
$w=\left( x_1y_1+···+x_1y_1 \right) +\left( x_1y_1+x_2y_2+···+x_1y_1+x_2y_2 \right) +···+\left( \sum_{i=1}^k{x_iy_i+···+\sum_{i=1}^k{x_iy_i}} \right)$
$\ =\left( T-t_1 \right) x_1y_1+\left( T-t_2 \right) x_2y_2+···+\left( T-t_k \right) x_ky_{1k}$
$wˉ\bar{w}$ 将上式除以T $\bar{w} =\frac{T-t_1}{T}x_1y_1+\frac{T-t_2}{T}x_2y_2+···+\frac{T-t_k}{T}x_ky_k$