感知机学习-为什么损失函数可以不考虑L2范数？

最新推荐文章于 2023-01-10 14:51:56 发布

原创最新推荐文章于 2023-01-10 14:51:56 发布

· 1k 阅读

·

1

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #人工智能

统计学习方法2-李航专栏收录该内容

3 篇文章

订阅专栏

本文探讨了统计学习中为何感知机采用函数间隔而非几何间隔，解释了两者在优化目标和模型收敛上的差异，重点在于几何间隔在SVM中的稳定性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 前言

最近想重新学习一下统计学习方法（第2版）-李航，为深度学习打下一个坚实的基础。
在看到感知机的损失函数时产生了这样一个疑问，为什么明明用几何间隔计算结果更好，为什么不用，反而用效果不那么好的函数间隔？（函数间隔：即使是同一个平面，计算结果会随着w和b的缩放而产生不同的结果）

2. 概念

- 函数间隔

其中f(x)为函数值，y是人为设定的样本的值（如：区分猫狗图片，猫标定为“ +1”，狗为“ -1 ”），即函数值✖标签。为什么该式可以表示距离？实际上函数间隔并不是真正的数据点到超平面的距离，只是表示数据点被分为某一类的确信度。

- 几何间隔

几何间隔是严格数学公式，具体推导过程网上也很多，这里就不多做说明。

3. 理解

为什么要用有些地方要用几何间隔？
几何间隔相对于函数间隔的一个优势就是它不受参数（ w和b ）缩放影响，所以在SVM 这种优化目标是点到超平面之间的间隔的模型中，采用的是几何间隔（如果采用函数间隔，学习过程会不断的产生更大的w和b，根本停不下来）。
对于感知机：
感知机的目标是使误分类的点的个数为0，采用几何间隔并不会带来什么好处，反而会使学习过程复杂化。有些同学可能认为在损失函数L最小化的过程中，若不对参数进行归一化，目标会偏向于选择量级较小的参数w和b。
但是在线性可分的情况下这是不会发生的，因为损失函数是定义在误分类点的集合上的，只要误分点集合为空，就能取到最小值0，这种情况下无论w和b的初值如何，损失L最终都可以收敛到0。而对于数据不是线性可分的情况，感知机是处理不了的，这种情况下无论怎么训练，误分类点的集合总不为空，算法会一直使用集合中的误分点更新参数，超平面会在线性不可分的点之间摆动，算法无法收敛。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。