前言:纸上得来终觉浅,绝知此事要躬行。
一. 理论基础
1. 函数间隔与几何间隔
函数间隔: γ^=yi(w∗xi+b)
几何间隔: γ=yi(w∗xi+b∣∣w∣∣)
2. 优化目标:
minα 12∑i=0m∑j=0mαiαjyiyjxixj−∑i=0mαi
s.t. ∑i=0mαiyi=0
s.t. 0≤αi≤C, (i=1,2,⋯,m)
3. 推导过程:
我们的目标是最大化距离边界最近的点的几何间隔,可以形式化
maxw,bγ
s.t. yi(w∗xi+b∣∣w∣∣)≥γ , (i=1,2,…,m)
根据几何间隔与函数间隔的关系
maxw,bγ^∣∣w∣∣
s.t. yi(w∗xi+b)≥γ^ , (i=1,2,…,m)
由于 γ^ 与w,b同步变化,所以 γ 的缩放对上述约束条件没有影响,令 γ^=1
maxw,b1∣∣w∣∣
s.t. yi(w∗xi+b)≥1 , (i=1,2,…,m)
最大化 1∣∣w∣∣ 与最小化 12∣∣w∣∣2 等价
minw,b12∣∣w∣∣2
s.t. yi(w∗xi+b)≥1 , (i=1,2,…,m)
加上软间隔,适用于训练数据线性不可分情形
minw,b,ξ