深入理解支持向量机：从原理到实践-CSDN博客

本文链接：https://blog.csdn.net/quanwei940805/article/details/45600049

本文详细阐述了支持向量机的基本原理，包括最大间隔分类器、核技巧、间隔最大化问题的求解及SMO算法。重点讨论了如何处理离群点，以及SMO算法在优化过程中的应用。文章最后提供了简化版的SMO代码实现，并通过可视化展示了分类器的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

svm需要一定的数学功底，我是亦步亦趋花了一个星期，才渐渐有所了解。出于学习交流目的，我将自己的学习思路整理出来。由于对svm的理解有所不足，如有错误，敬请指正。

svm简介

支持向量机(support vertor machines,SVM)是一种二分类模型。它的基本模型是定义在特征空间上的最大间隔分类器，核技巧使它称为线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。

最大间隔的分类器

ok，让我们从最简单的线性分类说起，如图：
这里写图片描述
在一个平面上有两类点，中间的实线表示一个分类器。我们知道，空间中的一个(超)平面（在二维是直线）可以表示为

f (x) = w * x + b

$f(x)=w*x+b$
我们不妨设所有满足f(x)>0的点其y等于1，而f(x)<0的点其y等于-1（至于为什么是1和-1，读者如果感兴趣，可自行查阅相关资料）。当超平面的方程给定后，我们就可以将需要预测的点带入方程，如果得到的值大于0，则分到正类(y=1)，如果得到的值小于0，则分到负类(y=-1)。那么，现在剩下的问题就是，怎样确保我们的超平面是分类效果最好的？svm利用间隔最大化求最优超平面。
一般而言，一个点距离超平面的远近可以表示匪类的准确度。在超平面 w*x+b 确定的情况下|w*x+b|可以表示点x距离超平面距离的远近，而标号y可以表示正确。所以，我们用

y(w∗x+b) $y(w*x+b)$ 表示分类的确信度。由此引出函数间隔的定义。

对于给定训练集T和超平面(w,b)，定义超平面关于样本点 $(x_i,y_i)$ 的函数间隔为

$γ i^= y i (w * x i + b)$ $\hat{\gamma_i}= y_i(w*x_i+b)$
定义超平面(w,b)关于训练集T的函数间隔为所有样本点函数间隔的最小值即
$γ^= min i = 1, 2... N γ i^$ $\hat{\gamma}= \min_{i=1,2...N}\hat{\gamma_i}$

函数间隔虽然可以表示分类，但是如果成比例的改变w和b，函数间隔就会成比例的变化，由此我们引入几何间隔。

$γ = γ ^ | | w | |$ $\gamma = \frac{\hat{\gamma}}{||w||}$
几何距离就是点到超平面的距离

用几何距离来表示间隔显然要比函数间隔好。那么，我们的目的就是使几何距离最大化，即

m a x γ^(1)

$max \hat{\gamma}\qquad (1)$
当然，还有个附加条件

y i (ω T x i + b) = γ i^\geq γ^, i = 1, 2..., n

$y_i(\omega^Tx_i+b)=\hat{\gamma_i}\geq\hat{\gamma},i=1,2...,n$
其中

γ=fracγ^||w|| $\gamma=frac{\hat{\gamma}}{||w||}$ ,出于简化计算的考虑，令

γ^=1 $\hat{\gamma}=1$ （对目标函数的优化没有影响，证明略），此时，我们的目标由(1)转换为

s . t . m a x 1 | | w | | (2) y i (w T x i + b) = γ i^\geq 1 ， i = 1, 2, . . ., n (3)

$\begin{align} &max \frac{1}{||w||} \qquad\qquad\qquad\qquad\qquad(2)\\ s.t.& y_i(w^Tx_i+b) =\hat{\gamma_i} \geq 1，i=1,2,...,n\qquad(3) \end{align}$
通过求解上面这个问题，我们就可以得到图中超平面的方程。

什么是支持向量？
从图中可以看出，两个支撑着中间间隙的超平面，它们到中间分类超平面的距离相等，即几何间隔 $\gamma$ ，而支撑这两个超平面的点便叫做支持向量。

从原本是问题到对偶问题

之前我们要求解式(2),由于对 $||w||$ 求最大等价于对 $\frac{1}{||\omega||}$ 求最小，则原问题等价于

s . t . m i n 1 2 | | w | | 2 (4) y i (w T x i + b) = γ i^\geq 1 ， i = 1, 2, . . ., n (5)

$\begin{align} &min \frac{1}{2}||w||^2 \qquad(4)\\ s.t. &y_i(w^Tx_i+b) =\hat{\gamma_i} \geq 1，i=1,2,...,n\qquad(5) \end{align}$
到了这一步，可以看出来这是一个二次凸优化问题。由于其特殊结构我们可以通过Lagrange对偶变换来求解出问题。
下面对Lagrange对偶性的进行简单的解释
假定

f(x),ci(x),hj(x) $f(x),c_i(x),h_j(x)$ 是定义在

Rn $R^n$ 上的连续可微函数，考虑约束最优化问题

s . t . m i n f (x) c i (x) \leq 0, i = 1, 2, 3..., k h j (x) = 0, j = 1, 2, . . ., l

$\begin{align} &minf(x)\\ s.t.&c_i(x)\leq 0,i=1,2,3...,k\\ &h_j(x)=0,j=1,2,...,l \end{align}$
引入广义拉格朗日函数

L (x, α, β) = f (x) + \sum i = 1 n α i c i (x) + \sum j = 1 l β i h j (x)

$\cal{L}(x,\alpha,\beta)=f(x)+\sum_{i=1}^n\alpha_ic_i(x)+\sum_{j=1}^l\beta_ih_j(x)$
这里

αi≥0 $\alpha_i\geq0$
然后代入在我们的问题中，有

L(x,α,β)=frac12||ω||2+∑i=1nαici(x)+∑j=1lβihj(x)(6)

$\cal{L}(x,\alpha,\beta)=frac{1}{2}||\omega||^2+\sum_{i=1}^n\alpha_ic_i(x)+\sum_{j=1}^l\beta_ih_j(x) \qquad(6)$
然后令

θ(ω)=maxα>0L(ω,b,α) $\theta(\omega)=\max_{\alpha>0}\cal{L}(\omega,b,\alpha)$
则问题转化为

m i n m a x θ (ω) (7)

$minmax\theta(\omega) \qquad(7)$
在满足KKT条件的情况下（KKT条件略，但是可证明，我们这个问题是满足KKT条件的）,该问题转换为

m a x m i n θ (ω) (8)

$maxmin\theta(\omega) \qquad(8)$

求解对偶问题

于是接下来我们的任务就是：(1)固定 $\alpha$ 对 $\theta(\omega)$ 求极小,得到关于 $\alpha$ 的表达式(2)对 $\alpha$ 求极大，(3)利用SMO求对偶因子。
第一步 先固定 $\alpha$ ,对 $\theta(\omega)$ 求偏导。

\partial c a l l \partial ω = 0 \Rightarrow ω = \sum i = 1 n α i y i x i (9)

$\frac{\partial{cal{l}}}{\partial{\omega}}=0 \Rightarrow \omega = \sum_{i=1}^n\alpha_iy_ix_i \qquad(9)$

\partial c a l l \partial b = 0 \Rightarrow \sum i = 1 n α i y i = 0 (10)

$\frac{\partial{cal{l}}}{\partial{b}}=0 \Rightarrow \sum_{i=1}^n\alpha_iy_i=0 \qquad(10)$
将结果代入式(6)得

L (x, α, β) = \sum i = 1 n α i - 1 2 \sum i, j = 1 n α i α j y i y j x i x j (11)

$\cal{L}(x,\alpha,\beta) = \sum_{i=1}^n\alpha_i-\frac{1}{2}\sum_{i,j=1}^n\alpha_i\alpha_jy_iy_jx_ix_j \qquad(11)$
第二步 由于有了式(11),问题转化为

s . t . max α \sum i = 1 n α i - 1 2 \sum i, j = 1 n α i α j y i y j x i x j α \geq 0, i = 1, 2, . . ., n \sum i = 1 n α i y i = 0

$\begin{align} &\max_\alpha\sum_{i=1}^n\alpha_i-\frac{1}{2}\sum_{i,j=1}^n\alpha_i\alpha_jy_iy_jx_ix_j \\ s.t. &\alpha\geq0,i=1,2,...,n\\ & \sum_{i=1}^n\alpha_iy_i=0 \end{align}$
要对

α $\alpha$ 求极大，最有效地方法是SMO算法。

用松弛变量处理离群点

在讨论SMO算法之前，我们先说说另一个问题————离群点的处理。我们起初的假设是数据都是线性可分的，假如我们的数据中存在离群点，原有的模型会受到很大的影响，如下图
这里写图片描述
用黑色圈出来的蓝色点就是一个离群点。如果没有这个点，我们的模型会得到红色实线所示的分类器。但是由于有了这个点，现在得到的分类器会是如虚线所示，显然这个分类器的间隔比之前分类器的间隔要小。要是该离群点还往上一点，我们甚至无法利用我们的模型来构造分类超平面。
为了解决离群点问题，svm在一定程度上可以支持离群点。如上图，将离群点移动到蓝色实线所示的支持平面上，超平面就不会改变了。为此，我们引入了松弛变量 $\xi$ 。我们原来的约束条件是

y i (w T x i + b) = γ i^\geq 1 ， i = 1, 2, . . ., n

$y_i(w^Tx_i+b) =\hat{\gamma_i} \geq 1，i=1,2,...,n$
现在有了离群点，约束条件变为

y i (w T x i + b) = γ i^\geq 1 - ξ i ， i = 1, 2, . . ., n

$y_i(w^Tx_i+b) =\hat{\gamma_i} \geq 1-\xi_i，i=1,2,...,n$

ξ $\xi$ 表示的是离群点偏离函数间隔的量，如果我们允许

ξi $\xi_i$ 任意大，那么任意超平面都是符合条件的。所以，我们还要子啊优化目标上加上一项，使得

ξi $\xi_i$ 的总和最小，新优化目标是

s . t . m i n 1 2 | | w | | 2 + C \sum i = 1 n ξ i (12) y i (w T x i + b) = γ i^\geq 1 ， i = 1, 2, . . ., n ξ i \geq 0, i = 1, 2, . . ., n

$\begin{align} &min \frac{1}{2}||w||^2+C\sum_{i=1}^n\xi_i \qquad(12)\\ s.t. &y_i(w^Tx_i+b) =\hat{\gamma_i} \geq 1，i=1,2,...,n & \xi_i \geq0,i=1,2,...,n \end{align}$
其中C是控制目标函数中2项的权重的参数。然后我们按照之前的步骤对式(12)求偏导，回代，会得到一个和原来一样的目标函数(巧合？)不过由于我们有

C−αi−ri=0 $C-\alpha_i-r_i=0$ 又有

ri≥0 $r_i\geq0$ (拉格朗日乘数法的条件),因此有

αi≤C $\alpha_i \leq{C}$ ,所以最后的问题转化为

s . t . min α 1 2 \sum i, j = 1 n α i α j y i y j x i x j - \sum i = 1 n α i (13) 0 \leq α \leq C, i = 1, 2, . . ., n (14) \sum i = 1 n α i y i = 0 (15)

$\begin{align} &\min_{\alpha}\frac{1}{2}\sum_{i,j=1}^n\alpha_i\alpha_jy_iy_jx_ix_j-\sum_{i=1}^n\alpha_i \qquad(13)\\ s.t. &0\leq\alpha\leq{C},i=1,2,...,n\qquad(14)\\ & \sum_{i=1}^n\alpha_iy_i=0\qquad(15) \end{align}$

SMO算法

到这一步，我们有了式(13)-(15)，我们现在来看一看SMO是怎样求解的。
首先，更具KKT条件得出 $\alpha_i$ 的取值意义：
记 $u_i = \omega{x}+b$

y i u i > 1 \Leftrightarrow α = 0 (16) y i u i = 1 \Leftrightarrow 0 < α < C (17) y i u i < 1 \Leftrightarrow α = C (18)

$\begin{align} &y_iu_i > 1 \Leftrightarrow \alpha = 0 \qquad(16)\\ &y_iu_i = 1 \Leftrightarrow 0<\alpha<C \qquad(17)\\ &y_iu_i < 1 \Leftrightarrow \alpha = C \qquad(18) \end{align}$

式(16)表示分类正常，点在边界内部。
式(17)表示点在边界上。
式(18)表示点在边界之间。

以下情况会出现不满足：

y i u i > 1, α > 0 (16) y i u i = 1, α = 0 | C (17) y i u i < 1 α < C (18)

$\begin{align} &y_iu_i > 1,\alpha > 0 \qquad(16)\\ & y_iu_i = 1, \alpha=0|C \qquad(17)\\ & y_iu_i < 1 \alpha < C \qquad(18) \end{align}$
在引入松弛变量后，上述不满足条件变为
记

Ei=ui−yi $E_i=u_i-y_i$

α i < C, y i E i < - ξ α i > 0, y i E i > ξ

$\begin{align} \alpha_i<C,y_iE_i<-\xi\\ \alpha_i>0,y_iE_i>\xi \end{align}$
我们要将所有不满足条件的

αi $\alpha_i$ 调整为满足条件，然而,由于

∑ni=1αiyi=0 $\sum_{i=1}^n\alpha_iy_i=0$ ,所以我们需要通过某种方法同时调整两个

α $\alpha$ 。SMO算法住主要步骤就是(1)选择接下来需要更新的一对

αi $\alpha_i$ 和

αj $\alpha_j$ :采用启发式的方式进行选择,从而使目标函数最大程度接近全局最优值。(2)将目标函数对

αi $\alpha_i$ 和

αj $\alpha_j$ 进行优化。然后重复直到收敛。更新

αi $\alpha_i$ 和

αj $\alpha_j$ 的步骤如下：
假定需要更新某两个

αi $\alpha_i$ 和

αj $\alpha_j$ ，有

αnewiyi+alphanewjyj=alphaiyi+αjxj $\alpha_i^{new}y_i+alpha_j^{new}y_j = alpha_iy_i+\alpha_jx_j$
利用上式，我们可以得到

α n e w j = α j - y j ( E i - E j ) η

$\alpha_j^{new} = \alpha_j-\frac{y_j(E_i-E_j)}{\eta}$
其中$$\eta = 2*

α' j = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ H α n e w j \geq H α L < α n e w j < H L α j \leq L

$\alpha_j^{'}=\left\{ \begin{aligned} H\qquad \alpha_j^{new}\geq H\\ \alpha \qquad L<\alpha_j^{new}<H\\ L \qquad \alpha_j\leq L \end{aligned} \right.$

其中，H和L分别为

{L = m a x (0, α j - α i) H = m i n (C, C + α j - α i) α i \neq α j L = m a x (0, α i + α j - C) H = m i n (C, α j + α i) α i = α j

$\left\{ \begin{aligned} L=max(0,\alpha_j-\alpha_i) \quad H=min(C,C+\alpha_j-\alpha_i) \qquad \alpha_i\not=\alpha_j\\ L=max(0,\alpha_i+\alpha_j-C) \quad H=min(C,\alpha_j+\alpha_i) \qquad \alpha_i=\alpha_j \end{aligned} \right.$
然后就有

α i = α i + y i y j (α o l d j - α' j)

$\alpha_i = \alpha_i+y_iy_j(\alpha_j^{old}-\alpha_j^{'})$
而关于

αi $\alpha_i$ 和

αj $\alpha_j$ 的选择，包括两点：
1.扫描所有

α $\alpha$ ，选择第一个违反KKT的作为

αj $\alpha_j$
2.在不违反KKT的乘子中，选取使得

|Ej−Ei| $|E_j-E_i|$ 最大的

αi $\alpha_i$
然后，可计算出b

b = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ b 10 < α i < C b 20 < α i < C 1 b 1 + b 2 o t h e r

$b=\left\{ \begin{aligned} b1\qquad 0<\alpha_i<C\\ b2 \qquad 0<\alpha_i<C\\ \frac{1}{b1+b2} \qquad other \end{aligned} \right.$
其中，

b 1 = b - E i - y i (α i - α o l d i < x i, x i >) - y j (α j - α o l d j < x i, x j >) b 2 = b - E j - y i (α i - α o l d i < x i, x i >) - y j (α j - α o l d j < x j, x j >)

$b1=b-E_i-y_i(\alpha_i-\alpha_i^{old}<x_i,x_i>)-y_j(\alpha_j-\alpha_j^{old}<x_i,x_j>)\\ b2=b-E_j-y_i(\alpha_i-\alpha_i^{old}<x_i,x_i>)-y_j(\alpha_j-\alpha_j^{old}<x_j,x_j>)$

这样，一次迭代后我们就更新了 $\alpha$ 和b，迭代多次后，我们就可以得到最优的 $\alpha$ 。然后利用 $f(x)=\omega x+b=\sum_{i=1}^n\alpha_iy_i<x_i,x>+b$ 即可得到分类器。
最后代码

##SVM
import numpy as np;
def load(filename):
    fr = open(filename);
    data=[];label=[];
    for line in fr.readlines():
        lineArr = line.strip().split('\t');
        data.append([float(lineArr[0]),float(lineArr[1])]);
        label.append(float(lineArr[2]));
    return data,label;

#简化版选择alpha_j
def Salphaj(i,m):
    j = i;
    while(j==i):
        j = np.random.uniform(i,m);
    return int(j);

#规范化alpha_j
def clip(aj,H,L):
    if(aj>=H):
        aj=H;
    elif(aj<=L) :
        aj=L;
    return aj;

def antiKKT(alphai,ui,yi,toler,C):  

    if(yi*ui < -toler and alphai<C or yi*ui > toler and alphai>0 ):
        return True;
    return False;

def LH(alphai,alphaj,a,C):
    if(a):
        return max(0,alphai+alphaj-C),min(C,alphai+alphaj);
    else:
        return max(0,alphaj-alphai),min(C,C+alphaj-alphaj);

#X:数据 numpy数组格式
#Y:标签 numpy数组格式
#alpha 参数，numpy数组格式
#C：参数 实数
def SMO(X,Y,C,toler,max):
    X = np.mat(X);
    Y = np.mat(Y).T;
    m,n = np.shape(X);
    alpha = np.mat(np.zeros((m,1)));
    b=0;
    iter = 0;
    while(iter<max):
        change = 0;
        for i in range(m):
            xi=X[i,:]
            yi=Y[i,:]
            ui = np.multiply(alpha,Y).T*(X*xi.T)+b;
            ei = float(ui)-float(yi);
            alphai = alpha[i].copy();
            #alphai满足KKT就跳过，选择下一个alphai。否则，选择alphaj进行优化
            if(antiKKT(alphai,ei,yi,toler,C)):
                j = Salphaj(i,m);
                alphaj = alpha[j].copy();
                xj = X[j,:];
                yj= Y[j,:];
                uj = np.multiply(alpha,Y).T*(X*xj.T)+b;
                ej = float(uj)-float(yj);
                L,H = LH(alphai,alphaj,yi==yj,C);
                if L==H:  continue;
                eta = 2*(xi*xj.T)-(xi*xi.T)-(xj*xj.T);
                if eta >= 0: continue;
                alpha[j] = alphaj - yj*(ei-ej)/eta;
                alpha[j] = clip(alpha[j],H,L);
                if(abs(alpha[j]-alphaj)<0.00001):continue;
                alpha[i] = alphai+yi*yj*(alphaj-alpha[j]);
                b1=b-ei-yi*(alpha[i]-alphai)*(xi*xi.T)-yj*(alpha[j]-alphaj)*(xi*xj.T);
                b2=b-ej-yi*(alpha[i]-alphai)*(xi*xi.T)-yj*(alpha[j]-alphaj)*(xj*xj.T);
                if(alpha[i]>0 and alpha[i]<C):  b = b1;
                elif((alpha[j]>0 and alpha[j]<C)): b= b2;
                else:   b = (b1+b2)/2.0;
                change = change+1;
        if(change == 0) :iter += 1;
        else:iter=0;
    return alpha,b

##可视化
### x特征矩阵，numpy数组格式
### y类标签，numpy数组格式
def plotFit(x,y,alpha,b):
    import matplotlib.pyplot as plt;
    x1=[]; y1=[]; #类别为1的点
    x2=[]; y2=[];
    m = np.shape(x)[0];
    for i in range(m):
        if(y[i]==-1) :
            x1.append(x[i][0]);
            y1.append(x[i][1]);
        else:
            x2.append(x[i][0]);
            y2.append(x[i][1]);
    plt.scatter(x1,y1,c='red');
    plt.scatter(x2,y2);
    a=np.arange(2.0,8.0,0.1);
    x=np.mat(x);
    y=np.mat(y).T;
    w= sum(np.multiply(np.multiply(alpha,y),x));
    w0 =w[0,0];
    w1 = w[0,1];
    b0 = b;
    y = (-w0*a - b[0,0])/w1;
    plt.plot(a,y);
    plt.show();
    plt.figure(2);

data,label = load('testSet.txt');
alpha,b = SMO(data,label,0.6,0.001,40);
print(alpha[alpha>0]);
print(b)
plotFit(data,label,alpha,b)

下载在这：github地址

总结

可以看到，svm的思路非常清晰，首先建模利用间隔最大对点进行分类，然后由此引出求最大间隔超平面的问题，进而将问题转换为求解凸二次规划的问题，引入拉格朗日乘子，在这里，为了处理离群点，引入了松弛变量，然后利用SMO求解该问题，即求得最优超平面。整个一气呵成，充分展现的数学之美。还要说的一点是，我只介绍了svm对线性可分的点进行分类，实际上，对于线性不可分的点，svm在引入核方法之后，也能有很好的性能。可以说核方法才是svm的精髓，大家有兴趣可以去深入学习。

参考资料:支持向量机通俗导论