.感知机:感知机的模型就是尝试找到一条直线,能够把位于一个平台上所有的男孩和女孩隔离开。放到三位或者更高维空间,感知机的模型就是尝试找到一个超平面,把所有的二元类别隔离开。如果找不到这样的直线,那就说明感知机模型不合适,感知机应用于线性可分。
感知机的话他的解不是唯一的,只要能把两类分开即可,在实际应用中感知机的对偶形式比原始问题运算要快的多
损失函数的优化目标,就是期望使误分类的所有样本,到超平面的距离之和最小。 对每一个分错的点到超平面的距离 −y(i)θ∙x(i)/||θ||2,
我们假设所有误分类的点的集合为M,则所有误分类的样本到超平面的距离之和为:
−∑xi∈My(i)θ∙x(i)/||θ||2
分子和分母都含有θ,当分子的θ扩大N倍时,分母的L2范数也会扩大N倍。也就是说,分子和分母有固定的倍数关系。那么我们可以固定分子或者分母为1,然后求另一个即分子自己或者分母的倒数的最小化作为损失函数,这样可以简化我们的损失函数。在感知机模型中,我们采用的是保留分子,最终感知机模型的损失函数简化为:
J(θ)=−∑xi∈My(i)θ∙x(i)
模型优化:可以使用梯度下降法或者牛顿法,常使用梯度下降法
其实在求解机器学习里的模型参数,即无约束优化问题时,梯度下降经常使用,还有一种就是最小二乘法
梯度:在微积分里,对多元函数的参数求偏导,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。几何意义来说媒体度向量就是函数变化增加最快的地方,
例子:对于函数f(x,y),在点(x0,y0),沿着梯度向量的方向就是(∂f/∂x0, ∂f/∂y0)T的方向是f(x,y)增加最快的地方。或者说,沿着梯度向量的方向,更加容易找到函数的最大值。反过来说,沿着梯度向量相反的方向,也就是 -(∂f/∂x0, ∂f/∂y0)T的方向,梯度减少最快,也就是更加容易找到函数的最小值。
偏差<