从分类问题到超平面

支持向量机其实是一个多维空间中的二分类问题.

在二维平面内,如果想将两个类别分开,只需要找到一条直线就可以了,在直线一边是一类,在直线另一边是另一类.直线的公式为:

如果是三维空间,我们需要通过一个面来区分两个类,所以得到面的公式

推广到n维空间,需要用一个超平面来区分两个类别,超平面的公式为:

这个公式可以写成矩阵的转置与矩阵相乘,所以超平面的公式为

支持向量机就是寻找这样一个能够将两个类别分开的超平面.

距离平面最近的点被称为支持向量.

间隔

在超平面确定的情况下,可得点到平面的距离:

假设存在超平面能够对样本正确分类,设,有:

当样本为支持向量是取等号.

结合上面两个公式可得超平面两边的支持向量到超平面的距离之和为:

常量可以放到里面,即通过缩放消掉:

欲找到最大间隔的超平面,即:

以上优化相当于:

至此,我们已经将这个优化问题转换成为了一个带有约束条件的凸优化问题.已经可以通过一些算法,比如说梯度下降,来求的这个优化问题的解.

我们通过下图来理解一下此刻的优化问题.图中的点为函数f(x1,x2)的极致点,周围是等值线.h(x1,x2)为约束条件,优化问题的解为约束条件与等值线的切点.

但是,我们最开始是在数据是线性可分的条件下进行推导的.接下来让我们把这个优化问题推广到非线性.

低维空间到多维空间的映射

我们前面的讨论是在线性可分的前提下,也就是说可以通过一条线,或是一个平面将数据分开.那么如果数据是非线性的我们该如何区分两个类别呢?比如下面这幅图中的绿点和红点.

我们无法直接用一条直线来区分两种类别,那有没有什么方法可以区分出来两个类别呢?

我们发现x和y的积可以明显的区分出来这两种类别.我们新构造一个维度z,而各点在z轴方向的值为xy.于是一个二维的空间转换为一个三维空间.

在三维空间中,我们可以明显的用一个面来区分两个类别.

更通常的,当数据为非线性,我们希望能够得到一个函数,可以将数据映射到更高维空间,以期望在高维空间中线性可分.如果可以找到这样的那么只需要用替换我们在线性假设中的x,那么非线性的问题就可以解决了.

事实上,这样的是可以找到的,不过会有效率问题,上面的例子中,二维空间中的点为(x,y),我们新增纬度z,值为xy.现在我们把例子改一下,把所有点都改成三维空间中的点(x1,x2,x3),那么:

可以看出的时间复杂度为,n为数据的特征数.

这里有个更直观的例子,对于下面这些样本的分类:

SVM添加一个维度映射到高维空间后是这样的:

此时可以使用一个超平面将样本进行分割.在原空间看来决策平面是一个曲线:

多项式核函数

我们定义

将公式展开

可以转换成两个点乘的形式,而的复杂度为.

这里的称为核函数.

我们上面所使用的核核函数被称为多项式核函数,他的完整定义是这样的

多项式核函数会将n维的数据映射到维空间.

高斯核函数

另外一种比较常用的核函数是RBF核函数,也称作高斯核函数.

高斯核会将数据映射到无限维空间.

上述公式中

使用的是泰勒展开:

相当于无限个不同维的多项式核函数之和.多项式核函数可以将低维数据映射到高维,那么对于无限个不同维的多项式核函数之和当然是把数据映射到了无限维.

如果你想了解更多的核函数,可以参考这篇文章:Kernel Functions for Machine Learning Applications

拉格朗日对偶

如果我们能将公式(1)转化成包含的形式,那么就可以使用核函数替换优化函数中的,从而间接的替换为.我们会使用拉格朗日对偶完成这个转换.正因为我们是计算而间接计算了,所以我们可以用有限的时间计算无限维的数据.

对公式(1)构建优化问题的拉格朗日函数,这样我们就去掉了约束条件,使问题能用一个方程表达出来,方便求极值

优化过程先要求的最大值,然后再求与的最小值,即:

又是一个有约束条件的极值问题,不太好求,根据拉格朗日对偶:

当满足KKT条件的时候取等号,这个问题是满足KKT条件的,这里就不证明了,详情可以参考文章拉格朗日对偶,所以我们可以用对偶问题代替原问题:

的极值就是与导数为0的点.对与求偏导,得到:

将公式(3)(4)带入到公式(2),得到

这个时候已经得到我们想要的内积形式.

将公式(3)带入到超平面公式可以得到:

如果超平面的参数确定了,相当于超平面的方向确定了,b参数只相当于确定超平面的位置.

如图所示,我们想要的超平面是在这两条虚线中间,所以

图中在虚线上的点被称为支持向量,支持向量是距离超平面最近的点,其实超平面仅取决于支持向量,而其他数据对超平面的影响不大.

正则化与不可分情况

有时候数据即使映射到高维空间.也会出现不可分情况,或者某些噪点会使分类误差增大.

所以我们使用用L1正则化增加模型的容错率.之所以选择L1正则化是因为L1正则化产生稀疏性，使中许多项变成零。除了计算量上的好处之外,稀疏矩阵可以直接忽略掉对结果没有影响的特征.

转换为拉格朗日函数

对求导可以得到

所以

对偶问题为:

坐标上升算法

假设有一个函数,我们需要通过调整来找到函数函数的最大值.即

我们可以这样来求极值:

调整,找到函数最优值
调整,找到函数最优值
...
调整,找到函数最优值
调整,找到函数最优值
再调整,找到函数最优值
...
调整,找到函数最优值
...

如此循环几次,就可以找出函数的极值

顺序最小化优化(SMO)

坐标上升算法不能直接用于我们的优化问题,因为我们的优化函数有一个约束条件:

我们无法每次只调整一个并且服从这个约束条件.如果仅改变一个,累加和一定会改变.

所以SMO算法,每次调整两个.假设我们调整和,那么只要满足

就可以保证,如下图所示

最优解和都必须在[0,C]之间,而且最优解必须在直线上.所以我们可以得出

接下来把公式(7)带入到,得到:

而函数其实是关于的一个二次函数,可以转换成

这是一个关于二次函数,很容易求极值.所以这里有三种情况:
第一种情况,与直线的切点.这时候的最优解我们取H.

第二种情况,与直线的切点在.这时候的最优解我们取切点的值.

第三种情况,与直线的切点.这时候的最优解我们取L.

综上

最终,重复这种方法即可计算出所有的.带入到公式(5)即可求出超平面方程.

参考:

http://cs229.stanford.edu/notes/cs229-notes3.pdf
http://www.hanlongfei.com/convex/2015/11/05/duality/
拉格朗日乘数
如何通俗地讲解对偶问题？尤其是拉格朗日对偶lagrangian duality？
机器学习有很多关于核函数的说法，核函数的定义和作用是什么？
http://cn-static.udacity.com/mlnd/videos/Kernel.mp4

支持向量机(SVM)