參考??:http://blog.csdn.net/passball/article/details/7661887/?
一、線性分類器
1、超平面 g(x)=<w,x>+b
2、線性可分:如果一個線性函數能夠將樣本完全正確的分開,就稱這些數據是線性可分的,否則稱為非線性可分的。
3、對于g(x)=<w,x>+b
? ? (1)x不是二維坐標系中的橫軸,而是樣本的向量表示,例如一個樣本點的坐標是(3,8),則xT=(3,8) ,而不是x=3(一般說向量都是說列向量,因此以行向量形式來表示時,就加上轉置)
? ? (2)g(x)不是中間那條直線的表達式,中間那條直線的表達式是g(x)=0,即wx+b=0,我們也把這個函數叫做分類面。實際上很容易看出來,中間那條分界線并不是唯一的,我們把它稍微旋轉一下,只要不把兩類數據分錯,仍然可以達到上面說的效果,稍微平移一下,也可以。此時就牽涉到一個問題,對同一個問題存在多個分類函數的時候,哪一個函數更好呢?顯然必須要先找一個指標來量化“好”的程度,通常使用的都是叫做“分類間隔”的指標。
4、一個樣本點到某個超平面的間隔:δi=yi(wxi+b)
5、幾何間隔:δj=|(wxi+b)|/||w||
6、可以看出δ=||w||δ幾何。注意到幾何間隔與||w||是成反比的,因此最大化幾何間隔與最小化||w||完全是一回事。而我們常用的方法并不是固定||w||的大小而尋求最大幾何間隔,而是固定間隔(例如固定為1),尋找最小的||w||。
7、最大化幾何距離-》最小化||w||-》最小化1/2||w||^2
之所以采用這種形式,是因為后面的求解過程會對目標函數作一系列變換,而? 1/2||w||^2 的形式會使變換后的形式更為簡潔(正如聰明的讀者所料,添加的系數二分之一和平方,皆是為求導數所需)。
8、如果直接來解這個求最小值問題,很容易看出當||w||=0的時候就得到了目標函數的最小值。但是你也會發現,無論你給什么樣的數據,都是這個解!反映在圖中,就是H1與H2兩條直線間的距離無限大,這個時候,所有的樣本點(無論正樣本還是負樣本)都跑到了H1和H2中間,而我們原本的意圖是,H1右側的被分為正類,H2 左側的被分為負類,位于兩類中間的樣本則拒絕分類(拒絕分類的另一種理解是分給哪一類都有道理,因而分給哪一類也都沒有道理)。這下可好,所有樣本點都進入了無法分類的灰色地帶。
造成這種結果的原因是在描述問題的時候只考慮了目標,而沒有加入約束條件,約束條件就是在求解過程中必須滿足的條件,體現在我們的問題中就是樣本點必須在H1或H2的某一側(或者至少在H1和H2上),而不能跑到兩者中間。我們前文提到過把間隔固定為1,這是指把所有樣本點中間隔最小的那一點的間隔定為1(這也是集合的間隔的定義,有點繞嘴),也就意味著集合中的其他點間隔都不會小于1,按照間隔的定義,滿足這些條件就相當于讓下面的式子總是成立:yi[(w·xi)+b]≥1 (i=1,2,…,l) (l是總的樣本數)
9、因而我們的兩類分類問題也被我們轉化成了它的數學形式,一個帶約束的最小值的問題:ob: min(1/2||w||^2),st:yi[(w·xi)+b]≥1 (i=1,2,…,l) (l是總的樣本數)
在這個問題中,自變量就是w,而目標函數是w的二次函數,所有的約束條件都是w的線性函數,是一個凸二次規劃,有全局最優解。
10、我們想求得這樣一個線性函數(在n維空間中的線性函數):
g(x)=wx+b
使得所有屬于正類的點x+代入以后有g(x+)≥1,而所有屬于負類的點x-代入后有g(x-)≤-1(之所以總跟1比較,無論正一還是負一,都是因為我們固定了間隔為1,注意間隔和幾何間隔的區別)。代入g(x)后的值如果在1和-1之間,我們就拒絕判斷。求這樣的g(x)的過程就是求w(一個n維向量)和b(一個實數)兩個參數的過程(但實際上只需要求w,求得以后找某些樣本點代入就可以求得b)。因此在求g(x)的時候,w才是變量。
w不僅跟樣本點的位置有關,還跟樣本的類別有關,w可以表示為樣本和類別的某種組合:w=α1y1x1+α2y2x2+…+αnynxn
正在上傳...取消重新上傳

則:
正在上傳...取消重新上傳

x才是變量,進一步:
正在上傳...取消重新上傳

二、核函數:
解決線性不可分問題的基本思路——向高維空間轉化,使其變得線性可分。
如果有這樣的函數,那么當給了一個低維空間的輸入x以后
g(x)=K(w,x)+b
f(x’)=<w',x'>+b
三、懲罰因子(松弛變量):
(允許一些點到分類平面的距離不滿足原先的要求)
正在上傳...取消重新上傳

原來的優化問題變為:
正在上傳...取消重新上傳

需要注意的幾點:
? ? 1、并非所有的樣本點都有一個松弛變量與其對應。實際上只有“離群點”才有,或者也可以這么看,所有沒離群的點松弛變量都等于0(對負類來說,離群點就是在前面圖中,跑到H2右側的那些負樣本點,對正類來說,就是跑到H1左側的那些正樣本點)。
? ? 2、松弛變量的值實際上標示出了對應的點到底離群有多遠,值越大,點就越遠。
? ? 3、懲罰因子C決定了有多重視離群點帶來的損失。C越大,對目標函數的損失也越大,此時就暗示著你非常不愿意放棄這些離群點,最極端的情況是你把C定為無限大,這樣只要稍有一個點離群,目標函數的值馬上變成無限大,馬上讓問題變成無解,這就退化成了硬間隔問題。
? ??