SVM是數(shù)據(jù)挖掘算法中比較復(fù)雜難懂的,反復(fù)觀看斯坦福機(jī)器學(xué)習(xí)的視頻, 以及網(wǎng)上零散學(xué)習(xí)各種數(shù)學(xué)和SVM相關(guān)資料, 對(duì)SVM還只能算有個(gè)粗淺的理解,寫(xiě)篇文章梳理下SVM的基本脈絡(luò),和大家分享下,有不正確之處請(qǐng)指正。
SVM介紹
SVM支持向量機(jī)(英文全稱(chēng):support vector machine)是一個(gè)分類(lèi)算法, 通過(guò)找到一個(gè)分類(lèi)平面, 將數(shù)據(jù)分隔在平面兩側(cè), 從而達(dá)到分類(lèi)的目的。
如下圖所示, 直線(xiàn)表示的是訓(xùn)練出的一個(gè)分類(lèi)平面, 將數(shù)據(jù)有效的分隔開(kāi)。
SVM實(shí)現(xiàn)原理
SVM的分類(lèi)基本思路是找到一個(gè)分類(lèi)平面, 下面重點(diǎn)探討下如何找到這個(gè)平面。 先梳理下SVM求解的基本思路;
如圖SVM的推導(dǎo)分為5個(gè)步驟:
用數(shù)學(xué)來(lái)定義要求解的問(wèn)題
SVM是求解一個(gè)平面S:y = wx + b, 其實(shí)就是求解參數(shù)w, b。如何來(lái)求解w, b呢? 怎么判斷訓(xùn)練的w, b構(gòu)成的平面已經(jīng)足夠好呢? 這就需要把問(wèn)題建模成一個(gè)數(shù)學(xué)問(wèn)題(稱(chēng)為原始問(wèn)題),從而明確求解的目標(biāo)以及約束條件。求解原始問(wèn)題轉(zhuǎn)換為二次凸函數(shù)+約束條件的優(yōu)化問(wèn)題
原始問(wèn)題很難求解出參數(shù), 轉(zhuǎn)換為二次凸函數(shù)+約束條件的優(yōu)化問(wèn)題, 這種轉(zhuǎn)換保證兩個(gè)函數(shù)取最優(yōu)解時(shí),參數(shù)是相同的。做這種轉(zhuǎn)換的主要原因是二次凸函數(shù)和約束條件有成熟的計(jì)算方法和理論支撐(拉格朗日優(yōu)化理論)。拉格朗日優(yōu)化+對(duì)偶特性構(gòu)建方程
將w, b參數(shù)優(yōu)化轉(zhuǎn)換為對(duì)參數(shù)alpha的優(yōu)化(alpah為拉格朗日約束函數(shù)的參數(shù))SMO求解alpha最優(yōu)值
通過(guò)上步構(gòu)建的方程, w, b可以通過(guò)alpha來(lái)表示。 SMO可以求解出alpha, 再通過(guò)alpha求出w,b。 到此平面的方程就可推導(dǎo)出來(lái)。
SVM的數(shù)學(xué)定義
SVM是要找到最合適的分類(lèi)平面, 那么怎么才算最合適的? 最直接的評(píng)估標(biāo)準(zhǔn):被分隔的兩邊數(shù)據(jù)距離平面間隔最大, 換句話(huà),SVM就是獲取最大間隔的超平面。下面介紹兩個(gè)衡量樣本到超平面間隔的定義。
- 函數(shù)間隔
在超平面w * x + b = 0確定的情況下,|wx+b|表示點(diǎn)距離超平面的距離,而超平面作為二分類(lèi)器,如果wx+b>0, 判斷類(lèi)別y為1, 否則判定為-1。從而引出函數(shù)間隔的定義:
其中y是訓(xùn)練數(shù)據(jù)的類(lèi)標(biāo)記值, 如果y(w^T * x + b) >0說(shuō)明,預(yù)測(cè)的值和標(biāo)記的值相同, 分類(lèi)正確,而且值越大,說(shuō)明點(diǎn)離平面越遠(yuǎn),分類(lèi)的可靠程度更高。這是對(duì)單個(gè)樣本的函數(shù)定義, 對(duì)整個(gè)樣本集來(lái)說(shuō),要找到所有樣本中間隔值最小的作為整個(gè)集合的函數(shù)間隔:
即w和b同時(shí)縮小或放大M倍后,超平面并沒(méi)有變化,但是函數(shù)間隔跟著w和b變化。所以,需要加入約束條件使得函數(shù)間隔固定, 也就是下面介紹的幾何間隔。
2.幾何間隔
根據(jù)點(diǎn)到平面的距離公式和w*x+b=0平面公式, 推導(dǎo)得到幾何間隔定義:
和函數(shù)間隔類(lèi)似, 為得到r的絕對(duì)值, 我們定義幾何間隔:在上述公式中乘以y值, 同時(shí)也得到與函數(shù)間隔的關(guān)系:幾何間隔就是函數(shù)間隔除以w的范式。
為方便推導(dǎo)和優(yōu)化, 令函數(shù)間隔等于1得到最大間隔分類(lèi)器的原始定義:
最大間隔分類(lèi)器就是我們求取的分類(lèi)超平面, 等于max(幾何間隔), 而函數(shù)間隔假設(shè)為1,就可得到最大間隔超平面: max(1/||w||), 而約束條件是因?yàn)楹瘮?shù)間隔是所有樣本點(diǎn)的間隔函數(shù)中最小值。
SVM的二次凸函數(shù)和約束條件
最大間隔分類(lèi)器的求解, 可以轉(zhuǎn)換為上面的一個(gè)最優(yōu)化問(wèn)題, 即在滿(mǎn)足約束條件:
求出就最大的1/||w||。
為更好的利用現(xiàn)有的理論和計(jì)算方法, 可以將求解1/||w||最大值, 轉(zhuǎn)換為一個(gè)二次凸函數(shù)優(yōu)化問(wèn)題:求解 Min(1/2 * (||w||)^2 ), 兩者問(wèn)題是等價(jià)的。原來(lái)的問(wèn)題轉(zhuǎn)換為二次凸函數(shù)優(yōu)化問(wèn)題:
拉格朗日構(gòu)建方程
在對(duì)二次凸函數(shù)進(jìn)行優(yōu)化前,先討論下對(duì)偶性問(wèn)題。 如下圖所示, 假設(shè)一個(gè)函數(shù)F(x,y) = f(x, y) + a * (g(x, y) - c), 橢圓線(xiàn)是f(x, y)在平面上的等高線(xiàn), 綠色是g(x, y)=c的軌跡。
從圖上可以看出, F(x, y)的極值點(diǎn)肯定是f(x,y)和g(x,y)-c相切的點(diǎn), 這點(diǎn)上兩個(gè)曲線(xiàn)的法向量平行。從而可以得到如下結(jié)論:
類(lèi)似的,可以將1/2 * ||w|| ^2優(yōu)化函數(shù)和約束條件結(jié)合起來(lái), 構(gòu)建一個(gè)函數(shù):
其中ai是拉格朗日乘子。
利用對(duì)偶性的結(jié)論, 對(duì)L(w,b,a)關(guān)于w和b求偏導(dǎo)數(shù):
將上面兩個(gè)等式,代入L(w, b, a)函數(shù),最終最大間隔分類(lèi)器優(yōu)化文件, 就轉(zhuǎn)換成如下定義(過(guò)程太過(guò)復(fù)雜,直接看下結(jié)論就可以), 注意這個(gè)公式中只涉及求解ai的極大值, 不涉及w, b參數(shù)的求解, 因?yàn)閣, b都可以用ai來(lái)表示, 求出ai后, 自然就求出了w,b的值。
SMO算法求解alpha
上面推導(dǎo)的公式, 是通過(guò)SMO算法來(lái)求解的。最常見(jiàn)的是Platt SMO算法 , 這個(gè)算法是在1996年John Platt 發(fā)布的。SMO算法(Sequential Minimal Optimization)全稱(chēng)是最小序列優(yōu)化。SMO的基本思路類(lèi)似動(dòng)態(tài)規(guī)劃, 也是一種啟發(fā)式算法,它將原優(yōu)化問(wèn)題分解為多個(gè)小優(yōu)化問(wèn)題來(lái)求解,并且對(duì)這些小優(yōu)化問(wèn)題進(jìn)行順序求解得到的結(jié)果作為作為整體的結(jié)果。本文不詳細(xì)介紹, 后續(xù)文章更新。
后記:
- 本文大體梳理下SVM的推導(dǎo)求解過(guò)程, 但這個(gè)推導(dǎo)只針對(duì)線(xiàn)性的分類(lèi)超平面,非線(xiàn)性分類(lèi)超平面需要用到核函數(shù), 將低維線(xiàn)性不可分通過(guò)空間映射到高維, 從而變得線(xiàn)性可分。
- SMO的具體用法和實(shí)現(xiàn)代碼先記下, 有時(shí)間再更新。
介紹一篇比較總結(jié)比較好的文章:
http://mp.weixin.qq.com/s/Uha_MJQtJiWRhBuVW32y9g