SVM支持向量機(jī)

SVM是數(shù)據(jù)挖掘算法中比較復(fù)雜難懂的,反復(fù)觀看斯坦福機(jī)器學(xué)習(xí)的視頻, 以及網(wǎng)上零散學(xué)習(xí)各種數(shù)學(xué)和SVM相關(guān)資料, 對(duì)SVM還只能算有個(gè)粗淺的理解,寫(xiě)篇文章梳理下SVM的基本脈絡(luò),和大家分享下,有不正確之處請(qǐng)指正。

SVM介紹

SVM支持向量機(jī)(英文全稱(chēng):support vector machine)是一個(gè)分類(lèi)算法, 通過(guò)找到一個(gè)分類(lèi)平面, 將數(shù)據(jù)分隔在平面兩側(cè), 從而達(dá)到分類(lèi)的目的。
如下圖所示, 直線(xiàn)表示的是訓(xùn)練出的一個(gè)分類(lèi)平面, 將數(shù)據(jù)有效的分隔開(kāi)。


SVM分類(lèi)示意圖

SVM實(shí)現(xiàn)原理

SVM的分類(lèi)基本思路是找到一個(gè)分類(lèi)平面, 下面重點(diǎn)探討下如何找到這個(gè)平面。 先梳理下SVM求解的基本思路;

Paste_Image.png

如圖SVM的推導(dǎo)分為5個(gè)步驟:

  1. 用數(shù)學(xué)來(lái)定義要求解的問(wèn)題
    SVM是求解一個(gè)平面S:y = wx + b, 其實(shí)就是求解參數(shù)w, b。如何來(lái)求解w, b呢? 怎么判斷訓(xùn)練的w, b構(gòu)成的平面已經(jīng)足夠好呢? 這就需要把問(wèn)題建模成一個(gè)數(shù)學(xué)問(wèn)題(稱(chēng)為原始問(wèn)題),從而明確求解的目標(biāo)以及約束條件。

  2. 求解原始問(wèn)題轉(zhuǎn)換為二次凸函數(shù)+約束條件的優(yōu)化問(wèn)題
    原始問(wèn)題很難求解出參數(shù), 轉(zhuǎn)換為二次凸函數(shù)+約束條件的優(yōu)化問(wèn)題, 這種轉(zhuǎn)換保證兩個(gè)函數(shù)取最優(yōu)解時(shí),參數(shù)是相同的。做這種轉(zhuǎn)換的主要原因是二次凸函數(shù)和約束條件有成熟的計(jì)算方法和理論支撐(拉格朗日優(yōu)化理論)。

  3. 拉格朗日優(yōu)化+對(duì)偶特性構(gòu)建方程
    將w, b參數(shù)優(yōu)化轉(zhuǎn)換為對(duì)參數(shù)alpha的優(yōu)化(alpah為拉格朗日約束函數(shù)的參數(shù))

  4. SMO求解alpha最優(yōu)值
    通過(guò)上步構(gòu)建的方程, w, b可以通過(guò)alpha來(lái)表示。 SMO可以求解出alpha, 再通過(guò)alpha求出w,b。 到此平面的方程就可推導(dǎo)出來(lái)。

SVM的數(shù)學(xué)定義

SVM是要找到最合適的分類(lèi)平面, 那么怎么才算最合適的? 最直接的評(píng)估標(biāo)準(zhǔn):被分隔的兩邊數(shù)據(jù)距離平面間隔最大, 換句話(huà),SVM就是獲取最大間隔的超平面。下面介紹兩個(gè)衡量樣本到超平面間隔的定義。

  1. 函數(shù)間隔
    在超平面w * x + b = 0確定的情況下,|wx+b|表示點(diǎn)距離超平面的距離,而超平面作為二分類(lèi)器,如果wx+b>0, 判斷類(lèi)別y為1, 否則判定為-1。從而引出函數(shù)間隔的定義:
單樣本函數(shù)間隔

其中y是訓(xùn)練數(shù)據(jù)的類(lèi)標(biāo)記值, 如果y(w^T * x + b) >0說(shuō)明,預(yù)測(cè)的值和標(biāo)記的值相同, 分類(lèi)正確,而且值越大,說(shuō)明點(diǎn)離平面越遠(yuǎn),分類(lèi)的可靠程度更高。這是對(duì)單個(gè)樣本的函數(shù)定義, 對(duì)整個(gè)樣本集來(lái)說(shuō),要找到所有樣本中間隔值最小的作為整個(gè)集合的函數(shù)間隔:

整個(gè)數(shù)據(jù)集的函數(shù)間隔

即w和b同時(shí)縮小或放大M倍后,超平面并沒(méi)有變化,但是函數(shù)間隔跟著w和b變化。所以,需要加入約束條件使得函數(shù)間隔固定, 也就是下面介紹的幾何間隔。

2.幾何間隔
根據(jù)點(diǎn)到平面的距離公式和w*x+b=0平面公式, 推導(dǎo)得到幾何間隔定義:

Paste_Image.png

和函數(shù)間隔類(lèi)似, 為得到r的絕對(duì)值, 我們定義幾何間隔:在上述公式中乘以y值, 同時(shí)也得到與函數(shù)間隔的關(guān)系:幾何間隔就是函數(shù)間隔除以w的范式。

Paste_Image.png

為方便推導(dǎo)和優(yōu)化, 令函數(shù)間隔等于1得到最大間隔分類(lèi)器的原始定義:

Paste_Image.png

最大間隔分類(lèi)器就是我們求取的分類(lèi)超平面, 等于max(幾何間隔), 而函數(shù)間隔假設(shè)為1,就可得到最大間隔超平面: max(1/||w||), 而約束條件是因?yàn)楹瘮?shù)間隔是所有樣本點(diǎn)的間隔函數(shù)中最小值。

SVM的二次凸函數(shù)和約束條件

最大間隔分類(lèi)器的求解, 可以轉(zhuǎn)換為上面的一個(gè)最優(yōu)化問(wèn)題, 即在滿(mǎn)足約束條件:

Paste_Image.png

求出就最大的1/||w||。
為更好的利用現(xiàn)有的理論和計(jì)算方法, 可以將求解1/||w||最大值, 轉(zhuǎn)換為一個(gè)二次凸函數(shù)優(yōu)化問(wèn)題:求解 Min(1/2 * (||w||)^2 ), 兩者問(wèn)題是等價(jià)的。原來(lái)的問(wèn)題轉(zhuǎn)換為二次凸函數(shù)優(yōu)化問(wèn)題:

Paste_Image.png

拉格朗日構(gòu)建方程

在對(duì)二次凸函數(shù)進(jìn)行優(yōu)化前,先討論下對(duì)偶性問(wèn)題。 如下圖所示, 假設(shè)一個(gè)函數(shù)F(x,y) = f(x, y) + a * (g(x, y) - c), 橢圓線(xiàn)是f(x, y)在平面上的等高線(xiàn), 綠色是g(x, y)=c的軌跡。


拉格朗日

從圖上可以看出, F(x, y)的極值點(diǎn)肯定是f(x,y)和g(x,y)-c相切的點(diǎn), 這點(diǎn)上兩個(gè)曲線(xiàn)的法向量平行。從而可以得到如下結(jié)論:

Paste_Image.png

類(lèi)似的,可以將1/2 * ||w|| ^2優(yōu)化函數(shù)和約束條件結(jié)合起來(lái), 構(gòu)建一個(gè)函數(shù):

Paste_Image.png

其中ai是拉格朗日乘子。

利用對(duì)偶性的結(jié)論, 對(duì)L(w,b,a)關(guān)于w和b求偏導(dǎo)數(shù):


Paste_Image.png

將上面兩個(gè)等式,代入L(w, b, a)函數(shù),最終最大間隔分類(lèi)器優(yōu)化文件, 就轉(zhuǎn)換成如下定義(過(guò)程太過(guò)復(fù)雜,直接看下結(jié)論就可以), 注意這個(gè)公式中只涉及求解ai的極大值, 不涉及w, b參數(shù)的求解, 因?yàn)閣, b都可以用ai來(lái)表示, 求出ai后, 自然就求出了w,b的值。


Paste_Image.png

SMO算法求解alpha

上面推導(dǎo)的公式, 是通過(guò)SMO算法來(lái)求解的。最常見(jiàn)的是Platt SMO算法 , 這個(gè)算法是在1996年John Platt 發(fā)布的。SMO算法(Sequential Minimal Optimization)全稱(chēng)是最小序列優(yōu)化。SMO的基本思路類(lèi)似動(dòng)態(tài)規(guī)劃, 也是一種啟發(fā)式算法,它將原優(yōu)化問(wèn)題分解為多個(gè)小優(yōu)化問(wèn)題來(lái)求解,并且對(duì)這些小優(yōu)化問(wèn)題進(jìn)行順序求解得到的結(jié)果作為作為整體的結(jié)果。本文不詳細(xì)介紹, 后續(xù)文章更新。

后記:

  1. 本文大體梳理下SVM的推導(dǎo)求解過(guò)程, 但這個(gè)推導(dǎo)只針對(duì)線(xiàn)性的分類(lèi)超平面,非線(xiàn)性分類(lèi)超平面需要用到核函數(shù), 將低維線(xiàn)性不可分通過(guò)空間映射到高維, 從而變得線(xiàn)性可分。
  2. SMO的具體用法和實(shí)現(xiàn)代碼先記下, 有時(shí)間再更新。

介紹一篇比較總結(jié)比較好的文章:
http://mp.weixin.qq.com/s/Uha_MJQtJiWRhBuVW32y9g

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,885評(píng)論 6 541
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,312評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事?!?“怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 177,993評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 63,667評(píng)論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,410評(píng)論 6 411
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 55,778評(píng)論 1 328
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,775評(píng)論 3 446
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 42,955評(píng)論 0 289
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,521評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,266評(píng)論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,468評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,998評(píng)論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,696評(píng)論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 35,095評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 36,385評(píng)論 1 294
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,193評(píng)論 3 398
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,431評(píng)論 2 378

推薦閱讀更多精彩內(nèi)容