前言
SVM
支持向量機(jī)(SVM)是一個(gè)有監(jiān)督的機(jī)器學(xué)習(xí)算法,可以用于分類和回歸分析,最主要是用于分類問題中。根據(jù)特征值,構(gòu)建一個(gè)n維空間(n為特征數(shù)量), 把每個(gè)數(shù)據(jù)點(diǎn)投影到此空間內(nèi)。
數(shù)據(jù)分類
查找一個(gè)超平面,把數(shù)據(jù)區(qū)分成兩類。算法輸出一個(gè)最佳超平面,用于數(shù)據(jù)分類。
最佳超平面:距離兩類數(shù)據(jù)最遠(yuǎn)的一個(gè)超平面。即此超平面到達(dá)最近元素的距離在所有超平面中是最遠(yuǎn)的。
調(diào)整參數(shù)
核函數(shù)(Kernel)
學(xué)習(xí)線性SVM的超平面就是通過線性代數(shù)轉(zhuǎn)化問題,這是核函數(shù)的功能。多項(xiàng)式和徑向基用于更高維度。
系數(shù)(Gamma)
系數(shù)定義了單個(gè)訓(xùn)練集合的影響程度。小的系數(shù)值,距離遠(yuǎn)的點(diǎn)也會(huì)用于計(jì)算,大的系數(shù)值,更多使用距離近的點(diǎn)。
正則化(Regularization)
對(duì)于較大值的此參數(shù),如果這個(gè)超平面可以更好的區(qū)分訓(xùn)練集合點(diǎn),最好選擇一個(gè)較小間距的超平面;相反的,對(duì)于非常小值的此參數(shù),需要使用更大的間距,即使此超平面誤區(qū)分更多的點(diǎn)。
間距(Margin)
間距指的是到最近點(diǎn)的分界線。
一個(gè)好的分解距離兩類數(shù)據(jù)更遠(yuǎn),且可以把一類的點(diǎn)區(qū)分開,而不需要穿過另外一個(gè)類。
初步筆記,將繼續(xù)整理豐富