支持向量機(Support Vector Machines-SVM)算法筆記(二)-scikit learn

哈嘍,最近出差比較多,學習放緩,捂臉中...今天主要說一些scikit-learn中支持向量機SVM相關的算法模型。基于支持向量(support vector),scikit-learn主要是包含s三大方面:分類(Classification,SVCNuSVCLinearSVC)回歸(Regression,SVRNuSVRLinearSVR)、異常檢測(Outliers detection)。

1、SVM多種分類時的兩種分類方法

首先,需要說明,前幾篇SVM方法都是針對二分類問題(r如前幾篇中的-1和1,支持向量機(Support Vector Machines-SVM)算法筆記(一)-Python支持向量機SVM-補充完整SMO算法應用(二)-Python),但是,很多時候,往往存在很多類,這時候,sklearn中的SVM模型方法主要有兩類分類方式:'one-against-one'和'one-vs-the-rest'(這個也叫'one-vs-all'),具體說明如下:

one-vs-the-rest(one-vs-all)->>訓練時依次把某個類別的樣本歸為一類,其他剩余的樣本歸為另一類,這樣k個類別的樣本就構造出了k個SVM。分類時將未知樣本分類為具有最大分類函數值的那類,具體見圖1

圖1 one-vs-the-rest分類示意圖

如圖1所示,假如有三類要劃分,他們是A、B、C。于是我在抽取訓練集的時候,分別抽取:1)A所對應的向量作為正集,B,C所對應的向量作為負集;2)B所對應的向量作為正集,A,C所對應的向量作為負集;3)C所對應的向量作為正集,A,B所對應的向量作為負集;使用這三個訓練集分別進行訓練,然后的得到三個訓練結果文件。在測試的時候,把對應的測試向量分別利用這三個訓練結果文件進行測試。最后每個測試都有一個結果f1(x),f2(x),f3(x)。于是最終的結果便是這三個值中最大的一個作為分類結果。這種方法有種缺陷,因為訓練集是1:M,這種情況下存在偏見.因而不是很實用。可以在抽取數據集的時候,從完整的負集中再抽取三分之一作為訓練負集。

one-vs-one(one-against-one)->>其做法是在任意兩類樣本之間設計一個SVM,因此k個類別的樣本就需要設計k(k-1)/2個SVM。當對一個未知樣本進行分類時,最后得票最多的類別即為該未知樣本的類別。假設有四類A,B,C,D四類。在訓練的時候我選擇A,B; A,C; A,D; B,C; B,D;C,D所對應的向量作為訓練集,然后得到六個訓練結果,在測試的時候,把對應的向量分別對六個結果進行測試,然后采取投票形式,最后得到一組結果。投票是這樣的:A=B=C=D=0;(A,B)-classifier 如果是A win,則A=A+1;otherwise,B=B+1;(A,C)-classifier 如果是A win,則A=A+1;otherwise, C=C+1;(C,D)-classifier 如果是A win,則C=C+1;otherwise,D=D+1;

最終的結果是A、B、C、D這四個數值中最大的。這種方法雖然好,但是當類別很多的時候,model的個數是n*(n-1)/2,代價還是相當大的。

在sklearn中的多類分類問題中,SVCNuSVC采用'one-against-one'(即在模型中采用multi_class='ovo'),LinearSVC采用'one-vs-the-rest'多類分類機制(即在模型中采用multi_class='ovr')。

2、SVM核函數

sklearn中的SVM模型涉及的核函數主要如下圖2所示:

圖2 sklearn中SVM不同核函數

3、SVC核心算法模型

圖3 sklearn中SVC算法模型

其實,該算法模型是對應于支持向量機(Support Vector Machines-SVM)算法筆記(一)-Python提到的線性支持向量機,引入了松弛因子。

好噠,簡單介紹到這里,接下來,將結合具體的例子來看看SVCNuSVCLinearSVC的應用。

4、SVC

class sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape=None, random_state=None)

1)該模型是基于線性支持向量機,時間復雜度是n^2(n表示樣本數目),因此樣本數不要超過10000;2)decision_function_shape ->> ‘ovo’, ‘ovr’ or None, default=None;

5、NuSVC

class sklearn.svm.NuSVC(nu=0.5, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape=None, random_state=None)

圖4 NuSVM舉例
圖5 基于NuSVM的分類效果圖

6、LinearSVC

class sklearn.svm.LinearSVC(penalty='l2', loss='squared_hinge', dual=True, tol=0.0001, C=1.0, multi_class='ovr', fit_intercept=True, intercept_scaling=1, class_weight=None, verbose=0, random_state=None, max_iter=1000)

下面這個實例對比了SVM中采用不同的核函數以及LinearSVC算法的分類效果:

圖6 對比SVM不同方法的實例-代碼
圖7 對比SVM不同方法的實例-效果圖

針對上面的實驗結果,在sklearn中提到了下面的解釋:

圖8 實驗結果對比說明

在比較SVM(linear kernel)和LinearSVC,提到了hinge loss function(合頁損失函數),這是個啥東東呢?好吧,再簡單學學機器學習里的損失函數的概念。

在機器學習中,損失函數(loss function)是用來估算模型的預測值(f(x))與真實值y的不一致程度,一般可以表示為如圖9所示的經驗風險損失項(loss term)和正則化項(regularization term)(關于為什么是這樣的和的形式,我感覺監督學習過程的本質目的-誤差函數(Loss Function)講的淺不錯),損失函數越小,模型的魯棒性越好(損失函數的內容參考自Loss functions; a unifying view):

圖9 損失函數(loss function)模型表示

其中,Loss term(L(m_i(w)))主要包含以下形式:Gold Standard(ideal case,也叫做0-1損失函數)、合頁損失函數(Hinge loss function,主要是應用在SVM中,在線性支持向量機中,軟間隔)、對數損失函數(log loss function,也叫做交叉熵損失函數(cross-entropy loss),主要是應用在logistic regression)、平方損失函數(squared loss function,主要是線性回歸中)、指數損失函數(主要應用在Boosting等學習算法中),簡介如下:

其中,m_i的存在表示的意義是:如果預估值和實際值同號,那么估計很可能是正確的;如果預估值和實際值符號不同,那么肯定錯誤,因此,Gold Standard(L_01)提出了如下的函數:

1)Gold Standard(L_01):

圖10 Gold Standard(L_01)

2)合頁損失函數(Hinge loss function)(這個主要是在線性SVM中,由于存在軟間隔,所以損失函數稱為合頁損失函數):

圖11 合頁損失函數(hinge loss function)

3)對數損失函數(log loss function)(主要是在logistic regression應用):

圖12 對數損失函數(以logistic regression為例)

4)平方損失函數(squared loss term):

圖13 平方損失函數

5)指數損失函數(exponential loss term):

圖14 指數損失函數

將上述所提到的損失函數的圖像表示在圖15中,具體如下:

圖15 損失函數圖像

圖例說明:Gold Standard(L_01)-》藍色曲線;合頁損失函數(Hinge loss function)-》紅色曲線;對數損失函數(log loss function)-》黃色曲線;平方損失函數(squared loss term)-》黑色曲線;指數損失函數(exponential loss term)-》綠色曲線

從上面的紅色曲線來看,合頁函數在m=1處沒有導數,為了便于后續函數可能涉及到的優化,將其變為平方合頁函數,其中的一種平方合頁函數見圖16,來自于維基百科

圖16 平方合頁函數(維基百科)

此處遺留一個問題,關于合頁函數的:針對圖8提出的對比說明,'squared hinge loss'和'regular hinge loss'在SVM分類中產生的不同影響是什么?

敬請懂得大神指點,非常感謝~~

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,443評論 6 532
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,530評論 3 416
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,407評論 0 375
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,981評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,759評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,204評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,263評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,415評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,955評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,782評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,983評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,528評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,222評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,650評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,892評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,675評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,967評論 2 374

推薦閱讀更多精彩內容