哈嘍,最近出差比較多,學習放緩,捂臉中...今天主要說一些scikit-learn中支持向量機SVM相關的算法模型。基于支持向量(support vector),scikit-learn主要是包含s三大方面:分類(Classification,SVC、NuSVC、LinearSVC)回歸(Regression,SVR、NuSVR、LinearSVR)、異常檢測(Outliers detection)。
1、SVM多種分類時的兩種分類方法
首先,需要說明,前幾篇SVM方法都是針對二分類問題(r如前幾篇中的-1和1,支持向量機(Support Vector Machines-SVM)算法筆記(一)-Python,支持向量機SVM-補充完整SMO算法應用(二)-Python),但是,很多時候,往往存在很多類,這時候,sklearn中的SVM模型方法主要有兩類分類方式:'one-against-one'和'one-vs-the-rest'(這個也叫'one-vs-all'),具體說明如下:
one-vs-the-rest(one-vs-all)->>訓練時依次把某個類別的樣本歸為一類,其他剩余的樣本歸為另一類,這樣k個類別的樣本就構造出了k個SVM。分類時將未知樣本分類為具有最大分類函數值的那類,具體見圖1
如圖1所示,假如有三類要劃分,他們是A、B、C。于是我在抽取訓練集的時候,分別抽取:1)A所對應的向量作為正集,B,C所對應的向量作為負集;2)B所對應的向量作為正集,A,C所對應的向量作為負集;3)C所對應的向量作為正集,A,B所對應的向量作為負集;使用這三個訓練集分別進行訓練,然后的得到三個訓練結果文件。在測試的時候,把對應的測試向量分別利用這三個訓練結果文件進行測試。最后每個測試都有一個結果f1(x),f2(x),f3(x)。于是最終的結果便是這三個值中最大的一個作為分類結果。這種方法有種缺陷,因為訓練集是1:M,這種情況下存在偏見.因而不是很實用。可以在抽取數據集的時候,從完整的負集中再抽取三分之一作為訓練負集。
one-vs-one(one-against-one)->>其做法是在任意兩類樣本之間設計一個SVM,因此k個類別的樣本就需要設計k(k-1)/2個SVM。當對一個未知樣本進行分類時,最后得票最多的類別即為該未知樣本的類別。假設有四類A,B,C,D四類。在訓練的時候我選擇A,B; A,C; A,D; B,C; B,D;C,D所對應的向量作為訓練集,然后得到六個訓練結果,在測試的時候,把對應的向量分別對六個結果進行測試,然后采取投票形式,最后得到一組結果。投票是這樣的:A=B=C=D=0;(A,B)-classifier 如果是A win,則A=A+1;otherwise,B=B+1;(A,C)-classifier 如果是A win,則A=A+1;otherwise, C=C+1;(C,D)-classifier 如果是A win,則C=C+1;otherwise,D=D+1;
最終的結果是A、B、C、D這四個數值中最大的。這種方法雖然好,但是當類別很多的時候,model的個數是n*(n-1)/2,代價還是相當大的。
在sklearn中的多類分類問題中,SVC、NuSVC采用'one-against-one'(即在模型中采用multi_class='ovo'),LinearSVC采用'one-vs-the-rest'多類分類機制(即在模型中采用multi_class='ovr')。
2、SVM核函數
sklearn中的SVM模型涉及的核函數主要如下圖2所示:
3、SVC核心算法模型
其實,該算法模型是對應于支持向量機(Support Vector Machines-SVM)算法筆記(一)-Python提到的線性支持向量機,引入了松弛因子。
好噠,簡單介紹到這里,接下來,將結合具體的例子來看看SVC、NuSVC、LinearSVC的應用。
4、SVC
class sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape=None, random_state=None)
1)該模型是基于線性支持向量機,時間復雜度是n^2(n表示樣本數目),因此樣本數不要超過10000;2)decision_function_shape ->> ‘ovo’, ‘ovr’ or None, default=None;
5、NuSVC
class sklearn.svm.NuSVC(nu=0.5, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape=None, random_state=None)
class sklearn.svm.LinearSVC(penalty='l2', loss='squared_hinge', dual=True, tol=0.0001, C=1.0, multi_class='ovr', fit_intercept=True, intercept_scaling=1, class_weight=None, verbose=0, random_state=None, max_iter=1000)
下面這個實例對比了SVM中采用不同的核函數以及LinearSVC算法的分類效果:
針對上面的實驗結果,在sklearn中提到了下面的解釋:
在比較SVM(linear kernel)和LinearSVC,提到了hinge loss function(合頁損失函數),這是個啥東東呢?好吧,再簡單學學機器學習里的損失函數的概念。
在機器學習中,損失函數(loss function)是用來估算模型的預測值(f(x))與真實值y的不一致程度,一般可以表示為如圖9所示的經驗風險損失項(loss term)和正則化項(regularization term)(關于為什么是這樣的和的形式,我感覺監督學習過程的本質目的-誤差函數(Loss Function)講的淺不錯),損失函數越小,模型的魯棒性越好(損失函數的內容參考自Loss functions; a unifying view):
其中,Loss term(L(m_i(w)))主要包含以下形式:Gold Standard(ideal case,也叫做0-1損失函數)、合頁損失函數(Hinge loss function,主要是應用在SVM中,在線性支持向量機中,軟間隔)、對數損失函數(log loss function,也叫做交叉熵損失函數(cross-entropy loss),主要是應用在logistic regression)、平方損失函數(squared loss function,主要是線性回歸中)、指數損失函數(主要應用在Boosting等學習算法中),簡介如下:
其中,m_i的存在表示的意義是:如果預估值和實際值同號,那么估計很可能是正確的;如果預估值和實際值符號不同,那么肯定錯誤,因此,Gold Standard(L_01)提出了如下的函數:
1)Gold Standard(L_01):
2)合頁損失函數(Hinge loss function)(這個主要是在線性SVM中,由于存在軟間隔,所以損失函數稱為合頁損失函數):
3)對數損失函數(log loss function)(主要是在logistic regression應用):
4)平方損失函數(squared loss term):
5)指數損失函數(exponential loss term):
將上述所提到的損失函數的圖像表示在圖15中,具體如下:
圖例說明:Gold Standard(L_01)-》藍色曲線;合頁損失函數(Hinge loss function)-》紅色曲線;對數損失函數(log loss function)-》黃色曲線;平方損失函數(squared loss term)-》黑色曲線;指數損失函數(exponential loss term)-》綠色曲線
從上面的紅色曲線來看,合頁函數在m=1處沒有導數,為了便于后續函數可能涉及到的優化,將其變為平方合頁函數,其中的一種平方合頁函數見圖16,來自于維基百科:
此處遺留一個問題,關于合頁函數的:針對圖8提出的對比說明,'squared hinge loss'和'regular hinge loss'在SVM分類中產生的不同影響是什么?
敬請懂得大神指點,非常感謝~~