SVM就是尋找分割線
最佳分割線——最大化了到最近點的距離
最大化了于左右兩分類最近點的距離——間隔
最大化了于左右兩分類最近點的距離——最健壯
SVM的內部原理是最大限度地提升結果地穩健性
SVM—正確分類標簽作為首要考慮,,然后對間隔進行最大化
WechatIMG2880.jpeg
分類
from sklearn import svm
from sklearn.metrics import accuracy_score
feature_train,feature_test,labels_train,labels_test
clf=svm.SVC()
clf.fit(feature_train,labels_train)
pred=predict(feature_test)
accuracy_score(pred,labels_test)
新特征
WechatIMG6199.jpeg
SVM核技巧:獲取低維度輸入空間或特征空間并將其映射到極高維度空間的函數——過去不可線性分離的內容變為可分離問題
WechatIMG2881.jpeg
linear——線性核
rbf——徑向基函數(曲折核 )
poly——多項式
SVM的參數——核+C+y(gamma)
y越大決策邊界越曲折
C——控制光滑決策邊界與正確分類所有訓練點之間的折衷
C值越大可以得到更多的訓練點-更復雜的決策邊界——問題過擬合
控制過度擬合的問題,調核、C、y參數
SVM的優缺點:
優點——在具有復雜領域和明顯的分割邊界的情況下,表現十分出色
缺點——在海量數據集中,表現不太好
——噪音過多的情況下,效果也不太好
類嚴重重疊、需要考慮獨立證據時樸素貝葉斯分類器會更好
海量數據,特征很多的數據集不太適合SVM
有時用SVM時需要進行特征的縮放