一支持向量機

1 算法原理

從幾何角度，對于線性可分數據集，支持向量機就是找距離正負樣本都最遠的超平面。相比于感知機，解是唯一的，且不偏不倚，泛化性能最好。
設劃分超平面是 $\boldsymbol{w}^T\boldsymbol{x}+b=0$ ，則任何一個點到超平面的距離就是 $r=\frac{|\boldsymbol{w}^T\boldsymbol{x}+b|}{||\boldsymbol{w}||}$ （推導：https://finisky.github.io/2020/02/24/pointtohyperplane/）
即， $|\boldsymbol{w}^T\boldsymbol{x}+b| = r||\boldsymbol{w}||$ 設能夠全部正確分類樣本，即對所有 $y_i=+1, \boldsymbol{w}^T\boldsymbol{x}+b>0$ ， $y_i=-1, \boldsymbol{w}^T\boldsymbol{x}+b<0$ 。

定義幾何間隔：
$\gamma_i = \frac{y_i(\boldsymbol{w}^T\boldsymbol{x}+b)}{||\boldsymbol{w}||}$ 則分類正確， $\gamma_i$ 大于0，反之則小于0。

對于給定數據集 $X$ 和超平面，定義數據集關于超平面的幾何間隔為：所有樣本點的幾何間隔的最小值。
$\gamma = \min_{i=1,2,...,m} \gamma_i$

2 模型

在上文所述的分類中， $y_i$ 為+1或者-1。支持向量機要求的是數據集X關于超平面的幾何間隔達到最大的那個超平面。
——為什么幾何間隔最大的就是距離正負樣本都最遠的？

沒有正確劃分時，幾何間隔最小的是誤分類點， $\gamma<0$
正確劃分時， $\gamma$ 非負，且越靠近兩類中央 $\gamma$ 越大，在正中間的最大。

3 策略

設 $\boldsymbol{x}_{min},y_{min}$ 是使得幾何間隔最小的樣本。
轉化

不妨令分子等于1，因為使其為1的

\alpha

有且僅有一個。
轉化

把最大化改成最小化，把大于等于改成小于等于。
繼續變換

使用拉格朗日對偶求解，轉化為對偶問題這個凸優化問題，更容易求解。過程詳見南瓜書。

原始問題的時間復雜度和特征維數成正比，而對偶問題的時間復雜度和數據量成正比。

二軟間隔

1 算法原理

在線性不可分的任務中，允許支持向量機犯錯

允許部分樣本不滿足

中的約束條件。

將必須嚴格執行的約束條件轉化為具有一定靈活性的“損失”。

2 模型

合格損失函數的要求如下：

當滿足約束條件時，損失為0
當不滿足約束條件時，損失不為0
（可選）當不滿足約束條件時，損失與其違反約束條件的程度成正比

3 策略

軟間隔：
$\min_{\boldsymbol{w},b} \frac{1}{2}||\boldsymbol{w}||^2 + C \sum_{i=1}^m l_{0/1} (y_i(\boldsymbol{w}^T\boldsymbol{x}_i+b)-1)$ 其中 $C>0$ 是一個常數，來調節損失的權重。