吃瓜3.4 LDA 2023/12/18

線性判別分析 Linear Discriminant Analysis

1 PCA(主成分分析)與LDA

PCA與LDA都是一種降維的方法。
PCA僅關注方差最大的方向,
LDA關注對類別有區分能力的信息。

例:分類下圖中的兩種數據。如果使用PCA,則會尋找數據投影到哪個方向上方差最大,最后都會投影到下方的坐標軸上。兩種數據的投影幾乎完全重疊,無法區分。因此需要尋找投影后區分效果最好的方向。
注:PCA筆記尚未完成。


PCAvsLDA

LDA:

  • Fisher提出
  • 引入樣本類別信息
  • 目標:最大化類間方差和類內方差之比

2 算法

給定數據集D= \left \{ (\boldsymbol{x_i}, y_i ) \right \} _{i=1}^m, y_i \in \left \{ 0,1 \right \}
X_i, \mu_i, \varSigma_i分別表示i \in \left \{ 0,1 \right \}類示例的集合、均值向量、協方差矩陣。若將數據投影到直線w上,則兩類樣本中心在直線上的投影分別為w^T\mu_0w^T\mu_1,兩類樣本的協方差分別為w^T\varSigma_0ww^T\varSigma_1w
由于是把二維上的線投影到一維,所以以上四個值均為實數。

要選投影后區分效果最好的方向,也就是要在投影后,讓同類的協方差盡可能小(同類的要更聚集),異類的均值之間的距離盡可能大(不同類的要盡量分開)。讓盡可能大的做分子,另一個做分母,可得需要最大化的目標:
\begin{align*} J &= \frac {||w^T\mu_0-w^T\mu_1||_2^2}{w^T\varSigma_0w+w^T\varSigma_1w} \\ &= \frac {w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\varSigma_0+\varSigma_1)w} \end{align*}

  • ||w^T\mu_0-w^T\mu_1||_2^2中右下角的2指的是2范數。關于范數:
  1. https://zh-v2.d2l.ai/chapter_preliminaries/linear-algebra.html#id3中2.3.10
  2. https://ryannng.github.io/2016/12/23/%E5%90%91%E9%87%8F%E8%8C%83%E6%95%B0%E4%B8%8E%E7%9F%A9%E9%98%B5%E8%8C%83%E6%95%B0/

再定義類內散度矩陣
S_w = \varSigma_0 + \varSigma_1類間散度矩陣S_b = (\mu_0-\mu_1)(\mu_0-\mu_1)^T,則J = \frac{w^TS_bw}{w^TS_ww}稱作“廣義瑞利商”

由于上下都有w^Tw,故w的長度實際上并不影響式子的值,我們只需要考慮方向即可。又因為S_w, S_b都是定值,則可以令分母為1,轉化式子。

轉化

使用拉格朗日乘子法,可求出使J最大的w的方向。

得到w = S_w^{-1}(\mu_0 - \mu_1)
實際中為了數值穩定性,常對S_w進行奇異值分解來計算其逆。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容