LDA
PCA,ICA,對于樣本數據來言,可以是沒有類別標簽y的。
線性判別分析(二類情況)y=1或y=0,給定特征為d維的N個樣例,我們覺得原始特征數太多,想將d維特征降到只有一維,而又要保證類別能夠清晰地反應在低維數據上,也就是這一維就能決定每個樣例的類別。
假設x是2維的,我們就要找一條直線(方向為w)來做投影,尋找最能使樣本點分離的直線。
圖一 使樣本點分離的直線
?右圖比較好,可以很好地將不同類別的樣本點分離。
?從定量的角度來尋找最佳的w。
1.尋找每類樣本的均值(中心點:
圖二 每類樣本的中心點
由x到w投影后的樣本點均值為:
投影后的樣本點均值
可知,投影后的均值即樣本中心點的投影。
2.最佳的直線的確定:投影后的兩類樣本中心點盡量分離。
。
J(w)越大越好,同時還要考慮樣本點之間的方差,方差越大,樣本點越難以分離。
?使用另外一個度量值,稱作散列值,對投影后的類求散列值,如下:
散列值
?可以看出,散列值的幾何意義是樣本點的密集程度,值越大,越分散,反之,越集中。
?所以,最終的度量公式是:
我們只需要尋找使J(w)最大的w即可。
公式推導
前面是針對只有兩個類的情況,假設類別變成多個了,一維可能已經不能滿足要求,假設有C個類別,需要k維向量(基向量)來做投影。