LSDA

LDA

PCA,ICA,對于樣本數據來言,可以是沒有類別標簽y的。

線性判別分析(二類情況)y=1或y=0,給定特征為d維的N個樣例,我們覺得原始特征數太多,想將d維特征降到只有一維,而又要保證類別能夠清晰地反應在低維數據上,也就是這一維就能決定每個樣例的類別。
假設x是2維的,我們就要找一條直線(方向為w)來做投影,尋找最能使樣本點分離的直線。

圖一 使樣本點分離的直線

?右圖比較好,可以很好地將不同類別的樣本點分離。
?從定量的角度來尋找最佳的w。



1.尋找每類樣本的均值(中心點:


圖二 每類樣本的中心點

由x到w投影后的樣本點均值為:
投影后的樣本點均值

可知,投影后的均值即樣本中心點的投影。
2.最佳的直線的確定:投影后的兩類樣本中心點盡量分離。


J(w)越大越好,同時還要考慮樣本點之間的方差,方差越大,樣本點越難以分離。
?使用另外一個度量值,稱作散列值,對投影后的類求散列值,如下:

散列值

?可以看出,散列值的幾何意義是樣本點的密集程度,值越大,越分散,反之,越集中。
?所以,最終的度量公式是:


我們只需要尋找使J(w)最大的w即可。


公式推導


前面是針對只有兩個類的情況,假設類別變成多個了,一維可能已經不能滿足要求,假設有C個類別,需要k維向量(基向量)來做投影。


最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 注:題中所指的『機器學習』不包括『深度學習』。本篇文章以理論推導為主,不涉及代碼實現。 前些日子定下了未來三年左右...
    我偏笑_NSNirvana閱讀 40,144評論 12 145
  • 本文結構: 什么是 LDA 和 PCA 區別 LDA 投影的計算過程 LDA 降維的例子 1. 什么是 LDA 先...
    不會停的蝸牛閱讀 7,090評論 0 20
  • 轉自:主成分分析 - xiaoyu714543065的專欄 - 博客頻道 - CSDN.NET 問題...
    horu閱讀 1,245評論 1 3
  • 心理脆弱,容易受傷的人,將被歷史淘汰。 挫折很重要,而你的想法更重要。因為傷害人最深的往往不是挫折本身,是你的想法...
    樂為閱讀 231評論 0 1
  • 當你開始習慣在依靠空調降溫的城市生活時;當你開始認為綠水青山只會出現在畫卷里時;當你正頂著高樓大廈一樣的壓...
    枝然閱讀 553評論 13 9