【西瓜書】第10章 降維與度量學習

這一章內容感覺有點難,涉及到很多關于矩陣運算的內容,書中對KNN的內容沒有過多的描述,在筆記中先將矩陣運算的一些公式進行搬運,而后直接從第二部分,低維嵌入開始

線性降維方法

PCA 主成分分析

基本思想:構造原變量的一系列線性組合形成幾個綜合指標,以去除數據的相關性,并使低維數據最大程度保持原始高維數據的方差信息。

主成分個數的確定:

? ? 貢獻率:第i個主成分的方差在全部方差中所占比重,反映第i個主成分所提取的總信息的份額。

? ? 累計貢獻率:前k個主成分在全部方差中所占比重

? ? 主成分個數的確定:累計貢獻率>0.85

PCA(Principal Component Analysis),即主成分分析方法,是一種使用最廣泛的數據降維算法。PCA的主要思想是將n維特征映射到k維上,這k維是全新的正交特征也被稱為主成分,是在原有n維特征的基礎上重新構造出來的k維特征。PCA的工作就是從原始的空間中順序地找一組相互正交的坐標軸,新的坐標軸的選擇與數據本身是密切相關的。其中,第一個新坐標軸選擇是原始數據中方差最大的方向,第二個新坐標軸選取是與第一個坐標軸正交的平面中使得方差最大的,第三個軸是與第1,2個軸正交的平面中方差最大的。依次類推,可以得到n個這樣的坐標軸。通過這種方式獲得的新的坐標軸,我們發現,大部分方差都包含在前面k個坐標軸中,后面的坐標軸所含的方差幾乎為0。于是,我們可以忽略余下的坐標軸,只保留前面k個含有絕大部分方差的坐標軸。事實上,這相當于只保留包含絕大部分方差的維度特征,而忽略包含方差幾乎為0的特征維度,實現對數據特征的降維處理。

相關系數矩陣or協方差陣?

當涉及變量的量綱不同或取值范圍相差較大的指標時,應考慮從相關系數矩陣出發進行主成分分析;

對同度量或取值范圍相差不大的數據,從協方差陣出發.

相關系數矩陣消除了量綱的影響。

LDA 判別分析

至多能把C類數據降維到C-1維子空間

MDS

多維尺度分析

當 n 個研究對象之間的相似性(或距離)給定時,確定這些對象在低維空間中的表示,并使其盡可能與原先的相似性(或距離)“大體匹配”,使得由降維所引起的任何變形達到最小。

將研究對象在一個低維(二維或三維)的空間形象地表示出來(感知圖),簡單明了地說明各研究對象之間的相對關系。







10.2 低維嵌入



MDS? 多維縮放的目標

多維縮放的目標是兩個樣本在不同空間中的歐式距離等于原始空間中的距離



解釋:

也可以:


被中心化的意思是將樣本集合Z的每一行(屬性)減去該行的均值





從 D距離矩陣求出內積矩陣 B 而后分級得到 Z


MDS算法描述

屬性大于樣本數
樣本個數比屬性多
并不一定取出所有的特征值,選取一部分比較大的特征值就能相對接近于原來的距離矩陣

10.3 PCA主成分分析

西瓜書中對PCA的講解非常簡單,只是給出了公式和最終的結果,最后的結果就是求出協方差矩陣的特征值,并取出前幾個較大的特征值,進行降維。

標準正交基與投影變換

變換后的坐標


西瓜書中的最優化目標
轉換后和轉換前的距離
w是標準正交基
西瓜書

以下請注意,怎么推導xx和XX之間的關系:

XXT是協方差矩陣,下面會有解釋


x是已經樣本特征減去均值后的值,所以叫做協方差,對角線是方差

方差與協方差

協方差矩陣

協方差矩陣的由來
關鍵字? 前d‘個特征值? 進行降維

下面給出算法

核化線性降維

這一節看完之后沒有什么感覺,不知道在講什么,一會搜一下應用。

流形學習

不要被“流形學習”的名字所欺騙,本節開篇就明確說了,它是一類借鑒了拓撲流形概念的降維方法而已,因此稱為“流形學習”。

1.等度量映射

10.2節MDS算法的降維準則是要求原始空間中樣本之間的距離在低維空間中得以保持,10.3節PCA算法的降維準則是要求低維子空間對樣本具有最大可分性,因為它們都是基于線性變換來進行降維的方法(參見式(10.13)),故稱為線性降維方法


與MDS算法的差距在于樣本之間距離計算不同? 最優距離算法

2.局部線型嵌入

與Isomap試圖保持近鄰樣本之間的距離不同,局部線性嵌入試圖保持樣本之間的線性關系,關鍵就是基于這個線型關系不變,求出線型關系的矩陣(利用特征值,m的比較大的特征值對應的特征向量矩陣,對樣本空間進行轉換)

先給出西瓜書中10.27? 10.30

讀到這個地方,感受到西瓜書簡直不適合自學,很多公式根本不懂,就給出結論。


這個應該好理解,就是點和其周邊點的距離最小,這個一看就是求最優解,使用拉格朗日


重點關注K個近鄰,w才有值,不是近鄰參數是0

以上就是10.27 28公式的推導………………



10.30來了

推導來了……………………………………

上面求tr(*)的? 那個就是求v(距離)的最小值

算法再來一下子………………………………………………

這個叫局部線型嵌入…… 解決非線性降維的問題……流形學習

度量學習(? 繞過降維的過程,將學習目標轉化為對距離度量計算的權重矩陣的學習)

度量學習的目的就是計算出合適的“度量矩陣”,在實際計算時,我們可以將度量矩陣 M 直接嵌入到近鄰分類器的評價體系中去,通過優化該性能指標相應的求得 M.

Isomap和MDS算法區別在于距離矩陣的計算方法不同,Isomap算法在計算樣本間距離時使用的(近似)測地線距離,而MDS算法使用的是歐氏距離,也就是說二者的距離度量不同。? 在度量學習中引入了馬氏距離。

馬氏距離就是權重矩陣

下面是對這幾個距離的解釋

因此,所謂“度量學習”,即將系統中的平方歐氏距離換為式(10.34)的馬氏距離,通過優化某個目標函數,得到最恰當的度量矩陣M(新的距離度量計算方法)的過程。書中在式(10.34)~(10.38)介紹的NCA即為一個具體的例子,可以從中品味“度量學習”的本質。


為保持樣本之間的距離非負且對稱,馬氏距離中的“度量矩陣” M 為正定或者半正定矩陣,就有? M=PP^T,馬氏距離

u^TMu = u^TPP^Tu=||P^Tu||_{2}^2

正定矩陣和半正定矩陣? —— 這篇文章中說明了其中的含義,為方便,截圖如下:


近鄰成分分析 NCA

近鄰分類器在進行判別時通常使用多數投票法,鄰域中的每個樣本頭1票,鄰域外的樣本投0票,不妨將其替換為概率投票法,對于任一樣本Xj,它對于Xi分類結果影響的概率為

馬氏距離?


10.38的求解方法? P^T用A表示


就能求解A及P
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容