數(shù)據(jù)預(yù)處理-數(shù)據(jù)降維

《Python數(shù)據(jù)分析與數(shù)據(jù)化運(yùn)營 第2版》讀書筆記

一、是否需要降維的判斷依據(jù)

  1. 數(shù)據(jù)維度:如果數(shù)據(jù)維度很高,或者數(shù)據(jù)維度不高但是存在共線性等情況,則可以考慮降維;
  2. 對模型的計(jì)算效率與建模時(shí)效性有要求:如果對時(shí)效性要求很高,降維能夠顯著提升時(shí)效性,考慮降維;
  3. 是否要保留完整數(shù)據(jù)特征:如果需要保留完整的數(shù)據(jù)特征,降維會有信息損失,不考慮降維

二、基于特征選擇的降維

基于特征選擇的降維指的是根據(jù)一定規(guī)則和經(jīng)驗(yàn),直接選取原有維度的一部分參與后續(xù)的計(jì)算和建模過程,用選擇的維度代替所有維度,整個(gè)過程不產(chǎn)生新的維度。具體方法包括經(jīng)驗(yàn)法、測算法、基于統(tǒng)計(jì)分析的方法和機(jī)器學(xué)習(xí)方法。

三、基于特征轉(zhuǎn)換的降維

基于特征轉(zhuǎn)換的降維是按照一定的數(shù)學(xué)變換方法,把給定的一組相關(guān)變量(特征)通過數(shù)學(xué)模型將高維空間的數(shù)據(jù)點(diǎn)映射到低維度空間中,然后利用映射后變量的特征來表示原有變量的總體特征。這種方式是一種產(chǎn)生新維度的過程,轉(zhuǎn)換后的維度并非原有維度的本體,而是其綜合多個(gè)維度轉(zhuǎn)換或映射后的表達(dá)式。
常用的代表算法包括主成分分析(PCA)、因子分析(FactorAnalysis, FA)、線性判別分析(LDA,也叫Fisher線性判別FLD)、獨(dú)立成分分析(ICA)、局部線性嵌入(LLE)、核主成分分析(Kernel PCA)等。

  1. 主成分分析(PCA)

主成分分析的基本方法是按照一定的數(shù)學(xué)變換方法,把給定的一組相關(guān)變量(維度)通過線性變換轉(zhuǎn)成另一組不相關(guān)的變量,這些新的變量按照方差依次遞減的順序排列。在數(shù)學(xué)變換中保持變量的總方差不變,使第1變量具有最大的方差,稱為第1主成分,第2變量的方差次大,并且和第1變量不相關(guān),稱為第2主成分。依次類推,I個(gè)變量就有I個(gè)主成分。

PCA主要適用的應(yīng)用場景如下
? 非監(jiān)督式類型的數(shù)據(jù)集。它是一種非監(jiān)督式的降維方法,因此適用于不帶有標(biāo)簽的數(shù)據(jù)集;而對于帶有標(biāo)簽的數(shù)據(jù)集則可以采用LDA。
? 根據(jù)方差自主控制特征數(shù)量。最大的主成分的數(shù)量≤特征的數(shù)量,這意味著,PCA也可以輸出數(shù)量完全相同的特征,具體取決于選擇特征中解釋的方差比例。
? 更少的正則化處理。選擇較多的主成分將導(dǎo)致較少的平滑,因?yàn)槲覀儗⒛軌虮A舾嗟臄?shù)據(jù)特征,從而減少正則化。
? 數(shù)據(jù)量較大的數(shù)據(jù)集。數(shù)據(jù)量大包括數(shù)據(jù)記錄多和數(shù)據(jù)維度多兩種情況,PCA對大型數(shù)據(jù)集的處理效率較高。
? 數(shù)據(jù)分布是位于相同平面上(非曲面),數(shù)據(jù)中存在線性結(jié)構(gòu)。

  1. 因子分析(FA)

因子分析(Factor Analysis)是指研究從變量群中提取共性因子的統(tǒng)計(jì)技術(shù),這里的共性因子指的是不同變量之間內(nèi)在的隱藏因子。因子分析的過程其實(shí)是尋找共性因子和個(gè)性因子并得到最優(yōu)解釋的過程。

  1. 線性判別式分析(LDA)

判別分析(Discriminant Analysis)是一種分類方法,它通過一個(gè)已知類別的“訓(xùn)練樣本”來建立判別準(zhǔn)則,并通過預(yù)測變量來為未知類別的數(shù)據(jù)進(jìn)行分類。線性判別式分析(LinearDiscriminant Analysis,簡稱為LDA)是其中一種,基本思想是將高維的模式樣本投影到最佳鑒別矢量空間,以達(dá)到抽取分類信息和壓縮特征空間維數(shù)的效果。投影后保證模式樣本在新的子空間有最大的類間距離和最小的類內(nèi)距離,即模式在該空間中有最佳的可分離性。

PCA與LDA相比有以下不同:
? 出發(fā)思想不同:PCA主要是從特征的協(xié)方差角度,去找到比較好的投影方式,即選擇樣本點(diǎn)投影具有最大方差的方向;而LDA則更多地考慮了分類標(biāo)簽信息,尋求投影后不同類別之間數(shù)據(jù)點(diǎn)距離更大化以及同一類別數(shù)據(jù)點(diǎn)距離最小化,即選擇分類性能最好的方向。
? 學(xué)習(xí)模式不同:PCA屬于無監(jiān)督式學(xué)習(xí),因此大多場景下只作為數(shù)據(jù)處理過程的一部分,需要與其他算法結(jié)合使用,例如與聚類、判別分析、回歸分析等組合使用;LDA是一種監(jiān)督式學(xué)習(xí)方法,本身除了可以降維外,還可以進(jìn)行預(yù)測應(yīng)用,因此既可以組合其他模型一起使用,也可以獨(dú)立使用。
? 降維后可用維度數(shù)量不同:LDA降維后最多可生成C-1維子空間(分類標(biāo)簽數(shù)-1),因此LDA與原始維度數(shù)量無關(guān),只有數(shù)據(jù)標(biāo)簽分類數(shù)量有關(guān);而PCA最多有n維度可用,即最大可以選擇全部可用維度。

PCA與LDA工作原理對比

  1. 獨(dú)立成分分析(ICA)
    傳統(tǒng)的降維方法,包括PCA、LDA等都是以觀測數(shù)據(jù)點(diǎn)呈高斯分布模型為基本假設(shè)前提的,在已經(jīng)先驗(yàn)經(jīng)驗(yàn)知道觀測數(shù)據(jù)集為非高斯分布模型的前提下,PCA和LDA的降維效果并不好。而ICA將適用于非高斯分析數(shù)據(jù)集,它是主成分分析(PCA)和因子分析(Factor Analysis)的一種有效擴(kuò)展。
    獨(dú)立成分分析(Independent Component Analysis,簡稱ICA)是一種利用統(tǒng)計(jì)原理進(jìn)行計(jì)算的方法,它是一個(gè)線性變換,這個(gè)變換把數(shù)據(jù)或信號分離成統(tǒng)計(jì)獨(dú)立的非高斯的信號源的線性組合
    獨(dú)立成分分析的最重要的假設(shè)就是信號源統(tǒng)計(jì)獨(dú)立,并且這個(gè)假設(shè)在大多數(shù)盲信號分離(blindsignal separation)的情況中符合實(shí)際情況;即使當(dāng)該假設(shè)不滿足時(shí),仍然可以用獨(dú)立成分分析來把觀察信號統(tǒng)計(jì)獨(dú)立化,從而進(jìn)一步分析數(shù)據(jù)的特性。

四、基于特征組合的降維

基于特征的組合降維,實(shí)際上是將輸入特征與目標(biāo)預(yù)測變量做擬合的過程,它將輸入特征經(jīng)過運(yùn)算,并得出能對目標(biāo)變量做出很好解釋(預(yù)測性)的復(fù)合特征,這些特征不是原有的單一特征,而是經(jīng)過組合和變換后的新特征。從這一點(diǎn)來講,原理類似于特征轉(zhuǎn)換,更準(zhǔn)確地來講是類似于特征轉(zhuǎn)換中的LDA(有監(jiān)督式的機(jī)器學(xué)習(xí))。

特征的組合方法有以下多種形式:
? 基于單一特征離散化后的組合:這種方式下先將連續(xù)型特征離散化,然后基于離散化后的特征組合成新的特征。常見的RFM模型就是其中一種,這種方式先將R、F、M分別離散化,然后做加權(quán)或直接組合,生成新的RFM等分。
? 基于單一特征的運(yùn)算后的組合:這種方式下,對單一列基于不同條件下獲得的數(shù)據(jù)記錄做求和、均值、最大值、最小值、中位數(shù)、分位數(shù)、標(biāo)準(zhǔn)差、偏度、峰度等計(jì)算,從而獲得新的特征。
? 基于多個(gè)特征的運(yùn)算后的組合:這種方式下,將對多個(gè)單一特征直接做復(fù)合計(jì)算,而計(jì)算一般都是基于數(shù)值型特征的,常見方式包括加、減、乘、除、取余、對數(shù)、正弦、余弦等操作,從而形成新的特征。
? 基于模型的特征最優(yōu)組合:這種方式下,特征間的組合將不再是簡單的數(shù)學(xué)運(yùn)算,而是基于輸入特征與目標(biāo)變量,在特定的優(yōu)化函數(shù)的前提下做模型迭代計(jì)算,以達(dá)到滿足模型最優(yōu)的解。常見的方式包括:基于多項(xiàng)式的特征組合、基于GBDT的特征組合、基于基因工程的特征組合。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。