2022-06-03我的數(shù)據(jù)是用主成分分析還是冗余分析呢?2

背景

上次冗余分析說(shuō)了一點(diǎn)點(diǎn),今天繼續(xù)。

主成分分析PCA與冗余分析RDA

區(qū)別1 區(qū)別2
PCA 只分析一個(gè)數(shù)據(jù)矩陣 以生態(tài)群落分析為例,我們感興趣的信息主要是排序圖中樣方/取樣點(diǎn)和物種變量/測(cè)定指標(biāo)得分的相對(duì)位置、部分排序軸(比如PC1、PC2)的相對(duì)重要性(根據(jù)特征值/特征根判斷)以及排序軸的生態(tài)解釋等
RDA 分析兩個(gè)矩陣(響應(yīng)變量與解釋變量)之間的關(guān)系 以生態(tài)群落分析為例,我們感興趣的信息主要是環(huán)境變量X對(duì)物種Y組成的影響(即環(huán)境變量所能解釋的變差,以及解釋程度的顯著性、哪些環(huán)境變量對(duì)于群落結(jié)構(gòu)的解釋更為重要(變量選擇),以及獲知各變量或變量集解釋的變差(變差分解)等

什么是冗余分析RDA

冗余分析是約束化的主成分分析,是響應(yīng)變量與解釋變量之間多元多重線性回歸的擬合值矩陣的PCA分析,目的是----尋找能最大程度解釋響應(yīng)變量矩陣變差的一系列的解釋變量的線性組合,因此RDA是被解釋變量X約束的排序。從排序開(kāi)始就直接加入解釋變量進(jìn)行運(yùn)算,只提取和展示與解釋變量有關(guān)的數(shù)據(jù)結(jié)構(gòu),并通過(guò)統(tǒng)計(jì)檢驗(yàn)方法來(lái)表示解釋變量X與響應(yīng)變量y之間關(guān)系的顯著性。
在群落分析中,響應(yīng)變量Y一般是物種的多度數(shù)據(jù),解釋變量X就是環(huán)境變量(也是約束成分)。
另外,RDA還有許多升級(jí)版,比如tb-RDA(基于轉(zhuǎn)化的RDA)、db-RDA(基于距離的RDA)、偏RDA、非線性關(guān)系RDA等等,各自有自己的拓展適用范圍,這里只看看最基本的RDA是怎么回事兒。

關(guān)于約束

進(jìn)行RDA分析后,總方差被劃分為約束和非約束兩部分。約束部分表示響應(yīng)變量Y矩陣的總方差能被解釋變量X解釋的部分,如果用比例表示,其值相當(dāng)于多元回歸的R^2。在RDA中,這個(gè)解釋比例值也稱(chēng)作雙多元冗余統(tǒng)計(jì)(bimultivariate redundancy statistic)。然而,類(lèi)似多元回歸未校正的R^2, RDA的也需要校正,注意校正后的R^2 總是小于R^2的。
比如下圖是origin進(jìn)行RDA分析后結(jié)果,就給出RDA分析產(chǎn)生的典范軸constrained axe(RDAx)和非約束軸unconstrained axe(PCx)的特征根,典范軸的特征根表示響應(yīng)變量總方差能被RDA模型解釋的部分(這張圖中是9.26%,特別低,說(shuō)明本研究中響應(yīng)變量的變化大部分都不能用本研究中解釋變量來(lái)解釋?zhuān)?,非約束軸的特征根表示響應(yīng)變量總方差能被殘差軸解釋的部分,與RDA模型無(wú)關(guān),嚴(yán)格說(shuō)來(lái)不屬于RDA范疇,但能夠幫助我們獲取更多信息。并給出累積方差解釋率(約束軸)或承載率(非約束軸)。怎么說(shuō)幫助我們獲取更多信息呢?如果約束軸解釋的變差>非約束軸解釋的變差,表明響應(yīng)數(shù)據(jù)Y的大部分變化量均可通過(guò)解釋變量X作出解釋?zhuān)郝湮锓N組成分布真實(shí)地由給定環(huán)境因子所影響(對(duì)于RDA結(jié)果,即二者呈現(xiàn)出較好的線性梯度),直接去解讀RDA結(jié)果即可;但是,如果約束軸解釋變差<非約束軸解釋變差,或者約束軸解釋變差僅占總變差的較小比例(比如下圖),此時(shí)應(yīng)謹(jǐn)慎對(duì)待,因?yàn)镽DA模型并未顯示出給定環(huán)境因子能夠?qū)θ郝湮锓N的組成作出有效的解釋?zhuān)赡苡兄匾慕忉屪兞縓沒(méi)有被你測(cè)定/考慮等等原因。

圖片.png

RDA排序圖圖形結(jié)果解讀:

在RDA的排序圖中,約定俗成的會(huì)將響應(yīng)變量用不帶箭頭的線表示,定量解釋變量X用帶箭頭的線表示。

排序圖可以只展示樣方/樣本和環(huán)境變量X,這叫雙序圖;也可以展示樣方/樣本、環(huán)境變量X和物種Y這三者,叫三序圖,看自己的使用需求。但無(wú)論是雙序圖還是三序圖,首先需要明確的是,展示時(shí)有I、II型兩種標(biāo)尺scaling可以選擇,這兩種標(biāo)尺關(guān)系到對(duì)圖中數(shù)據(jù)解讀的方式是不同的。

圖片.png

I型標(biāo)尺(距離圖):特征向量被標(biāo)準(zhǔn)化為單位長(zhǎng)度,關(guān)注對(duì)象/樣本之間的關(guān)系。
II型標(biāo)尺(相關(guān)圖):特征向量被標(biāo)準(zhǔn)化為特征根的平方根,關(guān)注變量之間的關(guān)系。


圖片.png

(1)樣方點(diǎn)垂直投影到響應(yīng)變量或定量解釋變量的箭頭或延長(zhǎng)線上,I型標(biāo)尺表示:投影點(diǎn)近似于該樣方內(nèi)該響應(yīng)變量或解釋變量的數(shù)值沿著變量的位置;II型標(biāo)尺表示:投影點(diǎn)位置近似于該響應(yīng)變量或解釋變量在該樣方內(nèi)的數(shù)值;有人說(shuō)兩個(gè)標(biāo)尺的這個(gè)點(diǎn)沒(méi)有區(qū)別,我暫且還不太理解。
對(duì)上圖的解讀:a圖,存在排序樣方(樣本)i和ii,解釋變量(環(huán)境變量)1,探究i、ii與1的關(guān)系時(shí),將i或ii垂直投影在1的向量(箭頭)上,根據(jù)交叉點(diǎn)的位置判斷變量1在i或ii中的值。交叉點(diǎn)越靠近該變量向量的正方向,則表明所對(duì)應(yīng)的樣方中,該變量的數(shù)值越大。例如,假設(shè)變量1為土壤碳含量,樣方i投影在1的正方向,樣方ii投影在1的負(fù)方向上(圖中紅色虛線反向延長(zhǎng)線部分),兩個(gè)交叉點(diǎn)相比較,i與1的交叉點(diǎn)更位于1延伸方向,因此可知i中的土壤碳含量要比ii中的土壤碳含量要高。

(2)響應(yīng)變量與解釋變量箭頭之間的夾角反映了它們之間的相關(guān)性,但I(xiàn)型標(biāo)尺中響應(yīng)變量?jī)?nèi)部之間、解釋變量?jī)?nèi)部之間的夾角都無(wú)此含義;II型標(biāo)尺中則響應(yīng)變量?jī)?nèi)部之間、解釋變量?jī)?nèi)部之間的夾角也反映了它們之間的相關(guān)性。角度反映的相關(guān)性等于矢量之間角度的余弦(例如,描述90°角度的矢量對(duì)與cos(90)= 0不相關(guān)),描述20°角度的矢量對(duì)與cos具有強(qiáng)正相關(guān)性(20 )= 0.94。
對(duì)上圖解讀:b圖,根據(jù)向量(箭頭)夾角判斷變量間的相關(guān)性?!蟖接近90°,即接近正交,表明變量1和2之間的相關(guān)性很小,二者相互之間幾乎不存在影響?!蟗小于90°,夾角為銳角,表明變量2和3之間存在正相關(guān);銳角角度越小,則正相關(guān)性越大?!蟘大于90°,夾角為鈍角,表明變量3和4之間存在負(fù)相關(guān);鈍角角度越大,則負(fù)相關(guān)性越大。

(3)定性解釋變量的形心與響應(yīng)變量(物種)箭頭之間的解讀如同樣方點(diǎn)與響應(yīng)變量之間的解讀(因?yàn)槎ㄐ越忉屪兞康男涡囊彩且唤M樣方的形心);對(duì)于I型標(biāo)尺,僅能據(jù)此觀測(cè)定性解釋變量與響應(yīng)變量間的相關(guān)性;對(duì)于II型標(biāo)尺,既可以據(jù)此觀測(cè)定性解釋變量與響應(yīng)變量間的相關(guān)性,也可以觀測(cè)其與定量解釋變量之間的相關(guān)性。
對(duì)上圖解讀:對(duì)于因子類(lèi)型的解釋變量5(定性變量,非數(shù)值型變量),在圖中以點(diǎn)表示而非以向量表示,探究因子類(lèi)型變量5與其它變量間的相關(guān)性時(shí)需要根據(jù)投影判斷。例如,變量5垂直投影在變量4的正方向,表明與變量4存在正相關(guān);投影在變量2的負(fù)方向,表明與變量2存在負(fù)相關(guān);相關(guān)性的大小,可以通過(guò)垂線交叉點(diǎn)與原點(diǎn)(0,0)的距離來(lái)表示。

圖片.png

(4)定性解釋變量的形心之間或形心與樣方點(diǎn)之間的距離近似他們之間的歐式距離,I型標(biāo)尺是這樣的,II型標(biāo)尺則不是。
上圖解讀:若為I型標(biāo)尺,還可根據(jù)圖中樣方點(diǎn)之間的距離判斷樣方群落之間的相似性。兩個(gè)樣方距離越近,則群落相似性越大;反之越低。
(5)此外,還可通過(guò)比較解釋變量X(環(huán)境變量)向量在約束軸上投影的相對(duì)長(zhǎng)度,判斷環(huán)境變量對(duì)群落特征的貢獻(xiàn)度。例如在圖b中,將變量2和變量1均投影至RDA2軸,此時(shí)變量2的投影長(zhǎng)度相對(duì)更長(zhǎng),表明變量2比變量1對(duì)RDA2軸形成的貢獻(xiàn)更大。無(wú)論I型標(biāo)尺或II型標(biāo)尺,均可據(jù)此判斷。
(6)解釋變量向量與約束軸夾角的大小同樣具有意義,表示解釋變量與約束軸相關(guān)性的大小,夾角小說(shuō)明關(guān)系密切,若正交則不相關(guān)。例如在圖b中,變量2的向量與RDA2軸的夾角比與RDA1軸的夾角更小,表明變量2與RDA2的關(guān)聯(lián)程度比與RDA1的關(guān)聯(lián)程度要高,即相較之下變量2更貢獻(xiàn)于RDA2軸。無(wú)論I型標(biāo)尺或II型標(biāo)尺,均可據(jù)此判斷。

進(jìn)行顯著性檢驗(yàn)是對(duì)各個(gè)RDA軸或解釋變量進(jìn)行置換檢驗(yàn)來(lái)進(jìn)行的。不顯著的結(jié)果不能被解讀,要丟棄。

統(tǒng)計(jì),是我們做研究不可或缺的一個(gè)工具,盡管有時(shí)候兩組樣本的某個(gè)指標(biāo)的均值看起來(lái)相差很大,但是只有當(dāng)兩組樣本的這個(gè)指標(biāo)具有統(tǒng)計(jì)學(xué)差異時(shí),我們才有信心說(shuō)這兩組樣本確實(shí)有差異。我們?cè)谄綍r(shí)的研究中,用的較多的統(tǒng)計(jì)方法是參數(shù)檢驗(yàn),如t檢驗(yàn),方差分析等,但是這些方法都有一個(gè)前提要求,即樣本都要符合正態(tài)分布。當(dāng)樣本不符合這一前提時(shí),我們就要用非參數(shù)檢驗(yàn),而置換檢驗(yàn)Permutation test就屬于非參數(shù)檢驗(yàn)的一種,而且對(duì)小于或等于10個(gè)樣本的小樣本檢驗(yàn),也是建議用置換檢驗(yàn)而不是t檢驗(yàn)。(參考來(lái)源:https://zhuanlan.zhihu.com/p/328940140

參考文獻(xiàn)

1、http://www.lxweimin.com/p/00f69e8bd5ef
2、群落分析的冗余分析(RDA)概述 (微信號(hào):小白魚(yú)的生統(tǒng)筆記)
3、https://www.bilibili.com/video/BV1jY4y1C7i9/?spm_id_from=333.788.recommend_more_video.18&vd_source=721b2cd4a7c048a6485aefbb175915fc

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容