3.1?人類微生物組數據研究的主題和統計假設
目前的微生物組研究主要有兩個主題:(1)描述微生物組特征與生物、遺傳、臨床或實驗條件之間的關系;(2)確定與微生物組組成相關的潛在生物和環境因素。研究目的是了解宿主、遺傳和環境因素形成微生物群落的機制。從這些研究中獲得的見解可能有助于開發調節人類疾病微生物群組成的治療策略.
環境、微生物群和寄主之間的相互作用是動態的和復雜的.
為了研究這種相互作用,可以提出三個一般性的研究假設。假設1是測試微生物群和宿主之間的聯系:微生物群或“非生物”微生物群的組成是否與宿主的健康或疾病有關。例如,在炎癥性腸病(IBD)的研究中,我們假設生物失調與疾病的進展。在維生素D受體(VDR)和微生物群的研究中,我們假設缺乏VDR會導致小鼠腸道微生物群的失調和功能改變 。這一假設也可能基于微生物群落和生物學因素,如細菌群落的改變與腸上皮細胞中的VDR狀態有關。
假設2是測試微生物群是否與環境或生物協變量相關,環境因素是否影響微生物群,或干預措施是否對健康和疾病中的特定微生物群組成(多樣性)產生影響。例如,我們可以測試飲食干預是否影響腸道菌群,或者益生菌干預是否影響人類菌群組成。我們還可以假設抗生素和飲食影響腸道微生物群落結構,營養影響腸道微生物群組成,或者抗生素治療影響腸道細菌菌株的多樣性。
假設3是測試環境和宿主之間的聯系。為了檢驗這一假設,我們可以使用其他生物醫學科學中常用的標準統計方法和模型。對于微生物組研究,重點放在假設1和2上。這些統計假設的核心主題可以是相同的,即探索環境或外部因素(例如干預)對微生物群組成和/或微生物區系豐富度的影響。然而,研究主題在alpha多樣性(每個個體樣本中的物種多樣性)、細菌豐富度、獨特可操作分類單元(OTU)的總數、系統發育多樣性(不同系統發生譜系的相對數量)和每個樣本中的物種均勻性之間是不同的。
統計假設可能是alpha多樣性。例如,對于抗生素研究,我們假設抗生素治療會降低微生物多樣性,或不降低微生物多樣性。因此,接受特別抗生素治療的兒童具有或多或少相同的腸道微生物區系。統計假設也可以是β多樣性,例如,物種或菌株的Jaccard指數或UniFrac系統發育距離。統計假設甚至可以是時間微生物群落。例如,我們可以假設所有的菌株都是相似的,微生物群落是穩定的(不會隨著時間的推移而改變),或者與非抗生素使用者相比,抗生素治療使菌株不那么相似和不穩定。
3.2 微生物組研究的經典統計方法和模型
經典統計檢驗:有許多經典的統計檢驗可以用來分析微生物群。微生物分類群中的假設檢驗可以通過比較α和β多樣性指數來進行。根據數據是正態分布還是非正態分布、實驗組數或實驗條件,我們可以使用t檢驗、方差分析(ANOVA)或相應的非參數檢驗。兩樣本t檢驗及其非參數對應的Wilcoxon秩和檢驗在微生物群研究中被廣泛用于比較兩組間的連續變量。例如,使用標準t檢驗來比較α多樣性或種群數量在兩組相對豐度數據之間。標準t檢驗甚至被用來比較健康志愿者和結直腸癌(CRC)患者之間不同門和屬的相對豐度。采用非參數相似Wilcoxon秩和檢驗(也稱為Mann-Whitney檢驗)來比較α多樣性,例如Shannon多樣性,由細菌分類組成定義的兩個簇。Wilcoxon秩和檢驗也被用來識別微生物分類群或OTUS的差異,以及其他非參數測量,以及不同門和屬的相對豐度。當比較兩組以上時,選擇單向方差分析或其非參數等價的Kruskal-Wallis檢驗,這取決于變量是否為正態分布。方差分析用于分析分類多樣性數據,例如β多樣性,以比較成比例的豐度,以評估腸道微生物群對體重指數或血脂的風險模型,以及分類學和特定于功能的偏向。方差檢驗也被用來比較腸道不同部位的微生物群的功能能力。Kruskal-Wallis單因素方差分析用于比較樣本的細菌和真菌比例的歸一化z分數,以及微生物組數據的不等方差。卡方檢驗通常用于比較分類微生物組數據。例如,測試單個先驗指定的分類單元在不同的組之間以不同的速度出現。為了檢測差異豐富的分類群,有研究小組結合了幾種經典的統計方法和程序,提出了一種統計方法,稱為“Metastats”。首先,將原始排序計數(豐度數據)歸一化或轉換為表示每個分類單元對每個個體的比例的相對豐度數據。其次,利用Storey和Tibshiani的排列法,采用雙樣本非參數t檢驗分析了兩個處理組之間的差異豐度。第三,為了控制多重假設檢驗分類群中的錯誤發現率(FDR),使用Q值來評估檢驗的重要性。最后,為了處理稀疏計數,費舍爾精確檢驗被用來比較稀疏樣本(稀有)分類群的微分豐度。Metastats表明它優于學生的t檢驗,Lu等人的對數線性模型和負二項(NB)模型。實際上,該方法是一種結合了幾種經典統計方法和過程的混合方法。統計框架是雙樣本t檢驗的擴展。
多元統計工具:環境中的微生物群落可以用多元統計方法或模型進行分析。有許多統計模型和方法可用于分析微生物群落組成與環境協變量和結果之間的關系。微生物群研究中使用的大多數多元統計工具都來自生態研究領域和環境科學。由于數據的高維性、非正態性和系統發育結構,很難利用OTUS或類群豐度直接測試微生物組組成與潛在環境因子的關聯。一般情況下,多變量分析首先需要選擇一種距離度量方法,然后再進行距離度量分析估計的距離,其中定義了兩個微生物樣本之間的距離度量。在分析微生物組數據時,可以使用幾種組間差異測試:多變量排列方差分析(PERMANOVA)、組相似性分析(ANOSIM)、多響應排列程序(MRPP)和Mantel檢驗(Mantel)。PERMANOVA是由Anderson和McArdle提出的,用于將強大的方差分析應用于多變量生態數據集。PERMANOVA是將多變量模型擬合到微生物組數據中應用最廣泛的非參數方法之一。它是一種基于距離矩陣和排列的多變量方差分析。與MRPP和其他多變量分析類似,PERMANOVA通常與距離度量方法之一一起使用。例如,使用未加權的UniFrac距離測量的PERMANOVA被用來顯示雜食動物與素食者腸道微生物區系的組成,以評估與β多樣性措施的關聯,以測試種群之間的微生物差異和BrayCurtis相異度矩陣。ANOSIM是微生物組研究中應用最廣泛的多變量方法之一。它用于比較組內和組間的相似性,以檢驗組內樣本之間的平均等級相似性與屬于不同組的樣本之間的平均等級相似性相同的零假設。例如,使用加權和未加權的UniFrac距離來測試處理之間和處理內時間點之間與微生物群組成的關聯強度。在微生物組文獻中,在成對加權的UniFrac距離矩陣上進行MRPP以確認聚類的意義,以測試影響微生物群落的因素,并將群落差異與Bray-Curtis距離進行比較。與相關分析一樣,曼特爾的測試也被用來測試環境因素和宿主微生物群之間的關聯。例如,為了測試微生物群變異是否解釋宿主中的微生物群變異,宿主遺傳距離與群落β多樣性方差之間的關聯,捐贈者微生物群和BMI,甚至找出微生物群組成的預測因子。
過度分散和零膨脹模型:微生物組研究中的類群計數數據,如微生物組分類reads或來自擴增子測序實驗的OTU計數,或來自RNA-Seq實驗的差異表達數據,通常是過度分散的,并且具有多余的零。在宏基因組計數數據中,基因特異性變異性在基因和過度分散經常發生,并影響識別差異豐富的基因。在宏基因組學中,由于各種因素也會出現過多的零,例如,由于生物醫學技術的限制而無法檢測到的基因的豐度。由于細菌群落之間的巨大多樣性,抽樣零也可能發生 。為了擬合具有超離散度和過零點的微生物計數數據,通常采用負二項模型和零膨脹模型。例如,用NB模型分析了帕金森病的微生物組豐度數據和腸道微生物組。NB模型用于評估序列標簽豐度的差異,并檢測臨床宏基因組樣本中差異豐富的特征。人類腸道中細菌的豐度的特點是在較低的分類水平上有越來越多的零,并且是右偏的。為了捕捉過多零點的特征并對偏斜的微生物組數據進行建模,需要一個零膨脹模型,如零膨脹泊松模型(ZIP)、零膨脹負二項模型(ZINB)或柵欄模型。在微生物群研究中使用零膨脹模型的適宜性是通過廣泛的模擬和真實的人類微生物群研究來評估的。為了捕獲多余的零并對傾斜的微生物組數據進行建模,有研究小組使用具有負二項分布的障礙模型來分析細菌的物種(97%的相似性閾值OTUS)。為了識別與不同細菌分類群相關的環境或生物協變量,同時考慮到過度分散和許多零,有研究小組提出應用加性Logistic正態多項式回歸模型將協變量與細菌組成(計數)聯系起來,并應用該模型來分析飲食和糞便微生物群組成之間的關聯。
3.3? 新發展的多元變量統計方法
為了更好地擬合多變量數據,特別是微生物組數據,近年來,研究者和統計學家開發了幾種參數和非參數模型,以下幾個發展多元統計方法的方向。
Dirichlet-多項式模型:在參數概率模型中,多項式分布和Dirichlet多項式分布是最常用的。基于Dirichlet多項式混合模型 、La Rosa和同事們進一步提出了一種多元統計方為基于分類學的人類微生物群數據的假設檢驗和功率計算。作者將Dirichlet多項式模型重新參數化到Dirichlet多項式混合,使其適合于基于位置(均值比較)和尺度(方差比較/離散度)之間的差異進行跨組假設檢驗。它在R統計軟件包“HMP”中實現。使用來自NIH人類微生物組項目(IHMP)的數據。當研究人員和統計學家設計微生物組研究時,它進行功率計算的能力也很有吸引力。
UniFrac距離度量類:為了比較微生物群落,多變量分析首先需要選擇一種距離測量方法。已經提出了許多距離措施。其中,系統發育距離度量是非常強大的工具箱,因為它利用了不同序列之間的差異程度,它解釋了分類群之間的系統發育關系。為了在計算微生物群落之間的差異時捕捉系統發育信息,Lozupone和Knight在2005年提出了UniFrac距離度量。UniFrac測量系統發育樹中分類群組之間的系統發育距離。UniFrac距離度量的目標是實現來自不同條件的微生物樣本之間的客觀比較。2007年,Lozupone 向原始的UniFrac添加了比例權重,并將它們區分為未加權的UniFrac和加權的UniFrac。從那時起,UniFrac的兩個版本在微生物組文獻中可用,并已被應用于數千種研究出版物,幾乎涵蓋了從人類疾病到一般生態學的一切。未加權的UniFrac距離只考慮物種的存在和缺失信息,計算每個群落特有的分枝長度;加權的UniFrac距離利用物種豐度信息,根據豐度差異對分枝長度進行加權。這兩個UniFrac距離已成為應用最廣泛的系統發育距離度量。然而,它們也有局限性:評估給稀有譜系(未加權的UniFrac距離)或最豐富的譜系(加權的UniFrac距離)賦予了太多的權重,因此,在檢測適度豐富的譜系的變化方面可能不是很強大。基于方差調整的加權UniFrac距離(VAWUniFrac),開發的廣義UniFrac距離擴展了加權和未加權的UniFrac距離,用于檢測更廣泛的生物學范圍微生物群組成的相關變化。現在,UniFrac工具箱系列已從UniFrac距離擴展到通用UniFrac距離。通過分析兩個真實的人類腸道微生物組數據集,證明了廣義UniFrac距離在檢測微生物組差異方面的作用,這些數據集與人類腸道微生物組組成和長期飲食有關,并測試吸煙者和不吸煙者之間的上呼吸道微生物群差異使用PERMANOVA。通過結合UniFrac距離和PERMANOVA,廣義UniFrac距離度量提供了一種統計方法來檢驗微生物群組成與環境協變量之間的關聯。UniFrac工具箱中增加了兩個新開發的UniFrac工具:Micropower R Package和UniFrac R程序。在微能組件中,將未加權和加權UniFrac距離的度量納入成對距離的分析中,并將PERMANOVA用于冪估計和樣本量估計。在成分數據分析的背景下,引入了兩個新的權重:信息統一幀(Information UniFrac)和比率統一幀(Ratio UniFrac),它們對稀疏不那么敏感,并且允許比傳統的未加權和加權統一幀更好地分離異常值。其目標是解決未加權UniFrac對稀疏實例高度敏感的限制,以及在沒有清晰結構或組間分離的統一數據集中對測序深度的限制。
多元貝葉斯模型:①Multivariate Bayesian Mixed-Effects Model:Grantham等人。提出了一個貝葉斯混合效應模型,稱為MIMIX(微生物組混合模型),用于聯合而不是單獨分析微生物分類群。MIMIX的能力包括:全局測試對微生物組組成的實驗性處理效果,局部測試和評估對單個分類群的處理效果;量化分析微生物組的異質性,以及表征微生物組中的潛在結構。MIMIX是基于Logistic正態多項式(LNM)的混合效應模型。作為一種貝葉斯模型,MIMIX使用貝葉斯因子分析來捕捉微生物分類群之間的復雜依賴模式,并使用連續收縮的Dirichlet-Laplace先驗以確定對實驗條件反應相似的微生物群。該模型的作者認為,在模擬研究和真實數據中,MIMIX在檢測顯著信號的存在和估計稀疏處理效果方面優于具有Bray-Curtis不同的PERMANOVA。然而,需要更多的研究來證實這一模型的性能。類似于Grantham等人聯合模擬微生物類群豐度的方法,Ren等人。提出了一個貝葉斯廣義混合效應回歸模型來解釋微生物分類群之間的相關性,并允許借用跨分類群的信息。以前的多變量方法要么假設多變量Logistic正態分布或獨立的Dirichlet分發。Ren等人提出的貝葉斯非參數模型的區別。在于:(1)在調整低維空間的同時,使用邊際Dirichlet過程先驗和潛在因素上的收縮先驗將微生物組成和協變量聯系起來,以及(2)可視化協變量和微生物組成之間的關聯。②Multivariate Bayesian Graphical Compositional Regression:在第一章第二節描述了微生物群落組成數據具有以下特點:(A)高維;(B)稀疏性和過零點計數;(C)復雜的協方差結構;(D)過度離散性。為了瞄準大的組內異質性和潛在的混雜因素,提出了一種針對組成微生物組數據的貝葉斯圖形回歸,基于Dirichlet樹多項式(DTM)模型。與Dirichlet-Polyomial(DM)分布類似,所提出的方法使用DM并納入系統發育信息,但直接使用系統發育樹作為推理工具。建議的方法將DTM分布和圖形模型納入貝葉斯測試框架下。DTM將傳統的DM擴展到系統發育樹上,并提供了更大的靈活性。此外,開發的貝葉斯圖形測試側重于通過調整協變量在貝葉斯圖形組成回歸(BGCR)框架下有效地比較組差異。將BGCR方法與DTM方法進行比和DM測試,BGCR的性能優于其他方法。③Bayesian Variable Selection for Multivariate Zero-Inflated Models:聯合建模多個分類單元比特定于分類單元的單變量分析更有效。然而,微生物組數據的多變量分析,特別是具有協變量的零膨脹微生物組數據的多變量分析是一個挑戰。Lee提出了一種多元零膨脹高維協變量數據的貝葉斯變量選擇方法。所提出的多變量零膨脹泊松(MZIP)分布模型不需要指定協方差結構,而是結合了貝葉斯變量選擇。
Phylogenetic LASSO and Microbiome:微生物組數據是高維的,往往具有很大的p和很小的n,這表明數據觀測很少,分類群很多,分類群甚至比數據觀測還要多。在數據矩陣方面,p表示列數,n表示行數,則問題大p小n意味著較小的n個樣本(數據觀測)包含較大的p個分類群。從圖形上看,這意味著在p維空間中有n個樣本。從統計學上講,高維數據的建模有很多挑戰。我們需要處理兩個不排除的問題:解決大p和小n問題,以及處理變截面問題。通常,較大的p需要較大的n。為了有效地模擬具有較大p和較小n的高維微生物組數據,一種方法是充分降維,即降低預測因子的維數,直到預測因子與響應之間的回歸關系仍然保持。在微生物群研究中,協變量之間也是相互關聯的,這給變量的選擇帶來了更多的挑戰。因此,需要有足夠的變量選擇。為了解決大p,小n的問題,人們提出了許多降維和變量選擇的方法。在變量選擇方法中,幾種基于模型的懲罰方法非常有用,包括套索。“生命樹”示意圖,即與系統發育相關的不同分類級別的細菌群,增加了高維數據結構的復雜性。Kim和他的團隊通過系統發育LASSO(最小絕對收縮和選擇算子)技術,將微生物群作為響應生物學或臨床結果的協變量納入其中。與其他變量選擇方法類似,它們的變量選擇方法也結合了生命樹模式。Kim等人發展的系統發育套索。具有分級懲罰方案和可行的協變量分組方式。例如,基于分組是否嵌套,分別以圖形方式表示樹或循環。此外,系統發育套索使用凸對數似然函數,不同于使用懲罰最小二乘的等級制H-套索。系統發育套索估計算法依賴于迭代自適應重加權。系統發育套索可以用來選擇OTU、類群或任何其他“組學”數據作為協變量,然后用Logistic回歸對響應進行建模,如協變量是否可以預測糞菌移植(FMT)。Kim等人。將系統發育套索模型與SCAD(平滑剪裁絕對偏差)模型,以及甲骨文模型的普通最小二乘(OLS)進行比較,他們得出結論:基于一項真實的臨床研究,系統發育套索模型優于SCAD和OLS模型。
3.4? 微生物組數據的組成型分析
早在1897年, Pearson就已經說,當在器官測量中使用兩個絕對測量的比率時,可能會形成“虛假相關”。自二十世紀下半葉以來,研究人員在地質學中已經知道,使用標準的統計方法來分析成分數據可能會使結果無法解釋。20世紀80年代,特別是在1986年的開創性工作)中,艾奇森意識到關于成分的每一項陳述都可以用成分比率來表示,并開發了一套基本原則、各種方法、操作和工具來進行成分數據分析。其中,logro變換方法被地質學、生態學和其他領域的統計學家和研究人員廣泛接受,因為通過LOGITO變換,可以消除成分數據的受限樣本空間(單純形)的問題,并將數據投影到多變量實數空間。因此,所有可用的標準多變量技術都可以再次用于分析成分數據。一系列出版物已經表明,地質學、生態學和其他領域中用于成分數據分析的現有工具易于修改,也是分析微生物組高通量測序數據的有效方法。微生物組分數據分析的方法和工具的發展是最新的。開發方法側重于消除成分限制:樣本中所有微生物的相對豐度之和為1。這種約束導致組成數據駐留在單純形而不是歐幾里德空間。為了適當比較微生物組成,開發方法從樣本中的類群豐度(OTU)推斷其在生態系統中的分類單元相對豐度(OTU),而不是生態系統中的總豐度(OTU)。為了避免“虛假相關”,Lovell提出了用于分析相對數據的比例度量,因為比例是對相關數據進行適當的相關性分析。ERB和NOTREDAME進一步提出了部分相稱性,這是從部分相關性中采納的定義。為了識別比例豐富的分類群,ERb等人提出了差別比例的統計數據。它相當于分類單元比的單因素方差分析。比較微生物組組成最具代表性的研究方法是類方差分析差異表達(ALDEx和ALDEx2)。從根本上說,這兩種方法都使用LOGITRO變換技術來轉換微生物組數據,從而消除了成分限制,使標準的多變量技術適用于分析。ANCOM是一個統計框架,開發該框架是為了說明在生態系統水平上檢測微生物平均類群豐度差異時的成分限制,以減少錯誤發現。它是以成分對數比為基礎的。作者將ANCOM與ZIG進行了比較,并將t檢驗與模擬研究和實際數據進行了比較。他們的結論是,ANCOM在以下方面優于ZIG方法,大大降低了FDR,提高了功率。ANCOM很有吸引力,因為它不做分布假設,可以在線性模型框架中實現,以調整協變量和模型縱向數據。與ANCOM相比,ALDEx和ALDEx2更全面。它們幾乎適用于由高通量測序產生的任何類型的數據。它們適用于多種不同實驗設計的比較。統計分析包括雙樣本配對t檢驗、方差分析和非參數檢驗,如Welch t檢驗、Wilcoxon秩和檢驗、Kruskal-Wallis檢驗等。他們還可以選擇使用Benjamin-Hochberg方法調整p值。
3.5? 微生物群研究中的縱向數據分析與因果推理
微生物群是動態的,由與宿主和環境的相互作用驅動,并且隨著時間的推移而變化。因此,縱向微生物組數據分析提供了關于微生物組與宿主和環境相互作用的豐富信息。縱向研究的顯著特點是在研究期間重復測量受試者,從而可以直接評估響應變量隨時間的變化。縱向研究還捕捉到個體間的差異(個體間的異質性)和受試者內部的動態變化。它提供了研究復雜的生物學、心理學和行為假說的機會,特別是那些涉及隨時間變化的假說。縱向分析的優勢也適用于微生物組數據。通過對飲食等方面的干預,以及對由微生物群引起的慢性病的發展和持續,將加深我們對微生物菌群的短期和長期趨勢的了解。
標準縱向模型:微生物組數據的縱向設計和分析已被用于各個領域,包括:人類嬰兒腸道微生物組在1型糖尿病發展中的作用。廣義估計方程(GEES)和廣義線性混合效應模型(GLMM)是縱向背景下最流行的兩種樣式。因此,GEE和GLMM最有可能用于微生物組研究。例如,這些模型被用來分析懷孕和非懷孕婦女在微生物群組成和穩定性方面的差異;ZINB混合效應模型用于分析食管炎患者的人體微生物區系序列數據。通常,為了解釋分類豐度計數數據的過度離散和零膨脹特征,選擇NB或零膨脹NB分布來模擬具有隨機效應的每個系統類型的計數數據,以考慮縱向數據設置下的相關性。重要的是,我們需要比較微生物的相對豐度,而不是組間的絕對計數。通過向NB分量的線性預測器函數添加偏移項,即讀取總reads的對數,將絕對計數轉換為考慮到每個樣本的可變reads的相對豐度。為了將分類群豐度視為連續變量,并對分類群豐度和協變量之間的趨勢(線性關系)進行建模,使用了在對象協方差結構內具有自回歸的線性混合效應模型。但是,這種方法并沒有明確處理數據中的零膨脹和過度離散性。
新發展的過分散和零膨脹縱向模型:①Zero-Inflated Gaussian Mixture Model,為了解決零膨脹和過度分散的問題,同時識別與協變量相關的細菌分類群,已經提出了幾個統計模型。Paulson提出了零膨脹高斯(ZIG)混合模型。混合模型的設計使用累積和尺度歸一化技術來校正總和歸一化在差分豐度評估中引入的偏差,以及零膨脹高斯分布混合模型來解釋由于微生物群落的欠采樣而導致的差分豐度測試中的偏差。該模型尋求直接估計由于采樣不足或從計數分布(微生物群落中沒有分類特征)的檢測分布產生觀測到的零的概率。Zig型混合模型對數變換16SrRNA測序數據的讀取計數,然后使用經驗貝葉斯過程估計緩和方差。由于樣本中的零計數,緩和的方差解釋了偏差。使用來自縱向微生物組研究的數據,應用了這種ZIG方法。它在metagenomeSeq BioConductor軟件包中實現。作者使用模擬研究和真實數據將ZIG與現有工具進行比較,并得出結論:ZIG優于該領域中廣泛使用的其他統計方法,如Kruskal-Wallis檢驗,并且ZIG產生了對數據更精確的生物學解釋。然而,經驗貝葉斯方法到縱向環境的擴展被審查為不清楚。②Extensions of Negative Binomial Mixed-Effects and Zero-Inflated Negative Binomial Models,在縱向設置內,負二項混合效應模型(NBMM)是用于檢測微生物群與宿主環境/臨床因素之間的關聯的統計模型,用于相關的微生物群計數數據。NBMM以NB模型為基礎,在固定效應中加入隨機效應,以考慮樣本間的相關性。NBMM通過來自NB的過色散參數處理過色散并改變總reads。標準NB模型與NBMM的不同之處在于NBMM采用迭代加權最小二乘(IWLS)算法進行擬合。然而,這些模型不能處理零通脹。為了解釋過度分散和過多的零點,同一作者提出了ZINB回歸,用于識別兩個或更多種群之間差異豐富的類群。建議的ZINB使用兩部分混合:NB分量用于說明過度分散,Logistic回歸分量用于說明多余的零。標準ZINB模型與這種ZINB擴展模型的區別在于后者使用了IWLS和EM(期望最大化)算法。在該方法的作者進行的模擬研究中,ZINB在基于AUC(曲線下面積)估計的各種稀疏場景中的性能優于DESeq、Edger和metagenomeSeq。實際數據也表明,這一結果與之前的研究一致。③Bayesian Semiparametric Generalized Linear Regression Model,Lee和Sison-Mangus提出了一個貝葉斯半參數廣義線性回歸模型來研究微生物豐度和演替變化與宿主環境/臨床因素(即物理和生物因素)之間的關系。該模型在廣義線性回歸模型的基礎上,利用稀疏誘導先驗--拉普拉斯先驗,改進了協變量效應對OTUS代表的微生物物種平均豐度的估計。類似于Zhang等人的NBMM,該方法指定Nb分布,并假定OTU計數的過色散參數。與其他方法相比,例如在Romero等人中,在建模之前,所提出的方法不會對OTU計數進行歸一化以調整樣本總數之間的差異。相反,它聯合分析所有OTU,同時執行對OTU豐度的協變量效應的歸一化和估計。④Zero-Inflated Beta Regression Model with Random-Effects,在縱向微生物群數據設置下,Chen和Li提出了一個具有隨機效應的兩部分零膨脹Beta回歸模型(ZIBR)來檢驗微生物豐度與臨床協變量之間的關系。ZIBR將微生物組數據視為成分。ZIBR的目的是解釋微生物組組成數據的三個特征:高度傾斜,有界在[0,1]內,在考慮同一對象上重復測量的觀測結果的相關性時,通常以許多零來稀疏。⑤Differential Distribution Analysis Based on Zero-Inflated Negative Binomial Model,Chen提出了一個基于ZINB(零膨脹負二項)回歸模型的微生物組數據差分分布分析的一般框架。首先,基于計數的ZINB模型已被測試為最適合于零膨脹和過度分散的數據。有人建議微生物組數據在統計學上和生物學上也更合適。其次,零膨脹模型在生物學上更具解釋力,因為與 hurdle model 相比,混合觀測零點(即“結構零點”和“采樣零點”)的假設與觀察到的人類微生物群數據更一致。以前的零膨脹模型將離散視為所有協變量上的公害和公共參數。相反,建議的方法允許協變量相關的離散度:離散度依賴于協變量,如疾病狀況,并解決異常值以提高零膨脹模型的穩健性。為了識別相關的微生物類群,該方法還可以進行流行度、豐度和分散度參數的綜合測試。⑥Mixed-Effects Dirichlet-Tree Multinomial (DTM) Model,有人提出了一種混合效應的DTM模型,以便容易地使用經驗貝葉斯收縮來增強微生物比例推斷。它結合了微生物組研究中的協變量和相關的分類群。在考慮協變量時,側重于預測,而不是比較。建議的混合效果DTM模型有三個特點:首先,使用混合效應的Dirichlet-tree多項式分布來提高表型-微生物組關聯性的檢測和預測的準確性。利用DTM自然結合測序深度、過度分散和容易適應局部信號的優點。其次,基于混合效應DTM模型去除了不需要的協變量效應,并采用多尺度經驗貝葉斯收縮來改進微生物比例的估計。第三,使用隨機森林結合收縮估計器(解釋變量)作為預測工具,例如,從微生物群組預測重量。
基于回歸的時間序列模型:動態微生物群可以通過基于回歸的時間序列模型進行分析,即將類群的相對豐度、腸道微生物區系隨時間的生態多樣性作為一系列觀測(因變量),將時間的函數和其他協變量作為自變量。例如,我們可以使用回歸來評估人類陰道微生物群對月經周期中的時間和其他協變量,一種自回歸(AR)模型,以評估不同細菌分類群體的趨勢;以及處理微生物菌群計數的無限混合模型。①Time-Series Clustering Method,時間序列聚類法是根據OTU的時間剖面相似性將其分組在一起的方法。它采用假設的OTU水平分析的方法,而不是平均OTUS。例如,MC-TIMME(微生物組計數軌跡無限混合引擎)是由Gerber(2015)和Gerber等人開發的時間序列聚類算法。非參數貝葉斯技術被調整為從微生物組數據自動推斷時間模式,然后將數據集中的OTU分配給所推斷的時間模式。②Dynamical Systems Theory Model,已有幾種微生物時間序列的自回歸模型被提出。最流行的是Lotka-Volterra(LV)模型。Stein將動力系統模型應用于微生物組時間序列數據。該模型基于廣義Lotka-Volterra(GLV)非線性微分方程,假設生態系統中物種的生長是密度受限的,并受到系統中其他物種的正或負調控。自回歸模型還通過使用GLV方程分析了OTUS相對豐度的動態。③Time-Dependent Generalized Additive Models,另一種動力系統理論模型是依賴于時間的廣義加性模型(GAMS)。GAMS的框架是非參數的,通常更適合在系統先驗信息很少的情況下使用。GAMS已被廣泛應用于生態時間序列數據的分析。為了捕捉人類嬰兒腸道微生物區系的動態,Trosvik應用GAMS分析微生物區系時間序列數據。④Non-autoregressive Microbial Time Series Model,Gibbons及其同事認為,人體腸道微生物群有兩種動態機制:外部環境波動和內部過程。外部環境波動是非自回歸的,由外部因素(如飲食)驅動。換句話說,大多數生物體的功能是一種穩定的、均值回歸的行為,在個體之間承載著固定的能力和豐富的類群。當系統從較大的沖擊中恢復時,偶爾會發生自回歸動態。然而,外部的非自回歸波動決定了人體腸道微生物群落的動態。微生物群是一個動態穩定的系統,不斷受到內力和外力的沖擊,盡管腸道生態系統經常被破壞,將微生物群推回到保守的穩定狀態。吉本斯和他的同事們腸道微生物時間序列中的非自回歸方法,而不是關注自回歸模型。他們使用向量自回歸模型分別對自回歸和非自回歸分量進行建模。VaR模型靈活易用,適用于平穩多變量時間序列的分析。該模型假設時間序列過程具有自相關、互相關和序列不相關或獨立噪聲。此外,他們使用連續的方法來表征宿主內部的動態,而不是采用社區狀態聚類法。綜上所述,時間序列方法在近幾年得到了越來越多的應用。這些方法特別需要用適當的分析工具仔細設計和分析。否則,結果可能極具誤導性。首先,我們不能忽視微生物組數據的時間性這一因素。例如,我們不能將時間序列數據視為靜態時間點,并通過簡單的統計過程(如t檢驗)對其進行檢驗。我們不能將時間點作為獨立樣本對待,這可能會高估不同組之間的差異。第二,我們不能平均混合種群的豐度,特別是在基于序列的微生物組數據分析中不能平均這些豐度。例如,我們不能將兩個種群動態相反的OTU或物種組合在一起或聚集在一起。如果您聚合OTU或物種,從而獲得錯誤的微生物群譜,時間信息可能會丟失。
因果關系檢測:微生物組數據的因果推斷與中介分析:首先,微生物群可能對寄主有致病作用。人類和動物研究都證明了以下因素:(1)對野生型小鼠的研究和斑馬魚。(2)微生物群在宿主免疫系統的成熟,甚至在腸道的解剖發育中發揮了作用;(2)微生物區系在宿主免疫系統的成熟,甚至在腸道的解剖發育中發揮了作用;(2)微生物區系在宿主免疫系統的成熟,甚至腸道的解剖發育中發揮了作用。其次,腸道微生物區系的細菌組成(種類、成員和豐度)是個性化的。大多數微生物群在不同的寄主物種之間有著驚人的差異。在生命周期中,我們的微生物群會隨身體棲息地和時間的不同而發生系統的變化,可以短暫地或長期地被疾病(如感染)所改變或醫療干預,如抗生素。這樣的趨勢可能最終揭示微生物群的變化是如何引起或預防疾病的。減少的物種在肥胖人群中觀察到了多樣性;大腸癌患者結腸中梭菌門的豐度顯著增加。因此,微生物組領域的研究人員不僅需要了解細菌在人類疾病中的相關性,還需要了解細菌在人類疾病中的致病功能。第三,微生物群與寄主之間的相互關系提出了因果推斷模型,或者可以進行中介分析和縱向分析。目前,微生物組研究人員將他們的重點從相關性轉移到因果關系。然而,由于微生物組數據和統計模型的復雜性,在微生物組研究中識別原因仍然很少見。我們應該區分因果關系和相關性,不能從兩個變量之間的關系直接推斷因果關系,因為“相關性既不是建立因果關系的必要條件,也不是充分條件”。中介分析為研究人員提供了一個關于導致某事的一系列效應的故事。它使我們能夠進行科學調查來解釋某事是如何發生的。檢測微生物群、干預和宿主之間的動態因果關系是非常關鍵的。然而,據我們所知,因果推理和中介分析的應用有限。
微生物組數據的薈萃分析:由于異質性,類似的微生物組研究經常被報道效果不一致。薈萃分析旨在減少研究偏差,確保穩健的結果,增加統計能力,并改善對研究效果的整體生物學理解,例如在類似實驗條件或治療下的臨床試驗。微生物組研究的薈萃分析是為了在不同的條件或處理上檢驗相似的基本假設,如IBD和肥胖。目前,基于網絡的統計工具和R軟件包可用于微生物組數據的薈萃分析。例如,基于網絡的工具“MicrobiomeAnalyst”具有薈萃分析功能。R軟件包“metammicrobiomeR”旨在使用隨機效應模型在微生物組研究中進行薈萃分析。微生物組相對豐度數據的分析方法是基于零膨脹的beta GAMLSS(位置、規模和形狀的廣義加法模型):GAMLSS-BEZI。它使用GAMLSS-BEZI估計組間相對豐度的對數(優勢比),使用隨機和固定效應薈萃分析模型匯集估計及其標準誤差,以評估微生物組研究的異質性和整體影響。薈萃分析可以使用不同的算法或方法來實現,例如組合來自多個研究的p值、效果大小、排名順序、投票,或者直接將不同的原始數據集合并成巨型數據集,然后將其視為單個數據集。投票法是最簡單的薈萃分析方法。它首先根據每個數據集的特定標準(例如,調整p<0.05)選擇差異表達的基因或豐富的分類群;然后統計在所有數據集中檢測到的差異表達的基因或豐富的分類群的總數。除非其他方法行不通,否則不應該使用投票方法,因為它被認為在統計上效率不高。直接合并不同原始數據集的方法通常應該將其應用限制在相同或相似的平臺上,因為它忽略了來自不同來源的數據集的固有偏見和異構性。與其他研究領域的研究相比,由于單個數據質量和單個數據集固有的異構性問題較大,對微生物組數據進行嚴格的統計薈萃分析具有更大的挑戰性。在設計和執行微生物組數據的薈萃分析時,我們應該遵循薈萃分析的指導方針。嚴格的統計薈萃分析應該使用適當的基礎統計方法和固定效應模型或隨機效應模型來比較集合數據集上的各組,此外還應考慮個體數據質量和個體數據集的固有異質性。基于這一標準,目前大多數微生物組數據的薈萃分析并不像統計薈萃分析那樣嚴謹。目前,大多數微生物組數據的薈萃分析直接將不同的原始數據集合并成一個巨型數據集,然后使用常用的方法如α分集、主坐標分析(PCoA)對合并后的數據集進行分析。其他研究獨立地對每個數據集的分類群相對豐度進行單變量檢驗,并使用統計方法(即Kruskal-Wallis檢驗)來比較各研究的結果,并用校正方法(即Benjamini-Hochberg錯誤發現率(FDR))調整p值。目前“微生物分析儀”的薈萃分析功能主要集中在可視化探索或富集分析上。“微生物分析儀”工具缺乏適當的統計方法進行群體比較。因此,這不是嚴格的統計薈萃分析。從使用統計方法和模型來檢查跨研究的總體匯集效應的角度來看,MetammicrobiomeR包中的方法是嚴格的統計薈萃分析。基于一項模擬研究,該軟件包的作者陳述了它的三個優點:第一,GAMLSS-BEZI通過零膨脹的貝塔分布直接和適當地處理微生物組相對豐度數據的分布;第二,它在檢測組間微分相對豐度方面比使用反正方根變換的線性模型具有更好的能力。第三,不同群體之間相對豐度的估計對數(優勢比)在不同研究之間是直接可比的。
3.6 統計包簡介
生物信息學流程和R包在開發用于假設檢驗和統計分析的統計方法和模型方面起著非常重要的作用。
生物信息學流程:QIIME和mothur是兩條流行的生物信息學流程。QIIME和MOTHUR的能力是全面和支持性的文檔,可以用來生成微生物組組成數據,也可以用來分析16SrRNA基因測序數據。QIIME和MOTHUR可以執行微生物組組成和統計分析,包括α和β多樣性、單因素方差分析、配對和兩個樣本t檢驗、Adonis、ANOSIM、MRPP、PERMANOVA、PERMDISP、db-RDA和Mantel檢驗。
R Packages Adopted from Other Fields:在微生物群研究中,研究者和統計學家使用現有的標準方法和模型或借用其他相關領域的統計工具來應用于他們的研究,特別是在早期階段。Vegan是一種非常重要和使用最廣泛的R包,最初是為社區生態學家設計的。Vegan不是自給自足的。它依賴于許多其他R包,并且必須在R統計環境下運行。然而,Vegan包含了最流行的多變量分析方法和多樣性分析工具,以及其他可能有用的功能。因此,它被廣泛應用于生態群落分析,并已被應用于微生物群數據的分析。使用Vegan包來計算多樣性和其他指標。.DESeq,DESeq2,Edger最初是為分析數字基因表達數據和基因表達系列分析(SAGE)而開發的。它們對于過度分散的計數數據的假設檢驗和統計分析很有用。DESeq和DESeq2都使用負二項分布來測試差異表達;Edger Package實現了Robinson和Smyth,Robinson等人描述的原始統計方法。采用它們來分析過度分散的微生物群計數數據。LIMMA軟件包最初是為了檢測物種的差異豐度而開發的。
新發展的微生物組數據R軟件包:一些R軟件包是專門為微生物組數據開發的。近年來,微生物組研究人員和統計學家沿著提出的統計方法開發了更多的R包。這些軟件包有其特定的進行假設檢驗和統計分析的能力。將介紹并實現幾個R包。HMP和micropower 是用于進行功率和樣本量計算的兩個R軟件包。在新開發的R軟件包中,phyloseq軟件包是更通用的統計工具。首先,它集成了其他可用的統計軟件包來執行統計假設檢驗和分析。例如,它與DESeq、DESeq2、Edger軟件包集成或擴展到DESeq、DESeq2、Edger軟件包,以便于分類學多樣性分析和統計建模。它還包含R中基于微陣列的微生物組概況數據集分析的通用工具。第二,phyloseq軟件包配備了管理微生物組數據集的工具。例如,它具有從其他軟件包導入和導出數據的能力,甚至可以從生物信息管道(如QIIME和MOTHUR)導入和導出數據。第三,Phyloseq具有執行各種分集度量分析的能力。例如,在將數據導入R之后,可以使用40多個不同生態距離度量中的任何一個或全部輕松地執行β多樣性分析;實施阿爾法多樣性度量;執行更復雜的分析,例如k表分析和微生物組數據的差異分析。最后,phyloseq軟件包具有通過柱狀圖、盒圖、密度圖、熱圖、運動圖和網絡以及排序和聚類來可視化微生物組數據的功能和工具。微生物組包根據Phyloseq級進行統計分析。它包含基于微陣列的R微生物群譜數據集分析的通用工具。它為微生物群數據集增加了額外的功能,以執行微生物區系組成分析、雙穩性分析、計算多樣性指數并通過配對比較和關聯研究擬合線性模型。作為phyloseq軟件包,微生物組軟件包具有通過柱狀圖、框圖、密度圖、熱圖、運動圖、網絡、排序和聚類來可視化微生物組數據的功能和工具。MetagenomeSeq是實現零膨脹高斯(ZIG)的混合模型。MetagenomeSeq包括關于t統計量的非參數置換檢驗、非參數Kruskal-Wallis檢驗。MAO等人提出的實現貝葉斯圖形成分回歸(BGCR)的R代碼。可在https://github.com/MaStatLab/bgcr免費獲得。MBVS軟件包實現了Lee等人提出的多元零膨脹高維協變量的貝葉斯變量選擇方法。ANCOM軟件包實現了對微生物群組成的分析。ALDEx和ALDEx2軟件包實現了比較微生物組組成的方法。在第10章中,我們使用真實的微生物組數據運行ALDEx2。BhGLM包實現了NBMMS和ZINB兩種方法。ZIBR軟件包實現了具有隨機效應的兩部分零膨脹Beta回歸模型。我們在第12章中舉例說明了它的用法。MicrobiomeDDA實現了基于ZINB(零膨脹負二項)回歸模型的微生物組數據差異分布分析的一般框架。MetammicrobiomeR使用零膨脹的Beta GAMLSS和使用隨機和固定效應模型的跨研究薈萃分析,實現了對微生物組相對豐度數據的分析。
3.7? 現存統計方法的局限性和將來的發展方向
本章全面回顧了目前可用于或已經用于微生物組數據分析的統計方法和模型。統計方法和模型的目的是針對微生物組數據的特定特征,無論是橫截面還是縱向設置。這些方法將微生物組數據視為相對豐度,使用原始數據作為輸入數據集,或基于系統發育樹的數據結構進行分析。經典的統計方法仍然被廣泛使用,而新的方法在過去的幾年里得到了發展。新開發的方法大多針對微生物組數據的一個或多個特定特征:高維、過度離散、零點過多的稀疏性和復雜的協方差結構。然而,現有的統計方法仍有其局限性,包括:(A)在檢測因果關系和因果推斷方面,調解分析仍處于初級階段。近年來,微生物群研究的重點已從相關性轉向因果關系。在生態學中,已經討論了如何識別因果關系,并提出了在復雜生態系統中識別因果關系的框架。然而,在微生物組研究中,合適的縱向和因果推斷模型非常有限。為了滿足對動態復雜的微生物組數據建模的需要,仍然需要合適的統計工具來分析假設因素之間的因果關系和中介關系。(B)一些研究在使用經典統計方法分析微生物組比例數據時,完全忽略了微生物組數據的約束問題或組成性質。例如,皮爾遜相關分析、t-檢驗和方差分析仍然被廣泛用于微生物組數據的分析,而不需要檢驗數據的分布或轉換。(C)目前成分數據分析沒有解決零值問題。微生物組分數據的分析主要集中在兩個方面:用對數比來避免約束問題,用比例來代替相關性來解決“偽相關”問題。這兩種方法都依賴于對數比變換。通常,將一個較小的值加到零讀取計數以使對數比轉換可定義。但是,添加小值的算法不被允許。此外,人為的值是否會改變結果也很難檢驗。(D)基于計數的方法仍然需要提高聯合建模過度分散和零通貨膨脹的能力。建議將微生物組數據視為計數數據,而不是成分數據。基于計數的模型針對微生物組的多變量高維數據結構、稀疏性、過度分散性和零膨脹等特點,具有很好的概念調整能力,因此被認為是更適合于微生物組數據的統計和生物學模型。近年來,在橫截面或縱向設置中已經開發了幾種基于計數的模型。然而,一些方法將細菌類群視為獨立的,忽略了細菌類群之間的相關性;一些方法雖然聯合建模多個細菌類群,但在處理過度分散和/或零膨脹方面的能力有限。(E)系統發育樹的方法似乎另有希望,因為與成分和基于計數的方法相比,它們考慮了多個級別的分類群。然而,不同級別的細菌類群之間的進化比其他領域(即生態學)更為復雜。我們仍然缺乏適當的方法或模型來聯合擬合多個水平的分類群,并考慮到微生物組數據的特點,如過度分散和/或零膨脹。
近年來,,微生物組數據的統計分析取得了很大的進展,針對橫斷面和縱向環境中微生物組數據的具體特征的方法和模型證明了這一點。在選擇標準統計方法、借鑒其他領域的統計方法、發展自己獨特的統計方法等方面都取得了進展。一些新發展的統計方法和模型對于微生物組數據是可行的和很好的擬合。然而,微生物群研究中的統計方法和模型仍有發展的空間。作為一般指導方針,新統計方法的重點可以放在以下幾個方面:(A)開發縱向和因果模型,使更準確的因果推斷能夠適應微生物群、環境和宿主之間的動態和復雜聯系。預期的模型應該有強大的統計工具來將微生物群的變化與宿主因素(即健康或疾病)聯系起來,并有能力調整混雜因素,以建立與反應變量的時間甚至因果關系。(B)繼續開發適當的模型,以共同擬合和有效地解釋具有多變量高維數據結構、過度分散和具有過多零點的稀疏性的微生物組數據的特點,包括薈萃分析的統計工具。(C)考慮到微生物組數據的組成性質,并將微生物組數據擬合為組成數據,同時解決了多變量高維數據結構、過度分散和帶有多余零點的稀疏性的特點。(D)討論并提出在系統發育樹框架下研究細菌分類群進化的統計模型。