高通量測序技術和分析方法的發(fā)展為微生物組研究提供了新見解。然而,這些新的發(fā)展讓研究人員(特別是沒有生物信息背景的研究人員)在選擇合適的分析軟件/腳本上面臨挑戰(zhàn)。
來自中國科學院遺傳與發(fā)育生物學研究所、中國科學院大學、中國中醫(yī)科學院等多家科研機構組成的科研團隊在《Protein&Cell》發(fā)表了微生物組數(shù)據(jù)擴增子和宏基因組分析的實用指南。
本文綜述了目前廣泛使用的微生物分析軟件包,總結了它們的優(yōu)點和局限性,并給出了選擇和使用這些工具的建議。
微生物組的研究方法
微生物組研究的第一步:根據(jù)樣本類型和需要解決的科學問題,選擇合適的研究方法。不同方法的結合是可取的,因為多組學提供了對微生物組分類和功能的全面信息。以細菌DNA樣本為例,擴增子測序可以提供微生物群分類信息;而宏基因組測序不僅可以提高物種分類信息的分辨率,還能提供潛在功能信息。
擴增子&宏基因組分析流程
擴增子
原始數(shù)據(jù)處理:USEARCH/QIIME
代表性序列選擇:UPARSE算法、DADA2算法、QIIME 2、USEARCH
預測潛在的功能:PICRUSt/R包Tax4Fun
特別說明:以上流程只適用于Illumina平臺生成的數(shù)據(jù),其他平臺本文沒有做討論。
宏基因組
與擴增子相比,宏基因組可以直接提供功能基因圖譜,并能達到更高的分類注釋分辨率。然而,由于數(shù)據(jù)量大,大多數(shù)軟件只能用于Linux系統(tǒng),需要大量的計算資源來進行分析。為了便于軟件安裝和維護,建議使用包管理器Conda和BioConda來部署宏基因組分析流程。
原始數(shù)據(jù)處理:KneadData、Bowtie 2+Trimmomatic
clean reads轉換為分類表/功能表:MetaPhlAn2、Kraken 2(基于readsbase);MEGAHIT/metaSPAdes、metaGeneMark/Prokka(基于組裝)
功能分析:HUMAnN2/MEGAN
另外,建議使用諸如MetaWRAP或DAStool的分箱流程,基于其集成的多個分箱軟件包,可獲得精確的分箱結果和更少污染/更完整的基因組,還為評估和可視化提供實用腳本。
擴增子&宏基因組分析結果
α多樣性評估樣本內的多樣性,包括豐富度和均勻度。可以使用幾個軟件包計算α多樣性,包括QIIME、R包vegan和USEARCH。
β多樣性評估樣本間微生物群的差異,通常與主坐標分析(PCoA)、非度量多維標度(NMDS)或約束主坐標分析(CPCoA)等降維方法相結合。這些分析可以在R-vegan包中實現(xiàn),并在散點圖中可視化。
分類組成描述了微生物群落的組成,通常使用堆積條形圖來可視化。為了簡單起見,微生物群通常顯示門或屬水平。
差異比較可確定組間豐度顯著不同的特征(如物種或基因),結果可以使用火山圖、曼哈頓圖或擴展誤差條形圖進行可視化。一般使用Welch’s t-test, MannWhitney U test, Kruskal-Wallis test, 或 ALDEx2, edgeR , STAMP ,LEfSe 等工具分析。
相關性分析用于揭示分類單元與樣本元數(shù)據(jù)之間的關聯(lián)。例如,它用于識別分類群與環(huán)境因素(如pH值、地理位置和臨床指數(shù))之間的關聯(lián)。
網(wǎng)絡分析從整體的角度探究特征的共現(xiàn)性。相關網(wǎng)絡的特性可能代表共同發(fā)生的類群或功能途徑之間的潛在相互作用。可以使用R中的cor.test()函數(shù)或適用于諸如SparCC包等成分數(shù)據(jù)的更強大的工具來計算相關系數(shù)和有效的P值。還可以使用R庫igraph、Cytoscape或Gephi對網(wǎng)絡進行可視化和分析。
在微生物研究中,機器學習用于分類、β多樣性分析、特定特征的組合分析。常用的機器學習方法包括隨機森林、Adaboost和深度學習,通過選擇生物標志物或回歸分析對組進行分類,以顯示生物標志物豐度的實驗條件依賴性變化。
Treemap廣泛應用于系統(tǒng)發(fā)育樹的構建、微生物組的分類注釋和可視化。代表性的擴增子序列易于用于系統(tǒng)發(fā)育分析。我們建議使用IQ-TREE通過大數(shù)據(jù)快速構建高可信度的系統(tǒng)樹,并使用iTOL在線可視化。可以使用R腳本table2itol(https://github.com/mgoeker/table2itol)輕松生成樹的注釋文件。此外,我們建議使用GraPhlAn在一個有吸引力的分支圖中可視化系統(tǒng)發(fā)育樹或層次分類法。
可重復性對于微生物組分析至關重要,建議研究人員共享測序數(shù)據(jù),元數(shù)據(jù),分析代碼。其中測序數(shù)據(jù)和元數(shù)據(jù)可保存至相關數(shù)據(jù)庫(例如CNGBdb等);使用R Markdown或Python Notebooks之類的工具來跟蹤所有分析代碼和參數(shù),并將它們存儲在版本控制管理系統(tǒng)中(例如GitHub)。
首發(fā)公號:國家基因庫大數(shù)據(jù)平臺
參考文獻
Liu Y X, Qin Y, Chen T, et al. A practical guide to amplicon and metagenomic analysis of microbiome data[J]. Protein & cell, 2020.
圖片來源:均來源于參考文獻,如有侵權請聯(lián)系刪除。