宏基因組學研究—宏基因組Reads的組裝與分類/分箱

1. 高通量測序是探索宏基因組學研究的一個工具

1.1與參考基因組進行Mapping來重構宏基因組Reads

許多微生物未被分離,數據庫中無相關信息;??

利用宏基因組Reads與當前已知數據庫進行比較分析,可以對數據產生新的理解;??

已測序的基因組是宏基因組Reads來源確定最可靠的基礎,探索與先前基因組密切相關的生物體基因組結構;?

從獨立測序轉變成從環境中直接測序感興趣的生物體的開始;??

已分離微生物但未測序的數量巨大,提交公開的數據遠小于需求;??

參考基因組用于宏基因組分析會因所分析數據的規模大小而更加復雜;??

需要新的算法來支持宏基因組數據與參考數據庫之間的比較分析;??

盡管存在局限性,參考基因組已經被有效的應用于宏基因組數據分析;??

宏基因組數據與參考基因組比對也可以提供對特定樣本中特定微生物適應性提供新的見解。

1.2?TaxonomicClassification/Binning

基于Reads與已知序列Mapping的方法,沒辦法表征大量尚未分離和測序的微生物群體。??

現有的比對算法只能發現近緣關系,且僅能用于分析數據庫中與基因組最密切相關的環境微生物。?

在“taxonomicbinning”或“taxonomicclassification”的過程中使用機器學習技術可以推斷遠緣關系。 這類工具試圖將每個Reads比對到分類學中一個近乎廣泛的分類群“bin”中(例如屬或者科)。

一款軟件:MEGAN,基于BlastSearch用于鑒別Reads跟數據庫中已知分類序列的匹配性。??

其他方法:K-mer(短序列模式比對),利用機器學習技術,對由已知基因組構建的數據庫進行匹配。?

不同分類中DNA組分具有一定相似性,當不能利用比對而進行分類:基于“Self-OrganizingMaps”的工具,插值馬爾可夫模型—Phymmbl、樸素貝葉斯分類器—NBC和支持向量機—Phylopythia。??

基于組合( Compositional )的方法,可能會受到非尋常基因組區域或橫向基因轉移的影響。這些局限性可以通過關注系統發育信息的特定基因來解決,即,它們的組成與有機體的進化歷史相關。工具包括:Amphora、Metaphler、MetaPhlAn和mOTU。

1.3?de novo組裝構建宏基因組短序列基因集

對宏基因組序列進行廣泛分類不足以理解一個群落中微生物的功能。因基因組相關,但在臨床功能上卻不同(例如:共生和致病大腸桿菌菌株)。??

人類腸道菌群在功能上的相對穩定,但微生物組成和種類差異較大。??

從宏基因組數據中重建基因或基因組是向著更好地描述其功能,邁出重要的第一步,盡管有些分析可以從獨立的Reads開始。??

組裝任務相對艱巨,即使是獨立的基因組組裝同樣如此,組裝復雜的原因如下:1)低豐度的生物體由于缺乏覆蓋而無法有效地組裝;2)群落成員之間豐度/覆蓋范圍的巨大差異使基因組重復序列的鑒定變得困難;3)緊密相關的生物體之間的真正差異與測序錯誤不容易區分。

根據宏基因組數據的特征開發的工具包括:Meta-IDBA、Meta-Velvet和集成的分析流程,包括組裝和下游分析,例如基因查詢與分類—MOCAT和MetAMOS。??

注意:對復雜微生物群體的重要組成部分進行有效測序對重新構建基因組的能力并不明顯。測序深度足夠才能確保數據可以被組裝,但成本昂貴,且生成了足夠數據,也不易對數據進行計算分析。在與宿主相關的群落中,人類DNA污染極大地降低了有效測序深度,因此,強調了制定富集樣品微生物策略的必要性。另外,高度復雜的群落,如土壤,分析仍然是一個重大挑戰。

盡管組裝的目的是重建整個基因組,但宏基因組組裝后輸出是高度碎片化的,需要額外的分析來確定屬于同一基因組的contig集合。基于組合的方法和覆蓋度信息可達成此目的,盡管更詳細的數據分析可能需要手動檢查裝配結果。??

由于組裝宏基因組數據缺乏連續性及其復雜性,迄今為止的研究大多集中于表征數據的基因含量,而不是重建個體微生物。這些分析揭示了微生物生態系統中隱藏著巨大的基因多樣性。

1.4?宏基因組基因集的聚類

宏基因組基因集的龐大規模,使得分析和解釋結果數據變得困難。解決途徑之一:使用多樣本的豐度基因(通過將宏基因組ReadsMap到基因集)來識別具有相關豐度的基因。具有高度相關豐度的基因可以推斷來自同一個染色體,從而可以重建虛擬基因簇。然而,由于環境成員之間的共生或互惠的相互作用,高相關性可以預期,同時環境成員這一因素可能導致來自不同生物體的基因錯誤聚類。相反,可變基因,如前噬菌體區域,不會與含有它們的生物體聚集在一起,因此很難利用這些基因簇來研究微生物對環境的特殊適應。??

盡管存在局限性,但基因簇越來越多地被用于詮釋宏基因組數據,并簡化分析過程。

基因簇也可以作為一個框架,人們可以圍繞著它來重建宏基因組生物體,方法是通過迭代收斂宏基因組ReadsMap到簇內基因,然后組裝得到的序列。??

構建基因組的質量是關鍵問題,需要嚴苛的標準。

1.5?宏基因組分析的優勢

大多數宏基因組學研究主要集中在拓展獨立基因組開發的分析方法。宏基因組數據的特殊性,以及宏基因組在大量樣本收集中的應用,使得探索單一培養微生物無法研究的生物學問題成為可能,其中包括試圖揭示群落成員之間的相互作用,探索橫向基因轉移,以及研究微生物生態系統的動態行為。

2.鳥槍法宏基因組微生物分類分析的計算工具

2.1?鳥槍法宏基因組學分類學分析

Taxonomic Profiling:確定微生物群落中存在的有機體及其豐富度通常是揭示這些群落生物學的第一步。分類特征分析是一種計算操作,用于推斷環境微生物群落中,微生物分類情況并且以何種比例(相對豐度)填充環境樣品。??

分類學分析方法的特點:它們都在不同程度上依賴于(已測序微生物的)參考數據庫來為序列分配分類標簽。宏基因組和參考數據庫的規模對分類分析提出了重大挑戰。??

目前用于宏基因組分類分析方法可以根據他們利用參考基因組的直接程度進行劃分:Assembly、Compositional、Mapping、Marker-basedapproaches。

2.2?基于組裝的微生物分類學分析(Assembly-Based)

為了獲取環境樣品中完整基因組的信息,需要復原每個微生物的全長基因組序列,顯然這是理想情況。??

但是利用宏基因組denovo(從頭)組裝技術,宏基因組reads首先組裝成contigs,并且在某些情況下,有可能重建群落中優勢成員的基因組。在組裝步驟后,通過與參考基因組的序列比對,將分類或系統發育信息歸于每個contig。?

軟件:MetAMOS、MOCAT、Ray Meta??

SOAP de novo直接應用于宏基因組數據并獲得一定成功,但是,這些工具不適用于混合基因組的宏基因組項目。

為了處理宏基因組序列,包括由于樣本的量而引起的計算機內存問題,以及跨組織嵌合Contigs或Scanffolds,開發了幾種擴展。??

MetaVelvet和Meta-IDBA是兩款基因基于deBruijn的宏基因組組裝工具,它對宏基因組樣品中高豐度的生物體友好,能形成有效高質量的組裝。??

contigs的分類地位通常是通過比對參考基因組的序列完成的,自動化工具包括:MetaPhyler、PhyloPhlAn。??

這些工具,除了分類學分析外,還提供了一個評估的contigs系統基因組,通過把contigs放在環境微生物系統發育樹中。特別是,PhyloPhlAn利用微生物系統發育中已測序成員的400個最保守的蛋白質來推斷新基因組或宏基因組組裝的contig的系統發育位置。

基于組裝的方法特別適用于微生物組研究尤其是包含大量以前未觀測到(未測序)微生物。被部分參考序列覆蓋的宏基因數據,基于組裝的優勢在于,他們依賴于參考基因組的使用,而其他分析方法則會缺失群落中部分新的微生物信息。??

目前,宏基因組組裝仍然是一個活躍的研究領域,因為緊密相關的生物體、高度保守的DNA區域和水平基因轉移對獲得精確的組裝提出了重大挑戰。

2.3? 組合的方法進行宏基因組數據分箱(COMPOSITIONAL APPROACHES FOR METAGENOMIC BINNING)

組合的方法比較的是序列內在特性,而不依賴于核苷酸或蛋白質序列比對。內在特性包括:GC含量的變化、密碼子使用的偏向性和不同長度k-mers的分布。

在組合方法中,第一步是通過預處理參考基因組(所謂的訓練步驟)建立特有內在特性物種或屬的統計模型。第二步是應用這個模型來比較和分類宏基因組Reads。

實現方法: PhyloPythia/PhyloPythiaS采用基于k-mer統計的支持向量分類器。??

不同的方法使用不用的機器學習工具,包括基于貝葉斯模型的Phymm和NBC,以及采用基于k-nearestneighbor策略的TACOA。

組合方法避免了計算上耗時的序列比對,節省了計算運行時間。與組裝方法類似,它具有很好的包容性,沒有參考序列比對的情況下,對reads進行良好的分類。當有參考序列的情況下,則需要以犧牲低分辨能力為代價。因此,組合分類分析通常僅限于屬級水平解析,此外,低分辨能力會因短序列進一步加劇,基于組合的方法和基于Mapping的方法相結合,可以避免這樣的缺點。

2.4?基于Mapping的宏基因組序列分類

基于Mapping或比對的方法,均根據與參考基因組的序列相似性來分類宏基因組Reads。目前,基于DNAReads與基因組Mapping的工具更具先進性。與類似于BLAST比對的工具相比速度上快幾個數量級。??

它們利用緊湊的指數(例如基于Burrows-Wheeler變換的指數)來有效地識別參考基因組有效序列子集并進行完全比對。雖然BLASTN作為Mapping的底層引擎,更新升級依舊可以形成快速算法(例如:Bowtie2,SOAP2,BWA)。

2.5?基于Marker的分類分析

參考基因組中可用于分類特征分析的大部分基因組信息是非信息性的(例如,跨多個分類群的保守序列),有時甚至是誤導性的(例如,水平轉移的基因)。基于Marker的方法對參考基因組進行預處理,以去除冗余和非歧視性的序列,并專注于最具分類信息的標記。因此,這減少了參考基因組數據庫的大小,降低了計算要求,因為宏基因組樣本僅與每個基因組的一小部分(標記集)進行比較。到目前為止,已有兩類標記被用于分類鑒定:通用標記和特定分支的標記。??

通用標記是指:(i)存在于所有微生物中;(ii)具有可變區域的序列,可作為分類或系統發育標記加以利用。??

通用標記利用了少數普遍保守的基因組序列,這些序列預計存在于尚未測序的微生物中,但不能利用構成微生物基因組大多數的非普遍存在的基因。

微生物基因組中非普遍存在的區域可以被著重放在每個分類分支(例如,每個物種)唯一存在的分支特異性標記基因上。這些基因被定義為給定分支內的核心基因,與分支外的任何其他基因沒有序列相似性。因此,它們是每個微生物分支的獨特指紋,只需檢查它們在宏基因組中的存在與否,就可以高精度地鑒別出密切相關的微生物。?

軟件:MetaPhlAn

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容