最近幾天讀文獻,讀到了一篇2019年Andrew D. Young 和
Jessica P. Gillung發表在Phylogenomics
關于系統發育學的綜述Phylogenomics — principles, opportunities and pitfalls of big‐data phylogenetics,很不錯,就翻譯一下以供查閱。
1 引言
? 系統發育基因學是重建地球生命進化史的科學。傳統上,系統發育僅使用形態學數據來構建,但是1970年代末期Sanger測序和PCR的引入使遺傳信息可以納入系統發育分析中。早期采用多基因座分析的系統發育研究極大地促進了我們對系統發育歷史的了解,并挑戰了許多系統發育和動物之間關系的公認觀點。自這些開創性研究發表以來,測序和分析技術均在方法學上取得了重大進展,分子系統發育已被廣泛接受,以代表強有力的有機關系假說。于2000年代中期開發的下一代測序技術徹底改變了DNA測序技術,并大大降低了每個核苷酸的測序成本,并大大提高了數據生成速度。結果,對于模型生物和非模型生物而言,產生史無前例的序列數據已變得負擔得起。這一發展已將分子系統學領域轉變為系統基因組學-從多個樣本中獲得基因組規模的數據可以降低成本(Mardis,2011)
? 系統發育學流水線可能非常復雜,呈現出大量方法可用于大規模數據集的采集,處理,分析和解釋。研究人員還必須克服測序策略設計,直系同源基因座識別,模型選擇和系統發育估計的挑戰。對于剛進入該領域的研究人員(學生和成熟的科學家)而言,這尤其令人生畏,他們希望深入研究新穎的方法和數據來重建研究組的發展。在這里,我們介紹了系統發育學至關重要的理論和工具的入門級概述,重點是對基因組數據的系統發育分析有用的技術的適當應用。我們專注于系統發育估計的測序技術和統計方法,以及實現這些方法的軟件及其在大型分子數據集中的應用。我們還討論了用于改善系統生物學分析準確性的工具和折衷方法,包括系統發育估計中系統誤差的生物學和方法學來源。最后,我們提供了系統發育組學中常用術語的詞匯表,這些術語對于那些進入該領域并希望通過該相對較新但快速發展的領域固有的眾多方法,分析工具和術語進行分類的人員而言可能很有用。
2 什么是系統發育(基因組)學?
? “系統發育(基因組)學”一詞最初是在預測基因組規模數據的基因功能的背景下引入的(Eisen,1998),隨后在系統發育推斷的背景下引入(O′Brien&Stanyon,1999)。系統基因組學的存在源于過去二十年來DNA測序技術的進步(Metzker,2010)。它包括分子生物學和進化生物學之間的若干研究領域,并有兩個主要目標:(i)推斷類群之間的系統發生關系,并深入了解分子進化的機制;(ii)使用多物種系統發育比較來推斷DNA或蛋白質序列的推定功能。
? 傳統的Sanger測序研究包括相對較少的基因座,因此受到隨機或采樣誤差的限制。由于在一個或幾個基因中只有相對少量的系統信息學特征,這種隨機的“噪聲”會影響骨干節點的推論,從而可能導致系統樹發育不佳或支撐不佳。通過使用大量的序列數據可以成功解決此問題。平均而言,現代基因組學分析利用了整個基因組中數百至數千個基因的優勢,比傳統的Sanger測序數據集平均要大幾個數量級。因此,這些數據集的大小顯著降低了隨機錯誤和數據可用性(作為限制因素)的影響,為解決生命樹中歷來頑強的節點提供了廣闊的前景。
? 高通量測序技術[也稱為下一代測序(NGS)](圖1)已經產生了數量巨大的基因組規模數據。下一代測序技術與Sanger方法的根本不同之處在于,它們可進行大規模的平行DNA測序,同時以較低的成本同時提供多個樣品的超高通量(Mardis,2011)。數以億計的DNA核苷酸可以并行測序,從而產生更多數量級的數據,并最大限度地減少了Sanger測序所用片段克隆方法的需要(圖1)。NGS技術的最新進展以及生物信息學工具的迅速發展,現在使任何規模的研究小組都能為感興趣的生物生成大量的基因組序列。高通量測序可用于全基因組測序(Lam,2012),全基因組鳥槍測序(也稱為RNA測序,RNA-seq或轉錄組學;Wang,2009),全外顯子測序(Rabbani,2014)和減少表示的基因組測序(也稱為靶標富集)(例如,Faircloth,2012;Lemmon,2012)。
? 表1總結了系統發育組學中最常用的測序技術。有關這些不同技術的更多詳細信息,請參閱Genohub的《下一代測序入門手冊》(https://genohub.com/next-generation-sequencing-handbook/)(另請參閱Ambardar,2016;Besser et al.,2018以及其中的參考)。為系統發育遺傳學研究選擇合適的測序技術會對下游工作流程產生重要影響,尤其是在reads長度方面,因為某些系統發育遺傳學技術(例如超保守元素和錨定的雜交富集,討論后文)中的文庫制備需要一個已選擇大小的步驟。