大數據系統發育學的原理、機遇和陷阱(一)

最近幾天讀文獻,讀到了一篇2019年Andrew D. Young
Jessica P. Gillung發表在Phylogenomics
關于系統發育學的綜述Phylogenomics — principles, opportunities and pitfalls of big‐data phylogenetics,很不錯,就翻譯一下以供查閱。

1 引言

? 系統發育基因學是重建地球生命進化史的科學。傳統上,系統發育僅使用形態學數據來構建,但是1970年代末期Sanger測序和PCR的引入使遺傳信息可以納入系統發育分析中。早期采用多基因座分析的系統發育研究極大地促進了我們對系統發育歷史的了解,并挑戰了許多系統發育和動物之間關系的公認觀點。自這些開創性研究發表以來,測序和分析技術均在方法學上取得了重大進展,分子系統發育已被廣泛接受,以代表強有力的有機關系假說。于2000年代中期開發的下一代測序技術徹底改變了DNA測序技術,并大大降低了每個核苷酸的測序成本,并大大提高了數據生成速度。結果,對于模型生物和非模型生物而言,產生史無前例的序列數據已變得負擔得起。這一發展已將分子系統學領域轉變為系統基因組學-從多個樣本中獲得基因組規模的數據可以降低成本(Mardis,2011)

? 系統發育學流水線可能非常復雜,呈現出大量方法可用于大規模數據集的采集,處理,分析和解釋。研究人員還必須克服測序策略設計,直系同源基因座識別,模型選擇和系統發育估計的挑戰。對于剛進入該領域的研究人員(學生和成熟的科學家)而言,這尤其令人生畏,他們希望深入研究新穎的方法和數據來重建研究組的發展。在這里,我們介紹了系統發育學至關重要的理論和工具的入門級概述,重點是對基因組數據的系統發育分析有用的技術的適當應用。我們專注于系統發育估計的測序技術和統計方法,以及實現這些方法的軟件及其在大型分子數據集中的應用。我們還討論了用于改善系統生物學分析準確性的工具和折衷方法,包括系統發育估計中系統誤差的生物學和方法學來源。最后,我們提供了系統發育組學中常用術語的詞匯表,這些術語對于那些進入該領域并希望通過該相對較新但快速發展的領域固有的眾多方法,分析工具和術語進行分類的人員而言可能很有用。

2 什么是系統發育(基因組)學?

? “系統發育(基因組)學”一詞最初是在預測基因組規模數據的基因功能的背景下引入的(Eisen,1998),隨后在系統發育推斷的背景下引入(O′Brien&Stanyon,1999)。系統基因組學的存在源于過去二十年來DNA測序技術的進步(Metzker,2010)。它包括分子生物學和進化生物學之間的若干研究領域,并有兩個主要目標:(i)推斷類群之間的系統發生關系,并深入了解分子進化的機制;(ii)使用多物種系統發育比較來推斷DNA或蛋白質序列的推定功能。

? 傳統的Sanger測序研究包括相對較少的基因座,因此受到隨機或采樣誤差的限制。由于在一個或幾個基因中只有相對少量的系統信息學特征,這種隨機的“噪聲”會影響骨干節點的推論,從而可能導致系統樹發育不佳或支撐不佳。通過使用大量的序列數據可以成功解決此問題。平均而言,現代基因組學分析利用了整個基因組中數百至數千個基因的優勢,比傳統的Sanger測序數據集平均要大幾個數量級。因此,這些數據集的大小顯著降低了隨機錯誤和數據可用性(作為限制因素)的影響,為解決生命樹中歷來頑強的節點提供了廣闊的前景。

? 高通量測序技術[也稱為下一代測序(NGS)](圖1)已經產生了數量巨大的基因組規模數據。下一代測序技術與Sanger方法的根本不同之處在于,它們可進行大規模的平行DNA測序,同時以較低的成本同時提供多個樣品的超高通量(Mardis,2011)。數以億計的DNA核苷酸可以并行測序,從而產生更多數量級的數據,并最大限度地減少了Sanger測序所用片段克隆方法的需要(圖1)。NGS技術的最新進展以及生物信息學工具的迅速發展,現在使任何規模的研究小組都能為感興趣的生物生成大量的基因組序列。高通量測序可用于全基因組測序(Lam,2012),全基因組鳥槍測序(也稱為RNA測序,RNA-seq或轉錄組學;Wang,2009),全外顯子測序(Rabbani,2014)和減少表示的基因組測序(也稱為靶標富集)(例如,Faircloth,2012Lemmon,2012)。

image.png

? 表1總結了系統發育組學中最常用的測序技術。有關這些不同技術的更多詳細信息,請參閱Genohub的《下一代測序入門手冊》(https://genohub.com/next-generation-sequencing-handbook/)(另請參閱Ambardar,2016Besser et al.,2018以及其中的參考)。為系統發育遺傳學研究選擇合適的測序技術會對下游工作流程產生重要影響,尤其是在reads長度方面,因為某些系統發育遺傳學技術(例如超保守元素和錨定的雜交富集,討論后文)中的文庫制備需要一個已選擇大小的步驟。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,505評論 6 533
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,556評論 3 418
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,463評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,009評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,778評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,218評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,281評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,436評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,969評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,795評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,993評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,537評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,229評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,659評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,917評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,687評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,990評論 2 374