生信老司機教你如何做基因組項目

作者:hony
審稿:童蒙
編輯:angelica

引言

轉眼間,從事生信工作已數年有余。在這期間,一直專注于基因組方面。項目經驗較多,涉及的物種也從微生物擴展到動植物,但其中不乏有各種奇怪的項目,遇到各樣匪夷所思的問題,也難免有不甚理想的結果。從中既是體會到了成長的痛苦,也感受過更多開花結果的喜悅。

猛然間,從內心流露出一絲希冀,想要證明自己在所愛的路上,曾經努力過,也終有所得。隨后我將記錄生信道路上的點滴。給眾多想要做好這方面工作的人一個“彎道超車”的機會,希望大家能從中收獲很多。

今天將介紹一下組裝分析的整體框架,后續會逐步細化。

對于還未做過基因組組裝的老師,肯定會有幾個問題要問:

  • 目前基因組都是怎么做的,我的材料要怎么做。

  • 組裝完成后,怎么判斷基因組版本的好壞。

是不是現在腦瓜子嗡嗡的?淡定,我來幫你解答心中疑問。

問題1:目前基因組都是怎么做的,我的材料要怎么做?

  • 開啟基因組項目之前的準備工作

正所謂“知知己知彼,百戰不殆”。做項目如同作戰一般,要提前做好功課。第一個要解決的問題就是材料的基因組多大,復雜度如何?因此,做基因組之前強烈推薦做survey和流式,確定一下基因組大小和復雜度

在正式進行基因組組裝之前,都會進行survey評估,以此衡量基因組的大小、復雜度和雜合度。

那么有很多老師問,可不可以不做流式呢?答案是不做也行,做了更好。如果基因組不是特別復雜,survey分析所用的測序數據量足夠,結果理想、準確。那恭喜您!而一旦出現問題,在有流式結果的情況下,就可以用來驗證,特別是在survey結果出現多峰情況,無法判定主峰之時,流式的結果顯得尤為重要。

  • 該如何選擇測序方案

截至2020年1月份,目前針對基因組的組裝可采用多種技術(如下圖)。

圖1 目前各種測序技術對基因組組裝的貢獻

技術紛繁復雜,為了獲得染色體級別組裝的基因組(基因組Plus版),如下操作。

1.技術選擇

  • 第一步,構建contig

目前常用的技術是使用Pacbio和Nanopore技術進行基因組的contig構建。

  • 第二步, scaffold的構建,可選項

一般采用的技術都是10X genomics和Bionano技術。這兩種技術為可選,究其原因為10X和Bionano是一種將contig連接成scaffold的過程,簡單理解成將組裝好的contig進行排序和定向,中間加入預計長度的N。此外,Bionano可預測gap的長度,同時兼具對組裝的contig糾錯功能,發現組裝過程中的錯誤,從而打開錯誤的位置,以備后續的正確排序和定向。

另外要提及的是,在基因組組裝方面,10X技術不僅可以用來構建scaffold,同時測序深度足夠的話,可以直接進行基因組組裝,功能很強大的喲。

  • 第三步,Hi-C技術,必選項

該技術稱為染色質構象捕獲技術,準確度可以媲美早期的遺傳圖譜。一般而言該技術98%的材料都需要糾錯,因此一定要注意選擇合適的合作伙伴,該技術用在組裝上說,可謂是省時、省心、省錢。

2.策略選擇

目前是Pacbio或ONT選擇其一,10X或者Bionano可選也可不選,主要目的是糾錯和把部分contig以gap的形式進行初步連接。Hi-C技術則為必選項,將contig/scaffold連接成染色體級別。

至此,目前常用組裝技術已簡要介紹。那組裝結果,是“合格品”還是“殘次品”呢?我們接著往下看。

問題2:如何評估組裝結果的好壞?

一般而言,我們關注以下幾個指標:1. 基因組大小;2.contig N50;3.回帖率和覆蓋度;4.BUSCO評估;5.單堿基準確度。

1.基因組大小

基因組大小一般會跟survey和流式預估相差不大,但并非一定如此。這兩種技術只是一種預測基因組大小的方法,所以與真實基因組大小可能會存在一定的差異。最終組裝的基因組大小還會受到材料的雜合度和重復度的影響。雜合過高,可能把雜合的區域也一并組裝出,一般組裝結果會可能偏大。重復度則需要考慮到測序手段,如果測序的長度能夠跨過重復區域,組裝出的基因組大小不會有很大差異,如果跨不過去,那很大程度上會組裝的少些,重復區域只能組裝出一部分。

2.contig N50

contig N50,是組裝結果最直觀的體現。以蘋果的基因組文章為例[zhang, et al., 2019],利用Pacbio+Hic的技術,大大提高了基因組的組裝質量,其中一個重要指標就是contig N50,比10年發表在NG上基因組提高了近460倍(contig N50從13k到6.99Mb),享受了技術帶來的福利。

N50是一個值得關注的指標。下表是桃的基因組文章中統計了部分物種的組裝質量,比較了多個物種的N50的指標。

表1 各植物基因組質量統計表[Verde, et al., 2013]

那是不是所有材料都會達到如此高水平的組裝效果呢?

就目前技術,針對不是特別復雜的基因組,contig N50都可以達到Mb級別。這種Mb級別的contig長度,針對基因組組裝后的注釋分析而言,就準確度和完整度方面足以。因為對于基因組當中,這些contig連接不起來的區域,一般情況下都是基因組的復雜區域,而該區域包含基因的概率很低,因此對基因注釋的影響一般不會很大。

但是,需要注意的是,并非所有物種組裝后的contig N50都會很高,所以對這個值要理性看待。在這幾年的實踐中,我們遇到過同樣的技術、同樣的數據量、同樣的算法、不同的材料背景,簡單的基因組就是比復雜基因組裝得好。因此基因組的重復度和雜合度,都會對基因組的這個指標造成或大或小的影響。

因此,需要以“盡信值則不如無值“的理念看到這個問題。當出現異常的時候,積極地去排查,從而才能得到想要的結果。

3.回帖率和覆蓋度

回帖率指的是將同一材料進行二代測序,將二代數據比對至組裝出的基因組,看有多少數據可以比對回去。一般情況都能高于90%以上(95%屬于平均水平),覆蓋度也會在90%以上。在這里,我們會思考這個數據受什么影響呢?

  • 1.基因組中雜合區域的存在。組裝時雜合的區域被去掉了,或者沒有裝出來,這個值就會有所降低。目前都是只裝一套基因組的。因此只要不是特別低,一般情況下說明雜合區域的組裝都沒有問題。

  • 2.二、三代測序技術本身的缺陷。一般來說,二代數據對基因組的覆蓋度可達95%以上,那為啥不是100%呢?由于二代測序技術本身的缺陷,在建庫過程中,經過了PCR過程,那么PCR的缺點就需要接受。高GC、高重復區域不容易被擴增出來,那么基因組中的這部分就很大程度上以未覆蓋的區域存在,所以回帖率不可能達到100%。

  • 3.技術的差異。組裝基因組的框架是采用Pacbio技術,拋開組裝錯誤來說,一般都不會到100%。因為該技術在測序過程中不經歷PCR,因而不會像二代測序一般受到PCR的局限,故而可能會測到二代測不到的區域。由此回帖率也不會達到100%。

4.BUSCO評估

BUSCO是一個核心單拷貝基因庫,根據物種進化關系(界,門,綱等)構建各種單拷貝基因的數據庫。該庫可以用來評估基因組的核心基因是否均組裝出。如下圖所示,已發表物種都在85%以上。

圖2 基因組和基因的BUSCO評估 [Waterhouse, et al., 2017]

一般情況下,基因組評估均能達到90%以上。所以這個值的含金量就會降低,但是就當前現狀來說并未有其他更理想的可替代的評估策略。因此,目前大家還都作為組裝后例行評估而采用。

然而組裝出的基因組效果是層次不齊。可能讀者會有疑問,如果我的評估結果很低的時候該怎么辦呢?不要急,我們來分析一下可能的原因。

物種原因。BUSCO是根據目前發表物種依據序列相似度而整理出的一些核心基因集。若研究材料已知信息較少,那么該分析則會存在偏差,參考意義較小。

如果出現上述情況,怎么辦呢?可將該物種表達的基因測出,比對到基因組上,看有多少基因序列能夠以高覆蓋度的形式存在。如果95%以上的EST都可以90%的覆蓋度比對回去,那組裝結果一定程度上是可信的。

第二種則是組裝結果不良。如果二代數據回帖率評估不過關、比對率較低,側面說明有很多區域沒有組裝出來而導致組裝效果差。

5.單堿基準確度

一般這種方法針對二倍體材料可以采用。將在糾錯階段未使用的另一批二代數據比對回基因組,進行SNP calling。對于二倍體而言,某些位點應該最多有兩種堿基型,如果鑒定到的變異位點ref的類型沒有數據支持,或者該位點有多種堿基類型,那該位點很大概率上是有問題的。

結語

上述長篇大論相信大家對于組裝整體框架有了一個感官的了解和認識,在此恭喜大家,入門了。此時是否有更多的疑惑溢出,比如 Pacbio和Nanopore如何選擇呢?如何構建染色體級別的染色體呢?別急,欲知后事如何,且看下回分解。

參考:

Verde I, Abbott A G, Scalabrin S, et al. The high-quality draft genome of peach (Prunus persica) identifies unique patterns of genetic diversity, domestication and genome evolution[J]. Nature genetics, 2013, 45(5): 487.

Waterhouse R M, Seppey M, Sim?o F A, et al. BUSCO applications from quality assessments to gene prediction and phylogenomics[J]. Molecular biology and evolution, 2017, 35(3): 543-548.

Zhang L, Hu J, Han X, et al. A high-quality apple genome assembly reveals the association of a retrotransposon and red fruit colour[J]. Nature communications, 2019, 10(1): 1494.

作者:hony
審稿:童蒙
編輯:angelica

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,936評論 6 535
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,744評論 3 421
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,879評論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,181評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,935評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,325評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,384評論 3 443
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,534評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,084評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,892評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,067評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,623評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,322評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,735評論 0 27
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,990評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,800評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,084評論 2 375