組裝策略
二代測序平臺如Illumina、BGI,穩定可靠,數據質量高,成本低,讀長短。
三代測序平臺如PacBio、Nanopore,超長讀長、無PCR擴增,錯誤率高,成本高。
現在物種的簡單基因組基本已完成大多,純二代組裝已經沒什么意義,復雜基因組或者高質量基因組基本都是三代測序為主。
由于經費限制,現在多為“”二代+三代“”以下兩種組合策略:
- 以三代為主組裝,二代糾錯;
- 以二代為主組裝到contig,三代scaffolding和gapfilling。
目前第一種策略為主流。
輔助技術
輔助組裝解決的關鍵問題:contig/scaffold的順序和朝向。
BioNano
光學圖譜技術是一個利用單個DNA分子基因組限制性內切酶圖譜快速生成高分辨率、有序的全基因組限制性內切酶圖譜的方法。
目的是增加基因組Scaffold長度;減少Scaffold數量;對已組裝的基因組進行糾錯;檢測大片段結構變異。Hi-C
一般為PE150測序。通過染色體構象捕獲(3C)來確定全基因組范圍內染色質DNA在空間位置上的關系,分群聚類。
一般用來連接scaffold到染色體水平。如果不借助遺傳圖將基因組掛載到染色體水平。每一個基因組都需要一個Hi-C。遺傳圖譜
一般連接染色體。不同的遺傳圖譜結果可能有差異,可以將多個圖譜進行整合。轉錄組
先組裝轉錄組,再比對到參考基因組,更多的是用于輔助基因組注釋。
一般為PE150或三代全長Iso-seq,測多個不同組織。10X genomics
同一長片段的reads加上相同的barcode信息,即linked-reads,從而提高reads的長度,本質上還是二代Illlumina測序。一般將short-read測序和10X的linked-read結合,可獨立于三代。
隨著三代的準確性提高和成本降低,未來基因組組裝的標配:
PacBio純三代組裝contig + 光學圖譜進行糾錯與super scaffold組裝 + 遺傳圖譜或HiC進行染色體組裝。
三代+光學+Hi-C策略示意圖:
PacBio補充
相比于Nanopore(電信號),PacBio(熒光信號)用得更多,主要有兩種模式:
- CLR(20-30kb),耗時長,準確性較低
- CCS(15kb,HiFi),快,自身矯正,準確性較高
測序深度?
自然越深越好,經費不足,可能20~50X,充足70 ~100X。
二代測序的深度最好能達100X,而且一般要結合不同大小片段文庫(PE和Mate)。
流程
主要分析內容
組裝
- 質控
- 三代組裝成contig
- contig組裝scaffold、chromosome
- 糾錯
- 去污染(線粒體和葉綠體)
評估
- contig、scaffold N50
- 染色體數目
- BUSCO完整性評估
注釋
- 重復序列
- 基因結構
- 基因功能
- 非編碼RNA
比較基因組
- 基因家族聚類
- 系統進化樹
- 分歧時間估算
- 基因家族擴張與收縮
- 基因組共線性
- 正選擇
- 全基因組復制
解析Illumina+PacBio組裝策略
10X Genomics vs. PacBioSOAPdenovo組裝軟件使用記錄HiFi Reads基因組組裝:快、準、狠