前言
植物基因組大小跨越幾個數(shù)量級,倍性和雜合性變化,以及新舊基因組轉(zhuǎn)座子變化等帶來組裝挑戰(zhàn)。三代和物理圖譜提供了新機會,單倍型定相、結(jié)構(gòu)變異分析、從頭泛基因組研究成為新興組裝熱點。
植物基因組發(fā)展:
- 擬南芥:sanger BAC-by-BAC。
- shotgun OLC (CELERA assembler):木瓜、大豆、楊樹等早期測序植物。
- 454/Illumina DBG 短序列高深度帶來植物基因組組裝大爆發(fā),但質(zhì)量較低。
- 單分子PacBio長度長帶來接近完整染色體組裝。
- 輔助技術(shù)發(fā)展:Hi-C/BioNano(無需昂貴的BAC物理圖譜)
- ONT納米孔能達(dá)上Mb,組裝擬南芥、番茄、高粱、香蕉、甘藍(lán)等更連續(xù)和完整的版本。
在過去20年種,有400多個植物基因組已發(fā)表,包括333個被子植物,15個非被子植物、2個輪藻和44個綠藻。
可查閱:
https://www.plabipd.de/portal/web/guest/sequenced-plant-genomes
1. 單分子長度長測序
PacBio通過CCS產(chǎn)生HiFi 15 kb reads的方法準(zhǔn)確率高達(dá)99.8%,解決了錯誤率問題,但每條read成本高了近5倍。
基因組測序的發(fā)展,在基因組完整度上已經(jīng)有了很大提升。
2. 長度長基因組組裝的錯誤傾向
新算法的設(shè)計目的:correct, overlap, and polish long reads with high error-rates。
算法隨計算設(shè)計、速度、內(nèi)存使用、復(fù)雜基因組利用而變化。
- 自糾方法self-correction:CANU、Falcon(phase/unzip)、MARVEL、MECAT。利用reads相互比對,需要較高覆蓋度。
- correction-free:基于OLC的minimap2/miniasm、基于DBG的wtdbg2和Flye。要求更高復(fù)雜度的基因組。
組裝的草圖有誤差,必須用高覆蓋度的長讀長或短讀長polish,一般大于三次可達(dá)到>99.6%的準(zhǔn)確性。
- long reads:Quiver/Arrow (PacBio)、Medaka (ONT)、Nanopolish、Racon。
- short reads:Pilon
PacBio CCS HiFi軟件:Peregrine
3. 物理圖譜技術(shù)
- a.Hi-C
-
b.Optical maps
image.png
4. 解決復(fù)雜植物基因組
如下圖,兩條染色體組裝時定相,雜合基因組phasing有如下方法:
- 右上:嵌合假分子,簡化下游分析。
- 右中:原始reads比對到contigs,解決缺失的單倍型區(qū)域,建立一個定相的二倍體組裝。
-
右下:保留部分單倍型,并在基于圖的組裝中加以標(biāo)記。
image.png
5. 利用組裝圖
組裝經(jīng)典指標(biāo)是N50,或者最短序列長度大于組裝的50%,方法過于簡單。
利用組裝圖可以可視化復(fù)雜度和鄰接contig的overlap。
- 純合簡單基因組(左上圖):理想的graph對于每個contig(節(jié)點)只有一條邊和鄰接序列相連。
- 氣泡圖(左下圖):高雜合性,節(jié)點(單倍型)被多條邊連接。
- 復(fù)雜重復(fù)(右上圖):在圖結(jié)構(gòu)中較模糊,如rRNA,centromeric satellite DNA。
-
毛團(tuán)(hairballs,右下圖):多拷貝重復(fù),無清晰路徑,節(jié)點互交。
image.png
當(dāng)參考基因組被泛基因組取代時,基因組圖論將是代表復(fù)雜基因組更好的方法。
挑戰(zhàn)和展望
挑戰(zhàn):
- 多倍體和雜合度
展望:
- 基因組完整、少gap、定相。
- denovo替代重測序,挖掘更多多樣性,用于群體遺傳和泛基因組分析。
- 基因組注釋將落后于組裝,提高注釋質(zhì)量需要新技術(shù)(如全長cDNA,PacBio Iso-seq等)以及新算法。
參考文獻(xiàn):Todd PMichael. Building near-complete plant genomes. Curr Opin Plant Biol. 2020 Apr;54:26-33.