這套流程主要特點(diǎn)是消耗資源比較少,1G以內(nèi)的基因組,內(nèi)存不要低于128G,最好能搞到256G,但是再多對(duì)這套流程用不上,更大的基因組沒(méi)有測(cè)試過(guò)。
測(cè)序數(shù)據(jù)為100x以上的PacBio+100X左右的illumia+Hi-C。
一、組裝程contig:wtdbg2 三代基因組組裝
PacBio數(shù)據(jù)不需要糾錯(cuò),直接使用wtdbg2進(jìn)行組裝成contig
1,組裝成contig:wtdbg2;
2,提取一致性序列:wtpoa-cns;
二、對(duì)組裝的contig進(jìn)行polish:
1,用三代數(shù)據(jù)進(jìn)行polish,軟件為Racon,進(jìn)行2~3輪就好;Racon三代數(shù)據(jù)糾錯(cuò)2021-01-19
2,使用二代測(cè)序數(shù)據(jù)進(jìn)行polish,軟件為nextpolish,進(jìn)行2輪;使用nextpolish對(duì)三代組裝進(jìn)行polish
注意:必須先三代再二代,缺一不可,順序不可顛倒。
三、利用Hi-C數(shù)據(jù)構(gòu)建將糾錯(cuò)后的contig組裝為scaffold:3D-DNA 掛載染色體
1,利用juicer,獲得非冗余的比對(duì)位點(diǎn):juicer
2,利用3D-DNA,初步組裝獲得scaffold:run-asm-pipeline.sh
3,利用juicerbox進(jìn)行手工糾錯(cuò):juicerbox
4,糾錯(cuò)數(shù)據(jù)再次利用3D-DNA進(jìn)行組裝:run-asm-pipeline-post-review.sh
非常費(fèi)時(shí)間。另外組裝效果好不好非??粗豭uicerbox的結(jié)果,經(jīng)驗(yàn)豐富手氣好,組裝的就好。
四、利用ALLHiC掛載成染色體:
1,創(chuàng)建Allele.ctg.table文件ALLHiC續(xù): 如何構(gòu)建Allele.ctg.table
2, 將scaffold連接成染色體使用ALLHiC基于HiC數(shù)據(jù)輔助基因組組裝 基于3D-DNA,ALLHiC掛載二倍體基因組
? ? 所有給定的例子里面,除了第三步以外,所有的bwa mem都可以用bwa-mem2代替,速度可以加快很多。