最近在使用老版本的基因組時,需要從V4轉到V3,使用Picard的Liftover函數一直報錯,經查詢可能是基因組文件有問題。在經歷多次探索,發現基因組文件不正確。
基因組文件格式一般是:fasta或者是fa.gz
在基因組組裝時,是從contig組裝成scaffold,然后在根據圖譜,組裝到Chromosome染色體上。
我把Scaffold當作Chromosome格式使用,程序自然會報錯。
目前可以使用三代測序數據重新組裝基因組,從scaffold到chromosome水平。
最新的工具:RaGOO(基于minimap2). github
論文
contig/scaffold 和 N50/N90
把測序的reads拼接,如果可以完全拼接起來,中間沒有gap,則是contig.如果中間有gap,但是知道gap的長度,這樣的序列稱為scaffold.
contig N50 和scaffold N50
把contig或scaffold按照從大到小的順序排列,長度達到基因組大?。ㄋ衏ontig或scaffold的長度)的50%時,那條contig/scaffold的長度,即為contig/scaffold N50. N50越大,說明基因組組裝的質量越高。同理還有N90,即達到基因組大小90%時的contig/scaffold的長度。