基因結(jié)構(gòu)預(yù)測(cè)中同源注釋策略,將mRNA、cDNA、蛋白、EST等序列比對(duì)到組裝的基因組中,在文章中通常使用以下比對(duì)軟件:
- tblastn
- gamp
- exonerate
- blat
根據(jù)我的實(shí)測(cè),以上軟件整體都比較慢。gmap可設(shè)置多線程來提升速度。tblastn雖然也可以,但對(duì)提速?zèng)]什么影響。exonerate和gamp巨吃內(nèi)存。
以下是跑的資源情況。我的組裝基因組約400Mb。tblastn的查詢序列311764條,gmap的查詢序列1483791條,exonerate的查詢序列43632條。
image.png
另有一款軟件 spaln:https://github.com/ogotoh/spaln,據(jù)說很快。但文檔比較費(fèi)解,我懶得摸索,暫時(shí)還沒用起來。
因此,我的建議是如果你的服務(wù)器配置很高,首選gmap多設(shè)線程。配置不高或者想快速獲得結(jié)果情況下,可拆分query序列(蛋白/cDNA/mRNA/EST),進(jìn)行并行比對(duì),最后進(jìn)行合并。尤其是tblastn之類的軟件,必須這樣才行。否則建議嘗試用spaln(影響力較低,沒用過,還不好說)。