基因組注釋這個東西攻略是五花八門,有些地方其實寫錯了,作者還以為很對,為什么呢,因為EVIDENCEModerler經常在錯誤的輸入文件下也能跑,只是你不知道罷了。
今天帶大家順一下EvidenceModerer正規(guī)的流程:
前期準備:
至少三個從頭預測軟件,對基因組進行基因預測 GlimmerHMM, SNAP, Augustus, GeneMarkHMM, and FGeneSH.
同源預測
轉錄組預測 PASA 或者StringTie
這時候注意了,EvidenceModerler接受兩種GFF格式,GFF格式有兩種!如果搞錯了輸入格式,相當于這部分沒讀入系統(tǒng),沒有用上這部分信息!
第一種GFF 被稱為基因結構GFF
第二種GFF 被稱為比對GFF
同源預測和轉錄組比對GFF各自一個不用動,其他的凡是基因結構注釋的通過cat合并到一起。
然后是權重文件示例:
ABINITIO_PREDICTION augustus 1
ABINITIO_PREDICTION twinscan 1
ABINITIO_PREDICTION glimmerHMM 1
PROTEIN spliced_protein_alignments 1
PROTEIN genewise_protein_alignments 2
TRANSCRIPT spliced_transcript_alignments 1
TRANSCRIPT PASA_transcript_assemblies 10
OTHER_PREDICTION PASA_transdecoder 5
最基本的要求: weight(pasa) >> weight (protein) >= weight(prediction)
推薦用法:
從頭預測weight = 1
蛋白比對,weight = 1
PASA 轉錄組比對, weight = 10
然后現(xiàn)在的EVM版本已經更新到2.1了,1.0需要自己切分注釋十分麻煩,2.1只要準備好:
- denovo 的文件
- 同源比對的文件
- 轉錄組 比對的文件
三個文件就行,會直接生成最終的GFF。
這里注意兩個參數(shù) --segmentSize 和 --overlapSize
動物建議設置 --segmentSize 1000000 --overlapSize 100000
植物可以稍微短一些