EVM基因組注釋合并,你真的做對了嗎?

基因組注釋這個東西攻略是五花八門,有些地方其實寫錯了,作者還以為很對,為什么呢,因為EVIDENCEModerler經常在錯誤的輸入文件下也能跑,只是你不知道罷了。

今天帶大家順一下EvidenceModerer正規(guī)的流程:

前期準備:

  1. 至少三個從頭預測軟件,對基因組進行基因預測 GlimmerHMM, SNAP, Augustus, GeneMarkHMM, and FGeneSH.

  2. 同源預測

  3. 轉錄組預測 PASA 或者StringTie

這時候注意了,EvidenceModerler接受兩種GFF格式,GFF格式有兩種!如果搞錯了輸入格式,相當于這部分沒讀入系統(tǒng),沒有用上這部分信息!

第一種GFF 被稱為基因結構GFF


Gene Structure

第二種GFF 被稱為比對GFF


Alignment

同源預測和轉錄組比對GFF各自一個不用動,其他的凡是基因結構注釋的通過cat合并到一起。

然后是權重文件示例:

ABINITIO_PREDICTION augustus 1
ABINITIO_PREDICTION twinscan 1
ABINITIO_PREDICTION glimmerHMM 1
PROTEIN spliced_protein_alignments 1
PROTEIN genewise_protein_alignments 2
TRANSCRIPT spliced_transcript_alignments 1
TRANSCRIPT PASA_transcript_assemblies 10
OTHER_PREDICTION PASA_transdecoder 5

最基本的要求: weight(pasa) >> weight (protein) >= weight(prediction)
推薦用法:
從頭預測weight = 1
蛋白比對,weight = 1
PASA 轉錄組比對, weight = 10

然后現(xiàn)在的EVM版本已經更新到2.1了,1.0需要自己切分注釋十分麻煩,2.1只要準備好:

  1. denovo 的文件
  2. 同源比對的文件
  3. 轉錄組 比對的文件

三個文件就行,會直接生成最終的GFF。

這里注意兩個參數(shù) --segmentSize 和 --overlapSize

動物建議設置 --segmentSize 1000000 --overlapSize 100000
植物可以稍微短一些

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容