寫在前面
半個月前,我推了一個《任何人都能掌握-基因家族分析》的騰訊課程(原本事實是開給課題組)。在熱身課程(完全免費)中,將我個人對基因家族分析的認知和其意義均做了說明,感興趣的可見 https://ke.qq.com/course/338062?tuin=72ed3eb
其中涉及到一點,即是,基因家族分析中一個常常被忽略甚至忽視的,對科研可能有所貢獻的步驟(可能很多培訓公司并不會涉及),那就是矯正基因結構注釋。
為什么要矯正基因結構注釋
基因組,尤其是植物基因組,從測序,到組裝,到注釋,每一個都不簡單。甚至存在一種說法,一篇基因組文章,一個組裝算法。而事實上,注釋也是類似的。即使是擬南芥或者水稻這兩個模式生物,都不能保證所有基因的結構都被注釋出來。更何況剛發表的基因組?
在基因家族分析講演中,有這么一個圖
從圖中可以很直接的看出來,明顯至少有那三個基因是缺胳膊少腿
那么,怎么辦?當然是選擇矯正他啊
基因家族分析,是一個常規工作,既然有意要做這個工作,那么就不應該簡單的過家家。我覺得既然要做,就做好他。所以,開著基因家族分析,其實是一個比較好的機會,同時完成對應的家族基因的結構注釋矯正。
如何矯正
在半個月前的講演中,其實也已經講過了,用在線網頁工具softberry就可以了,以上圖的 Aco005453.1為例,基于motif pattern和domain info,可以明顯地看出來,其缺少的是5端,GRAS結構域也被截斷了(注意,這個在幾乎所有物種的基因組結構注釋文件都會出現,因為軟件永遠不可能保證絕對的準確,至少目前這個事情上是的,而菠蘿基因組已經做得很優秀了。)
操作步驟
1.首先,獲得這個基因的位置信息
使用TBtools的gff3 gene info工具
打開這個gene info文件即可找到基因的坐標信息
可以看得出來,就是在LG1上
2.提取該基因當前區間,以及上下游5000bp
這個時候我們就得到了這部分序列
3.基于文本直接預測基因模型
打開softberry網頁工具 http://www.softberry.com/berry.phtml?topic=fgenesh&group=programs&subgroup=gfind
把上述獲得的序列黏貼進去
點擊search,很快就可以得到結果
4.查看是否已經補全
上述已經預測除了一個新的基因模型,同樣是包含了兩個外顯子,進行校驗
將序列直接提交到NCBI CDD-search
這時,我們得到一個驚喜
我們得到的新的序列,已經補全了CDS,GRAS結構域已經補全,同時還預測出來得了DELLA結構域,說明這個丟失了5端的序列,本身應該是GRAS中DELLA分支的成員,這是不錯的結果。
But,矯正結構注釋還差一步!
5.重新生成gff3注釋文本
上述是通過軟件直接預測的,而事實也可以直接通過race實驗并做sanger測序完成。無論如何,我們得到的終歸是Fasta序列,而對于日后還需要做的各種分析,我們需要的是GFF3或者GTF類的文件,那么怎么辦?
用TBtools啊!在很久以前,我就已經實現了這個功能,一個目前來說算是老朋友的需求,由于他文章遲遲沒有發,我還是決定開放這個工具,事實也不會影響他的東西。
操作起來很簡單
找到并打開這個工具
黏貼新構建成的CDS序列,設置對應的DNA序列(也就是剛才的5000bp上下游),點擊Start即可。這樣重構的gff3文本最準確。But!生成之后可能需要自己調整下坐標,還是比較麻煩。所以我一般是,DNA序列直接用genome代替(TBtools已經盡可能地考慮了各種比對問題,hsp overlap,末端比對不上等等...),所以這里具體操作是
很快,TBtools就重構出對應等等gff3文本
OK,重構出來的gff3文本跟softberry上面的fgensh的結果一直,是兩個exons
說明TBtools這個重構gff3文本的工具,還是可以使用的,具體處理了較多的問題
6.將重構的gff3文本,黏貼替換原始對應的gff3文本的數行
這一步手動操作,不過需要注意,我們預測出來的基因結構,其實存在一定小問題,也就是,其實。。。我們從一開始截取序列就截取錯了
我們預測成,這個序列了。怪我!。。。坐標選大了
恩,隨意選的一個基因,果然是給我自己下套
后面的這個基因,已經不大可能是真實的基因(無可救藥,應該丟掉,可能即使是基于RNAseq數據查看都救不過過來,因為已經是Overlap了,當然可以考慮或許存在不大可能存在的可變剪切?或者是兩個GRAS domain?)
- 小結
恩。。。我又試了幾個基因,基本無解。或者是正好基因與上下游有overlap,或者是基因結構預測后并沒有太大的改善。不過似乎也OK,畢竟我們大概可以知道其中兩個基因并不真實。
如果要證明他們是否真實,可能還是需要RNAseq數據輔助,或者事實上,需要race實驗。得到序列之后,再按照上述操作,用TBtools重構gff3即可。
寫在最后
嗯,意料之外,情理之中。
據我個人了解,菠蘿基因組應也是經過了基因結構注釋的人工矯正。所以從某個角度來說,大部分基因結構應是正確。可能單純從文本預測上,確實無法改善結構注釋信息。而只能發現一些確實有問題的序列。對于這些序列,或者是事實并不存在的假基因,或者是需要race實驗做進一步獲取。
無論哪一種途徑,得到序列之后可以直接用TBtools重構gff3信息,并修改原始gff3文件。做進一步分析。