矯正基因結構注釋 - 做有良心的基因家族分析

寫在前面

半個月前,我推了一個《任何人都能掌握-基因家族分析》的騰訊課程(原本事實是開給課題組)。在熱身課程(完全免費)中,將我個人對基因家族分析的認知和其意義均做了說明,感興趣的可見 https://ke.qq.com/course/338062?tuin=72ed3eb
其中涉及到一點,即是,基因家族分析中一個常常被忽略甚至忽視的,對科研可能有所貢獻的步驟(可能很多培訓公司并不會涉及),那就是矯正基因結構注釋

為什么要矯正基因結構注釋

基因組,尤其是植物基因組,從測序,到組裝,到注釋,每一個都不簡單。甚至存在一種說法,一篇基因組文章,一個組裝算法。而事實上,注釋也是類似的。即使是擬南芥或者水稻這兩個模式生物,都不能保證所有基因的結構都被注釋出來。更何況剛發表的基因組?
在基因家族分析講演中,有這么一個圖


從圖中可以很直接的看出來,明顯至少有那三個基因是缺胳膊少腿
那么,怎么辦?當然是選擇矯正他啊
基因家族分析,是一個常規工作,既然有意要做這個工作,那么就不應該簡單的過家家。我覺得既然要做,就做好他。所以,開著基因家族分析,其實是一個比較好的機會,同時完成對應的家族基因的結構注釋矯正

如何矯正

在半個月前的講演中,其實也已經講過了,用在線網頁工具softberry就可以了,以上圖的 Aco005453.1為例,基于motif pattern和domain info,可以明顯地看出來,其缺少的是5端,GRAS結構域也被截斷了(注意,這個在幾乎所有物種的基因組結構注釋文件都會出現,因為軟件永遠不可能保證絕對的準確,至少目前這個事情上是的,而菠蘿基因組已經做得很優秀了。)

操作步驟

1.首先,獲得這個基因的位置信息
使用TBtools的gff3 gene info工具


打開這個gene info文件即可找到基因的坐標信息

可以看得出來,就是在LG1上
2.提取該基因當前區間,以及上下游5000bp

這個時候我們就得到了這部分序列
3.基于文本直接預測基因模型
打開softberry網頁工具 http://www.softberry.com/berry.phtml?topic=fgenesh&group=programs&subgroup=gfind
把上述獲得的序列黏貼進去

點擊search,很快就可以得到結果

4.查看是否已經補全
上述已經預測除了一個新的基因模型,同樣是包含了兩個外顯子,進行校驗
將序列直接提交到NCBI CDD-search

這時,我們得到一個驚喜

我們得到的新的序列,已經補全了CDS,GRAS結構域已經補全,同時還預測出來得了DELLA結構域,說明這個丟失了5端的序列,本身應該是GRAS中DELLA分支的成員,這是不錯的結果。
But,矯正結構注釋還差一步!
5.重新生成gff3注釋文本
上述是通過軟件直接預測的,而事實也可以直接通過race實驗并做sanger測序完成。無論如何,我們得到的終歸是Fasta序列,而對于日后還需要做的各種分析,我們需要的是GFF3或者GTF類的文件,那么怎么辦?
用TBtools啊!在很久以前,我就已經實現了這個功能,一個目前來說算是老朋友的需求,由于他文章遲遲沒有發,我還是決定開放這個工具,事實也不會影響他的東西。
操作起來很簡單
找到并打開這個工具

黏貼新構建成的CDS序列,設置對應的DNA序列(也就是剛才的5000bp上下游),點擊Start即可。這樣重構的gff3文本最準確。But!生成之后可能需要自己調整下坐標,還是比較麻煩。所以我一般是,DNA序列直接用genome代替(TBtools已經盡可能地考慮了各種比對問題,hsp overlap,末端比對不上等等...),所以這里具體操作是

很快,TBtools就重構出對應等等gff3文本

OK,重構出來的gff3文本跟softberry上面的fgensh的結果一直,是兩個exons
說明TBtools這個重構gff3文本的工具,還是可以使用的,具體處理了較多的問題

6.將重構的gff3文本,黏貼替換原始對應的gff3文本的數行
這一步手動操作,不過需要注意,我們預測出來的基因結構,其實存在一定小問題,也就是,其實。。。我們從一開始截取序列就截取錯了
我們預測成,這個序列了。怪我!。。。坐標選大了

恩,隨意選的一個基因,果然是給我自己下套

后面的這個基因,已經不大可能是真實的基因(無可救藥,應該丟掉,可能即使是基于RNAseq數據查看都救不過過來,因為已經是Overlap了,當然可以考慮或許存在不大可能存在的可變剪切?或者是兩個GRAS domain?)

  1. 小結

恩。。。我又試了幾個基因,基本無解。或者是正好基因與上下游有overlap,或者是基因結構預測后并沒有太大的改善。不過似乎也OK,畢竟我們大概可以知道其中兩個基因并不真實。
如果要證明他們是否真實,可能還是需要RNAseq數據輔助,或者事實上,需要race實驗。得到序列之后,再按照上述操作,用TBtools重構gff3即可。

寫在最后

嗯,意料之外,情理之中。
據我個人了解,菠蘿基因組應也是經過了基因結構注釋的人工矯正。所以從某個角度來說,大部分基因結構應是正確。可能單純從文本預測上,確實無法改善結構注釋信息。而只能發現一些確實有問題的序列。對于這些序列,或者是事實并不存在的假基因,或者是需要race實驗做進一步獲取。
無論哪一種途徑,得到序列之后可以直接用TBtools重構gff3信息,并修改原始gff3文件。做進一步分析。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,983評論 6 537
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,772評論 3 422
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,947評論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,201評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,960評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,350評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,406評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,549評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,104評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,914評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,089評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,647評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,340評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,753評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,007評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,834評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,106評論 2 375

推薦閱讀更多精彩內容