矯正基因結構注釋 - 做有良心的基因家族分析

寫在前面

半個月前，我推了一個《任何人都能掌握-基因家族分析》的騰訊課程（原本事實是開給課題組）。在熱身課程（完全免費）中，將我個人對基因家族分析的認知和其意義均做了說明，感興趣的可見 https://ke.qq.com/course/338062?tuin=72ed3eb
其中涉及到一點，即是，基因家族分析中一個常常被忽略甚至忽視的，對科研可能有所貢獻的步驟（可能很多培訓公司并不會涉及），那就是矯正基因結構注釋。

為什么要矯正基因結構注釋

基因組，尤其是植物基因組，從測序，到組裝，到注釋，每一個都不簡單。甚至存在一種說法，一篇基因組文章，一個組裝算法。而事實上，注釋也是類似的。即使是擬南芥或者水稻這兩個模式生物，都不能保證所有基因的結構都被注釋出來。更何況剛發表的基因組？
在基因家族分析講演中，有這么一個圖

從圖中可以很直接的看出來，明顯至少有那三個基因是缺胳膊少腿
那么，怎么辦？當然是選擇矯正他啊
基因家族分析，是一個常規工作，既然有意要做這個工作，那么就不應該簡單的過家家。我覺得既然要做，就做好他。所以，開著基因家族分析，其實是一個比較好的機會，同時完成對應的家族基因的結構注釋矯正。

如何矯正

在半個月前的講演中，其實也已經講過了，用在線網頁工具softberry就可以了，以上圖的 Aco005453.1為例，基于motif pattern和domain info，可以明顯地看出來，其缺少的是5端，GRAS結構域也被截斷了（注意，這個在幾乎所有物種的基因組結構注釋文件都會出現，因為軟件永遠不可能保證絕對的準確，至少目前這個事情上是的，而菠蘿基因組已經做得很優秀了。）

操作步驟

1.首先，獲得這個基因的位置信息
使用TBtools的gff3 gene info工具

打開這個gene info文件即可找到基因的坐標信息

可以看得出來，就是在LG1上
2.提取該基因當前區間，以及上下游5000bp

這個時候我們就得到了這部分序列
3.基于文本直接預測基因模型
打開softberry網頁工具 http://www.softberry.com/berry.phtml?topic=fgenesh&group=programs&subgroup=gfind
把上述獲得的序列黏貼進去

點擊search，很快就可以得到結果

4.查看是否已經補全
上述已經預測除了一個新的基因模型，同樣是包含了兩個外顯子，進行校驗
將序列直接提交到NCBI CDD-search

這時，我們得到一個驚喜

我們得到的新的序列，已經補全了CDS，GRAS結構域已經補全，同時還預測出來得了DELLA結構域，說明這個丟失了5端的序列，本身應該是GRAS中DELLA分支的成員，這是不錯的結果。
But，矯正結構注釋還差一步！
5.重新生成gff3注釋文本
上述是通過軟件直接預測的，而事實也可以直接通過race實驗并做sanger測序完成。無論如何，我們得到的終歸是Fasta序列，而對于日后還需要做的各種分析，我們需要的是GFF3或者GTF類的文件，那么怎么辦？
用TBtools啊！在很久以前，我就已經實現了這個功能，一個目前來說算是老朋友的需求，由于他文章遲遲沒有發，我還是決定開放這個工具，事實也不會影響他的東西。
操作起來很簡單
找到并打開這個工具

黏貼新構建成的CDS序列，設置對應的DNA序列（也就是剛才的5000bp上下游），點擊Start即可。這樣重構的gff3文本最準確。But！生成之后可能需要自己調整下坐標，還是比較麻煩。所以我一般是，DNA序列直接用genome代替（TBtools已經盡可能地考慮了各種比對問題，hsp overlap，末端比對不上等等...），所以這里具體操作是

很快，TBtools就重構出對應等等gff3文本

OK，重構出來的gff3文本跟softberry上面的fgensh的結果一直，是兩個exons
說明TBtools這個重構gff3文本的工具，還是可以使用的，具體處理了較多的問題

6.將重構的gff3文本，黏貼替換原始對應的gff3文本的數行
這一步手動操作，不過需要注意，我們預測出來的基因結構，其實存在一定小問題，也就是，其實。。。我們從一開始截取序列就截取錯了
我們預測成，這個序列了。怪我！。。。坐標選大了

恩，隨意選的一個基因，果然是給我自己下套

后面的這個基因，已經不大可能是真實的基因（無可救藥，應該丟掉，可能即使是基于RNAseq數據查看都救不過過來，因為已經是Overlap了，當然可以考慮或許存在不大可能存在的可變剪切？或者是兩個GRAS domain？）

小結

恩。。。我又試了幾個基因，基本無解。或者是正好基因與上下游有overlap，或者是基因結構預測后并沒有太大的改善。不過似乎也OK，畢竟我們大概可以知道其中兩個基因并不真實。
如果要證明他們是否真實，可能還是需要RNAseq數據輔助，或者事實上，需要race實驗。得到序列之后，再按照上述操作，用TBtools重構gff3即可。

寫在最后

嗯，意料之外，情理之中。
據我個人了解，菠蘿基因組應也是經過了基因結構注釋的人工矯正。所以從某個角度來說，大部分基因結構應是正確。可能單純從文本預測上，確實無法改善結構注釋信息。而只能發現一些確實有問題的序列。對于這些序列，或者是事實并不存在的假基因，或者是需要race實驗做進一步獲取。
無論哪一種途徑，得到序列之后可以直接用TBtools重構gff3信息，并修改原始gff3文件。做進一步分析。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,983評論 6贊 537
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,772評論 3贊 422
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,947評論 0贊 381
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,201評論 1贊 315
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,960評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,350評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,406評論 3贊 444
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,549評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,104評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,914評論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,089評論 1贊 371
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,647評論 5贊 362
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,340評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,753評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,007評論 1贊 289
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,834評論 3贊 395
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,106評論 2贊 375

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

矯正基因結構注釋 - 做有良心的基因家族分析

矯正基因結構注釋 - 做有良心的基因家族分析

寫在前面

為什么要矯正基因結構注釋

如何矯正

操作步驟

寫在最后

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

矯正基因結構注釋 - 做有良心的基因家族分析

寫在前面

為什么要矯正基因結構注釋

如何矯正

操作步驟

寫在最后

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频