重新認(rèn)識(shí)TBtools,減少你的生信分析煩惱(20190422)

寫在寫在前面的前面

或許,沒有人知道TBtools到底是什么?能干啥。
但是看完這個(gè)推文,或許你就知道了其中的一部分。

寫在前面

TBtools對(duì)外開放兩年多,不時(shí)會(huì)有熟悉的不熟悉的人與我聊到TBtools。TBtools在每個(gè)人的認(rèn)知上,或許都不一樣。
有的人覺得TBtools就是耽誤了他們所謂的生物信息學(xué)習(xí)
有的人說(shuō),TBtools保了他們畢業(yè)
也有的人說(shuō),TBtools幫助了他發(fā)了文章
更或者,TBtools。。。

TBtools是一個(gè)序列提取小工具?

三年前開始寫TBtools。功能很簡(jiǎn)單,主要是做做序列提取,也做了BlastWrapper(當(dāng)時(shí)并不穩(wěn)健)。目的很純粹,課題組的人不會(huì)找我提取序列,也可以直接Blast到轉(zhuǎn)錄組找序列。那時(shí)候接觸TBtools的朋友,或許都這么認(rèn)為。
當(dāng)然,后來(lái)我對(duì)這方面進(jìn)行了各種增強(qiáng),也保證了其現(xiàn)在的穩(wěn)健性。一個(gè)輸入窗口,支持不同的輸入,無(wú)論是提取序列全長(zhǎng),還是提取序列區(qū)段;不僅支持ID提取,還支持ID子串匹配...

此外,也增加了基于gff3進(jìn)行序列提取的功能,比如提取所有序列的全長(zhǎng)CDS,全長(zhǎng)EXON,甚至是可以批量一次性提取一個(gè)物種的所有啟動(dòng)子序列。

除了Blast Wrapper,可能還需要調(diào)用外部程序的,那么是muscle(主要是我實(shí)現(xiàn)的NW算法運(yùn)行效率一般,用到多序列比對(duì),就不提了)


可以從一個(gè)子菜單看到



功能相對(duì)豐富,包括

  • 序列提取
  • 序列統(tǒng)計(jì)
  • ID簡(jiǎn)化
  • 序列重命名
  • Fasta格式與Table格式相互轉(zhuǎn)換
  • Fasta文件的合并與分隔
  • 序列的反向互補(bǔ),DNA/RNA轉(zhuǎn)換,大小寫,格式化
  • 基于ID模式的基因最長(zhǎng)代表轉(zhuǎn)錄本提取

TBtools做核酸到蛋白序列的翻譯?

  • 從某一條序列中預(yù)測(cè)全長(zhǎng)ORF
  • 批量從一個(gè)數(shù)據(jù)集合中預(yù)測(cè)最長(zhǎng)全長(zhǎng)ORF
  • CDS序列批量轉(zhuǎn)換為蛋白序列

TBtools是一個(gè)Gff3/GTF基因結(jié)構(gòu)注釋文件操作工具?

  • 基于GFF/GTF文件,從基因組提取序列
  • 批量修改基因和染色體ID,使不同物種的合并分析不會(huì)有ID沖突
  • 提取所有基因信息
  • 基于mRNA序列和基因組序列,直接重構(gòu)基因結(jié)構(gòu)信息,輸出gff3文件
  • 基于不完全的gff和gtf文件,重構(gòu)mRNA feature
  • 基于gff3/gtf文件,提取所有基因的最長(zhǎng)代表轉(zhuǎn)錄本序列

TBtools降低本地Blast操作的時(shí)間損耗?

無(wú)論是兩條序列的直接比較,還是兩個(gè)序列文件,甚至是兩個(gè)基因組的兩個(gè)指定區(qū)間的Blast,TBtools中都已經(jīng)提供了GUI;不僅于此,四種可視化方式,常常能滿足大多數(shù)人的需求。



比如


TBtools是一個(gè)GO和KEGG分析(富集)小工具?

后來(lái),由于Blast2GO太慢了。基于IDmapping的邏輯,我大體寫了一個(gè)GO注釋的功能。當(dāng)然,更重要的或許是直接寫了GO和KEGG富集分析的功能。所以后來(lái),也有不少做非模式生物的朋友認(rèn)為,TBtools事實(shí)就做這個(gè)事情。其中也包括一些可視化,比如GO Level2的可視化。后來(lái),我也寫了一些富集結(jié)果的可視化。


TBtools是一個(gè)畫圖的小工具?

慢慢地,我發(fā)現(xiàn),網(wǎng)頁(yè)版工具,如Venny,明明是很小的韋恩圖繪制功能,網(wǎng)絡(luò)太差,等待緩沖總是占用了我太多的時(shí)間。應(yīng)該本地化。所以我索性寫了一個(gè)最高支持六組的Venn圖工具。當(dāng)然,也有后來(lái)的UpsetPlot工具。
基因展示在染色體上的,類似MapChart的工具等。
此外也由于一些工具,如熱圖繪制上,我覺得用起來(lái)真的不順手。或者參數(shù)太少,或者不容易調(diào)整各種細(xì)節(jié)。所以我也寫了熱圖工具。
所以,或許確實(shí)有的朋友就覺得,你這工具,就是一個(gè)畫圖工具包。
Venn圖與UpSetPlot


熱圖及其變型

甚至是,掰彎的熱圖,可以一次展示大量數(shù)據(jù)的熱圖

圖片來(lái)自黃博士的文章(https://biotechnologyforbiofuels.biomedcentral.com/articles/10.1186/s13068-019-1355-5
不僅可以掰彎,你還可以調(diào)整聚類位置

當(dāng)然,你還可以直接繪制SeqLogo




TBtools是一個(gè)基因家族分析工具?

基于前面我發(fā)送過(guò)的推文,總的來(lái)說(shuō),有了TBtools,所有人無(wú)需任何一行命令,也不需要Linux或者虛擬機(jī)操作,可以完成常見的基因家族分析。
大體包括的工具有:

  1. 基于GFF3的序列提取
  2. Blast Wrapper
  3. MEME結(jié)果的可視化
  4. 結(jié)構(gòu)域分析信息的可視化
  5. 基因結(jié)構(gòu)的可視化
  6. 以上三者和進(jìn)化樹的一次性可視化
  7. 多基因組-共線性分析及可視化

似乎,有一些培訓(xùn)機(jī)構(gòu)提供的線上線下的基因家族分析培訓(xùn),需要使用的各種虛擬機(jī),Linux,命令,腳本,統(tǒng)統(tǒng)都可以扔掉。常見的基因家族分析項(xiàng)目,可能只需要TBtools就完全足夠了。
為此,慢慢地開始有朋友給TBtools下了定義:TBtools是一個(gè)基因家族分析工具包。在我看來(lái),事實(shí)上,這些朋友對(duì)TBtools有很大的誤解。我從來(lái)就沒想過(guò)寫一個(gè)基因家族分析工具。不是因?yàn)門Btools要做一個(gè)基因家族分析工具,而是因?yàn)榛蚣易宸治霰旧砭褪?strong>所有人都需要,都懂的生物數(shù)據(jù)分析的基本技能。我只是簡(jiǎn)化這些技能的實(shí)現(xiàn)。

正如下面,我所寫的TBtools中,或許很多人想想不到功能一樣。
與其說(shuō)TBtools是你以為的基因家族分析工具,你不如說(shuō)他是比較基因組分析工具,那么還顯得高大上一些。

TBtools是一個(gè)比較基因組分析工具?

基因組-點(diǎn)圖?KaKs計(jì)算?共線性分析?多基因組共線性可視化?

這半個(gè)月以來(lái),課題組的安排下,我參與了一些基因組分析相關(guān)的工作;
基因組分析,本身確實(shí)是一個(gè)耗費(fèi)智力和體力的活。分析過(guò)程中,也發(fā)現(xiàn)了一些或許可以讓所有人都從中獲取生物信息的分析手段。
于是我花了兩個(gè)晚上的時(shí)間,寫了幾個(gè)工具。
加上一些以前TBtools中就有的工具,相信對(duì)做基因組分析的朋友會(huì)有一定的幫助。
但是,請(qǐng)注意,除非是贊助我們課題組的戶外拓展活動(dòng)或者合作單位,否則我并不保證這些工具的使用。

所有人都能用的MCScanX

MCScanX是比較基因組分析中常用的工具。我已經(jīng)將其打包到TBtools中,所以即使是windows用戶,也可以輕松進(jìn)行分析。此外,也不要求用戶保證gff文件和blast文件的名字一致。


多基因組共線性可視化

關(guān)于這個(gè)工具... 詳細(xì)見公眾號(hào)以前的推文。


簡(jiǎn)單的KaKs批量計(jì)算工具

Ka/Ks的計(jì)算,常常會(huì)被人問(wèn)題。事實(shí)上,如果只是簡(jiǎn)單的進(jìn)行NG算法的計(jì)算,是非常容易實(shí)現(xiàn)的。目前用的廣泛的,或許是KaksCalculator2和PAML。這兩個(gè)軟件都是大牛級(jí)的軟件。在TBtools中,我終于還是開放了去年還是前年實(shí)現(xiàn)的NG計(jì)算邏輯,并打了非常方便的GUI。用戶幾乎只有有CDS序列和基因?qū)π畔⒕涂梢灾苯舆M(jìn)行計(jì)算,而完全不用浪費(fèi)時(shí)間在文件格式整理上。

Circos圖繪制工具

其實(shí),還可以玩游戲

寫在最后

工具是不斷地優(yōu)化和發(fā)展的。
分析門檻也是會(huì)被不斷打破的。
或許讓所有人,都能有開展一些分析的能力,也是推進(jìn)一些事物發(fā)展的方式。
歡迎尚未加到TBtools使用交流QQ群的朋友,加入


下載最新版,與其他用戶朋友交流使用經(jīng)驗(yàn)與技巧

題外

課題組每年暑期有內(nèi)部生信入門培訓(xùn),主要是對(duì)實(shí)驗(yàn)室新生開展(以及濕實(shí)驗(yàn)為主的成員)培訓(xùn)。一直有收到其他課題組想要了解我們課題組生信數(shù)據(jù)分析的想法。故,在博導(dǎo)的提議和課題組的討論后,我們近期計(jì)劃,在本年度暑期(7~8月份之間)對(duì)外增設(shè)生信基礎(chǔ)培訓(xùn)名額10枚(前面每年只是課題組內(nèi)培訓(xùn),而不對(duì)外)。具體請(qǐng)見https://mp.weixin.qq.com/s/OtmeTErd9f9rvjJPtBKjMw

歡迎訪問(wèn)本課題組網(wǎng)站

園藝植物小分子RNA與基因組研究-夏瑞課題組

課題組主頁(yè):http://xialab.scau.edu.cn/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,646評(píng)論 6 533
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,595評(píng)論 3 418
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,560評(píng)論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,035評(píng)論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,814評(píng)論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,224評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,301評(píng)論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,444評(píng)論 0 288
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,988評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,804評(píng)論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,998評(píng)論 1 370
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,544評(píng)論 5 360
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,237評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,665評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,927評(píng)論 1 287
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,706評(píng)論 3 393
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,993評(píng)論 2 374

推薦閱讀更多精彩內(nèi)容

  • 基因組組裝完成后,或者是完成了草圖,就不可避免遇到一個(gè)問(wèn)題,需要對(duì)基因組序列進(jìn)行注釋。注釋之前首先得構(gòu)建基因模型,...
    xuzhougeng閱讀 51,519評(píng)論 14 185
  • 生物數(shù)據(jù)庫(kù)介紹——NCBI NCBI(National Center for Biotechnology Info...
    又是一只小菜鳥閱讀 8,962評(píng)論 1 33
  • 我將過(guò)去一年的所有推送做了一個(gè)匯總,并大致分成了幾類。現(xiàn)在回過(guò)頭來(lái)一看,這算是一份很寶貴的材料,特別是對(duì)剛剛?cè)雽W(xué)的...
    Neal_Bio閱讀 2,693評(píng)論 0 10
  • 2015年過(guò)去,2016已穩(wěn)穩(wěn)到來(lái)~在2016到來(lái)的第一天,大家都沉浸在歡天喜地的慶祝中,或者曬著新年祝福,誰(shuí)又在...
    Hermia_panda閱讀 674評(píng)論 0 50
  • 屋頂?shù)奶炜眨缣煊晏煳叶茧S便 鏡子里的臉,喜怒哀樂我都不見 封閉了房間我坐在床前 任黑暗把我吞沒 我閉上雙眼淚流滿...
    魚兒婉閱讀 305評(píng)論 0 0