寫在寫在前面的前面
或許,沒有人知道TBtools到底是什么?能干啥。
但是看完這個(gè)推文,或許你就知道了其中的一部分。
寫在前面
TBtools對(duì)外開放兩年多,不時(shí)會(huì)有熟悉的不熟悉的人與我聊到TBtools。TBtools在每個(gè)人的認(rèn)知上,或許都不一樣。
有的人覺得TBtools就是耽誤了他們所謂的生物信息學(xué)習(xí)。
有的人說(shuō),TBtools保了他們畢業(yè)。
也有的人說(shuō),TBtools幫助了他發(fā)了文章
更或者,TBtools。。。
TBtools是一個(gè)序列提取小工具?
三年前開始寫TBtools。功能很簡(jiǎn)單,主要是做做序列提取,也做了BlastWrapper(當(dāng)時(shí)并不穩(wěn)健)。目的很純粹,課題組的人不會(huì)找我提取序列,也可以直接Blast到轉(zhuǎn)錄組找序列。那時(shí)候接觸TBtools的朋友,或許都這么認(rèn)為。
當(dāng)然,后來(lái)我對(duì)這方面進(jìn)行了各種增強(qiáng),也保證了其現(xiàn)在的穩(wěn)健性。一個(gè)輸入窗口,支持不同的輸入,無(wú)論是提取序列全長(zhǎng),還是提取序列區(qū)段;不僅支持ID提取,還支持ID子串匹配...
此外,也增加了基于gff3進(jìn)行序列提取的功能,比如提取所有序列的全長(zhǎng)CDS,全長(zhǎng)EXON,甚至是可以批量一次性提取一個(gè)物種的所有啟動(dòng)子序列。
除了Blast Wrapper,可能還需要調(diào)用外部程序的,那么是muscle(主要是我實(shí)現(xiàn)的NW算法運(yùn)行效率一般,用到多序列比對(duì),就不提了)
可以從一個(gè)子菜單看到
功能相對(duì)豐富,包括
- 序列提取
- 序列統(tǒng)計(jì)
- ID簡(jiǎn)化
- 序列重命名
- Fasta格式與Table格式相互轉(zhuǎn)換
- Fasta文件的合并與分隔
- 序列的反向互補(bǔ),DNA/RNA轉(zhuǎn)換,大小寫,格式化
- 基于ID模式的基因最長(zhǎng)代表轉(zhuǎn)錄本提取
TBtools做核酸到蛋白序列的翻譯?
- 從某一條序列中預(yù)測(cè)全長(zhǎng)ORF
- 批量從一個(gè)數(shù)據(jù)集合中預(yù)測(cè)最長(zhǎng)全長(zhǎng)ORF
- CDS序列批量轉(zhuǎn)換為蛋白序列
TBtools是一個(gè)Gff3/GTF基因結(jié)構(gòu)注釋文件操作工具?
- 基于GFF/GTF文件,從基因組提取序列
- 批量修改基因和染色體ID,使不同物種的合并分析不會(huì)有ID沖突
- 提取所有基因信息
- 基于mRNA序列和基因組序列,直接重構(gòu)基因結(jié)構(gòu)信息,輸出gff3文件
- 基于不完全的gff和gtf文件,重構(gòu)mRNA feature
- 基于gff3/gtf文件,提取所有基因的最長(zhǎng)代表轉(zhuǎn)錄本序列
TBtools降低本地Blast操作的時(shí)間損耗?
無(wú)論是兩條序列的直接比較,還是兩個(gè)序列文件,甚至是兩個(gè)基因組的兩個(gè)指定區(qū)間的Blast,TBtools中都已經(jīng)提供了GUI;不僅于此,四種可視化方式,常常能滿足大多數(shù)人的需求。
比如
TBtools是一個(gè)GO和KEGG分析(富集)小工具?
后來(lái),由于Blast2GO太慢了。基于IDmapping的邏輯,我大體寫了一個(gè)GO注釋的功能。當(dāng)然,更重要的或許是直接寫了GO和KEGG富集分析的功能。所以后來(lái),也有不少做非模式生物的朋友認(rèn)為,TBtools事實(shí)就做這個(gè)事情。其中也包括一些可視化,比如GO Level2的可視化。后來(lái),我也寫了一些富集結(jié)果的可視化。
TBtools是一個(gè)畫圖的小工具?
慢慢地,我發(fā)現(xiàn),網(wǎng)頁(yè)版工具,如Venny,明明是很小的韋恩圖繪制功能,網(wǎng)絡(luò)太差,等待緩沖總是占用了我太多的時(shí)間。應(yīng)該本地化。所以我索性寫了一個(gè)最高支持六組的Venn圖工具。當(dāng)然,也有后來(lái)的UpsetPlot工具。
基因展示在染色體上的,類似MapChart的工具等。
此外也由于一些工具,如熱圖繪制上,我覺得用起來(lái)真的不順手。或者參數(shù)太少,或者不容易調(diào)整各種細(xì)節(jié)。所以我也寫了熱圖工具。
所以,或許確實(shí)有的朋友就覺得,你這工具,就是一個(gè)畫圖工具包。
Venn圖與UpSetPlot
熱圖及其變型
甚至是,掰彎的熱圖,可以一次展示大量數(shù)據(jù)的熱圖
圖片來(lái)自黃博士的文章(https://biotechnologyforbiofuels.biomedcentral.com/articles/10.1186/s13068-019-1355-5)
不僅可以掰彎,你還可以調(diào)整聚類位置
當(dāng)然,你還可以直接繪制SeqLogo
TBtools是一個(gè)基因家族分析工具?
基于前面我發(fā)送過(guò)的推文,總的來(lái)說(shuō),有了TBtools,所有人無(wú)需任何一行命令,也不需要Linux或者虛擬機(jī)操作,可以完成常見的基因家族分析。
大體包括的工具有:
- 基于GFF3的序列提取
- Blast Wrapper
- MEME結(jié)果的可視化
- 結(jié)構(gòu)域分析信息的可視化
- 基因結(jié)構(gòu)的可視化
- 以上三者和進(jìn)化樹的一次性可視化
- 多基因組-共線性分析及可視化
似乎,有一些培訓(xùn)機(jī)構(gòu)提供的線上線下的基因家族分析培訓(xùn),需要使用的各種虛擬機(jī),Linux,命令,腳本,統(tǒng)統(tǒng)都可以扔掉。常見的基因家族分析項(xiàng)目,可能只需要TBtools就完全足夠了。
為此,慢慢地開始有朋友給TBtools下了定義:TBtools是一個(gè)基因家族分析工具包。在我看來(lái),事實(shí)上,這些朋友對(duì)TBtools有很大的誤解。我從來(lái)就沒想過(guò)寫一個(gè)基因家族分析工具。不是因?yàn)門Btools要做一個(gè)基因家族分析工具,而是因?yàn)榛蚣易宸治霰旧砭褪?strong>所有人都需要,都懂的生物數(shù)據(jù)分析的基本技能。我只是簡(jiǎn)化這些技能的實(shí)現(xiàn)。
正如下面,我所寫的TBtools中,或許很多人想想不到功能一樣。
與其說(shuō)TBtools是你以為的基因家族分析工具,你不如說(shuō)他是比較基因組分析工具,那么還顯得高大上一些。
TBtools是一個(gè)比較基因組分析工具?
基因組-點(diǎn)圖?KaKs計(jì)算?共線性分析?多基因組共線性可視化?
這半個(gè)月以來(lái),課題組的安排下,我參與了一些基因組分析相關(guān)的工作;
基因組分析,本身確實(shí)是一個(gè)耗費(fèi)智力和體力的活。分析過(guò)程中,也發(fā)現(xiàn)了一些或許可以讓所有人都從中獲取生物信息的分析手段。
于是我花了兩個(gè)晚上的時(shí)間,寫了幾個(gè)工具。
加上一些以前TBtools中就有的工具,相信對(duì)做基因組分析的朋友會(huì)有一定的幫助。
但是,請(qǐng)注意,除非是贊助我們課題組的戶外拓展活動(dòng)或者合作單位,否則我并不保證這些工具的使用。
所有人都能用的MCScanX
MCScanX是比較基因組分析中常用的工具。我已經(jīng)將其打包到TBtools中,所以即使是windows用戶,也可以輕松進(jìn)行分析。此外,也不要求用戶保證gff文件和blast文件的名字一致。
多基因組共線性可視化
關(guān)于這個(gè)工具... 詳細(xì)見公眾號(hào)以前的推文。
簡(jiǎn)單的KaKs批量計(jì)算工具
Ka/Ks的計(jì)算,常常會(huì)被人問(wèn)題。事實(shí)上,如果只是簡(jiǎn)單的進(jìn)行NG算法的計(jì)算,是非常容易實(shí)現(xiàn)的。目前用的廣泛的,或許是KaksCalculator2和PAML。這兩個(gè)軟件都是大牛級(jí)的軟件。在TBtools中,我終于還是開放了去年還是前年實(shí)現(xiàn)的NG計(jì)算邏輯,并打了非常方便的GUI。用戶幾乎只有有CDS序列和基因?qū)π畔⒕涂梢灾苯舆M(jìn)行計(jì)算,而完全不用浪費(fèi)時(shí)間在文件格式整理上。
Circos圖繪制工具
其實(shí),還可以玩游戲
寫在最后
工具是不斷地優(yōu)化和發(fā)展的。
分析門檻也是會(huì)被不斷打破的。
或許讓所有人,都能有開展一些分析的能力,也是推進(jìn)一些事物發(fā)展的方式。
歡迎尚未加到TBtools使用交流QQ群的朋友,加入
下載最新版,與其他用戶朋友交流使用經(jīng)驗(yàn)與技巧
題外
課題組每年暑期有內(nèi)部生信入門培訓(xùn),主要是對(duì)實(shí)驗(yàn)室新生開展(以及濕實(shí)驗(yàn)為主的成員)培訓(xùn)。一直有收到其他課題組想要了解我們課題組生信數(shù)據(jù)分析的想法。故,在博導(dǎo)的提議和課題組的討論后,我們近期計(jì)劃,在本年度暑期(7~8月份之間)對(duì)外增設(shè)生信基礎(chǔ)培訓(xùn)名額10枚(前面每年只是課題組內(nèi)培訓(xùn),而不對(duì)外)。具體請(qǐng)見https://mp.weixin.qq.com/s/OtmeTErd9f9rvjJPtBKjMw
歡迎訪問(wèn)本課題組網(wǎng)站
園藝植物小分子RNA與基因組研究-夏瑞課題組
課題組主頁(yè):http://xialab.scau.edu.cn/