寫在前面
前天,在學位論文的完善中,有兩個疑似ERF成員始終令我困擾。
植物轉錄因子中有個超家族AP2,包括兩個亞家族,一個也叫AP2,另一個叫ERF。前者往往含有兩個AP2結構域,后者則只含有一個AP2結構域。但這句話,并不全面。在很多物種中,AP2大家族往往還包括了極少數只含有一個AP2結構域但又不是ERF亞家族的成員。對于這些成員,唯一的操作是建進化樹,隨后定分支。
那么到底這些成員跟AP2亞家族或者ERF亞家族成員有什么區別?
MEME suite做motif分析,當然能看得出區別。但這個區別是否存在特定的功能,這個只能通過結構域來知曉。
我試了常用的pfam和NCBI CDD,無法得到有用的答案。無意之下,想起了SMART。
這個網站,我研一研二(五六年前)的時候就知道也用過了。可以說,這是我認為最為全面的序列特征預測軟件。
SMART 的使用困惑
SMART 確實是最強的,但是在使用時,卻相對麻煩。整個網站的整體運行邏輯,我個人猜想是:
- 收到用戶提交的ID或者序列
- 查看后臺是否保存了對應的ID和序列
- 如果保存了,那么就直接返回保存的結果,無需重復計算
- 如果沒找到可用結果,那么就預測,然后再返回
具體這個網站有兩種運行模式:
- Single模式,支持輸入ID,輸入序列
- Batch模式,也支持輸入ID和輸入序列
其中,Single模式支持沒找到結果就預測并返回。而Batch模式,則只支持數據庫中已收錄結果的返回。換句話說,如果你輸入的序列集合來自于數據庫未收錄的物種,那么你得不到結果。或者這么說,只有你使用的序列或者ID正好是數據庫已經收錄了的,你才會得到結果。
存在少數兩三個公眾號,沒搞清楚就推文說能批量,估計到現在他們都不知道被打臉~~畢竟,只要能忽悠新手,就達到他們的要求 。
然而,我并不是一個喜歡做信息推廣的,相反,我更喜歡提供解決方案。既然我發現SMART確實可以找到不同,那么手上一百多個序列,我一個一個提交是不可能的。于是,我又寫了一個功能 ,即 Batch SMART
Batch SMART 的使用
多年前,我曾經在 TBtools 中實現了插件模式。后來由于JDK的不斷變化,我發現并不穩定,一直沒開放。但伴隨著 TBtools 用戶的增加,不同的用戶有不同的需求,確實沒必要一直讓所有人每次更新 TBtools 軟件。于是,在之前更新【即更新搜索框功能】的同時,TBtools的插件模式已經釋放。
本次開放的 Batch SMART ,即 TBtools 的第一個插件。對于安裝,比較簡單。
打開 TBtools 【建議右鍵圖標,以管理員身份運行 - 主要考慮到用戶寫入權限的問題】
點擊安裝插件菜單
選擇獲得的插件包
點擊 Open 即可完成安裝
安裝完成,即可打開
具體的使用更為簡單,
- 設置蛋白序列集合
- 設置輸出的序列特征文件路徑
注意,點擊Start之后 ,就等在進度條加載。一般一個序列要至少15s。由于 SMART 提供的是網站計算服務,如果排隊,那么等待時間就更長。我提交了100多個序列,大體半個小時。【注:好東西不怕等】
SMART 做序列特征預測的優勢
先看一張 pfam 的。
可以發現,非常干凈。當然,如果用NCBI CDD,那么得到的結果比 pfam 全面一點。然而一般。
再看看 SMART 的結果
注意看右上角,如果圖片往下走,于是得到結果
寫在最后
Emmm... 沒有太多想說的。感興趣的朋友,就到QQ使用交流群下載插件吧【相信,任何人都是秒下】。
具體,記得先更新到 TBtools 的最新版本。以后可能更多功能以插件的方式來釋放。這樣也免得軟件更新麻煩。