前言
康奈爾大學,FeiLab的一個預測工具。
iTAK 是依賴于數據庫
的用于從蛋白質或核苷酸序列中識別植物轉錄因子 (TF)
、轉錄調節因子 (TR)
和蛋白激酶 (PK)
,然后將單個 TF、TR 和 PK 分類為不同的基因家族
的工具。
本人能力有限,本文可能存在描述不當與錯誤的地方,請仔細辨別后使用。
鑒定與依據
TFs 和 TRs 的識別和分類是基于主要從 PlnTFDB (Perez-Rodriguez et al., 2010)和 PlantTFDB [(Jin et al., 2014) 總結的一致性規則(每個基因家族的必需和禁止的蛋白質結構域),與來自 PlantTFcat (Dai et al., 2013)和 AtTFDB (Yilmaz et al., 2011)的家族 使用了支持證據。
PKs的鑒定依賴于Pfam數據庫中與PF00069
和PF07714
的hits。鑒定到的PK通過與比較一系列的HMMs( Lehti-Shiu MD, Shiu S-H (2012))將其劃分到不同的基因家族。
我來bici兩句:iTAK發表文章中指出了兩個數據庫(PlnTFDB和PlantTFDB)各自的一些缺陷。plnTFDB我沒用過,但是PlantTFDB在iTAK出來后是有更新的,高老師看不到這篇文章和這個工具不太可能。如果提出的問題確實存在且合理,我相信后面更新中肯定會修正的(這只是我的臆想,我的水平還不到去校對文中提到問題的水平),所以大家也不要看到iTAK
發文中提到了PlantTFDB
的問題就不用PlantTFDB
預測TF了。
工具有沒有人在用?
這個工具,我是在一個學長的畢業答辯上聽來的。
我昨天在pubmed搜了下,印象比較深的是有兩篇中藥論文中都用到了這個工具。
另外,我在網上搜到了一家生信分析報告模板,其中就有用這個工具。
關于軟件本地部署,中文中有些本地部署的流程,但不建議大家本地部署(數據庫的更新依賴mysql),因為github中的數據庫文件沒有在線網頁版的新。雖然我不更新數據庫的本地部署與在線版的預測結果條數一致(具體序列ID并沒有進行比較),但我還是用了在線版本的分析結果。
iTAK 1.6 在線版本主頁
http://itak.feilab.net/cgi-bin/itak/index.cgi
過程
第一步
:進入主頁http://itak.feilab.net/cgi-bin/itak/index.cgi
不需要工具,就是網絡慢點。
第二步
:輸入數據,選擇數據類型
蛋白質序列數據,以文件形式上傳或者直接粘貼FASTA格式序列。
輸入數據要求與限制(≈沒限制)
:fasta格式,核苷酸
或者蛋白序列
,序列數<50k條
且文件大小<100M
。
第三步
:填寫接收數據郵箱。
雖然可以在線等,但是寫個郵箱穩妥點。
如果提交成功則應該會跳轉類似如下界面。
第四步
:下載結果
我測試的3萬多條蛋白序列,用了大概50分鐘。
在線等結果或者復制郵箱中的網頁鏈接到瀏覽器打開。
呈現如下結果(這里只截圖了TF,TR):
點擊左上角"Download
" 就可以下載所有結果。
結果文件內容
解壓結果文件,層層打開文件夾PXXXXXXXXXX_output\home\kentnf\webfiles\bioinfo\itak\itak_web\itak_html\tmp\itak_online\PXXXXXXXXXX_output (這個文件夾屬是有點深不可測)即可看到6個結果文件
- tf_sequence.fasta
所有鑒定的TF/TR序列
- tf_classification.txt
所有TF/TR的分類,tab制表符分割,包含序列的ID和各自的家族。
- tf_alignment.txt
制表符分割的txt文檔,包含所有鑒定到的TF/TR比對蛋白結構域數據庫。
- pk_sequence.fasta
所有鑒定到的PK蛋白序列。
- Shiu_classification.txt
所有鑒定到的PK蛋白分類。制表符分割的txt文件,包含序列ID和相應的蛋白激酶家族。
- Shiu_alignment.txt
制表符分割的txt文檔,包含所有鑒定到的PK比對蛋白結構域數據庫。
后話=廢話
其實,這個工具我是先直接本地部署的,但是github上數據庫這么久沒更新,心里屬實不踏實。看了下iTAK.pl
,當然是看不懂的,但是我發現了一些隱藏的選項和內容。在腳本最后的email模塊發現了這個在線網址鏈接才知道原來還有在線版本。同時網站提供了最新數據庫,但是看了下部署,竟然有用到mysql,然后直接對本地版說了拜拜。現在還沒時間學習mysql。