說明:InterPro是一個(gè)整合了各種蛋白及其功能的數(shù)據(jù)庫,內(nèi)含有蛋白質(zhì)所屬的家族及其所包含的結(jié)構(gòu)域和位點(diǎn)。而interproscan就是用來搜索蛋白DOMAIN的一個(gè)工具,用戶可以根據(jù)自己的核苷酸序列或者蛋白序列來搜索自己序列所含的domain信息。
1.下載與安裝
# 此處為最新版本5.52-86.0,64位,下載MD5文件用來檢驗(yàn)下載的完整性
wget https://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.52-86.0/interproscan-5.52-86.0-64-bit.tar.gz
wget https://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.52-86.0/interproscan-5.52-86.0-64-bit.tar.gz.md5
md5sum -c interproscan-5.52-86.0-64-bit.tar.gz.md5
# 返回ok則說明下載完整
#解壓
tar -pxvzf interproscan-5.52-86.0-*-bit.tar.gz
# 解壓完后,進(jìn)入目錄,查看是否安裝完好,若有用法說明彈出則表示安裝成功。
./interproscan.sh
# 進(jìn)行初始化,此命令大致是準(zhǔn)備好HMM模型以供hmmscan使用
python3 initial_setup.py
2.測試與相關(guān)參數(shù)說明
測試
#完成上面的步驟后,即可進(jìn)行測試(以下兩條命令選一即可)
./interproscan.sh -i test_all_appl.fasta -f tsv -dp
./interproscan.sh -i test_all_appl.fasta -f tsv
# -db參數(shù)的含義:本人的理解是:含有-db則是關(guān)閉了連接EBI聯(lián)網(wǎng)搜索的權(quán)限而使用本地化搜索,默認(rèn)情況下是支持EBI聯(lián)網(wǎng)搜索,若只需本地則使用-db。(可能不正確,大家看看就行)
參數(shù)說明
- -appl / -applications 搜索應(yīng)用的名字(可選)
- 默認(rèn)情況下,運(yùn)行所有的分析,也可以自己指定一個(gè)或多個(gè)。
# 指定pfam搜索
./interproscan.sh -appl Pfam -i /path/to/sequences.fasta
#同時(shí)指定多個(gè)進(jìn)行搜索
./interproscan.sh -appl CDD,COILS,Gene3D,HAMAP,MobiDBLite,PANTHER,Pfam,PIRSF,PRINTS,PROSITEPATTERNS,PROSITEPROFILES,SFLD,SMART,SUPERFAMILY,TIGRFAM -i /path/to/sequences.fasta
- -i /-fasta 序列文件
- 輸入的是蛋白或者核酸的fasta文件,將會(huì)返回TSV,XML,Gff3三個(gè)輸出結(jié)果
./interproscan.sh -i /path/to/sequences.fasta
# 輸出結(jié)果為sequences.tsv, sequence.xml, sequences.gff3
- -t / 序列類型
- 默認(rèn)是蛋白序列,若為核苷酸序列,則需要加上此參數(shù)
./interproscan.sh -t n -i /path/to/sequences.fasta
....還有很多參數(shù)就不一一展示,有興趣的可以查看官網(wǎng)文檔
3.包含的分析
主要包含以下分析:
- CDD
- COLIS
- Gene3D
- HAMAP
- MOBIDB
- PANTHER
- Pfam
- PIRSF
- SMART
- ...