eggnog注釋
使用在線版 eggnog-mapper 進行 eggnog 數據庫注釋。
eggnong數據庫全稱為evolutionary genealogy of genes: Non-supervised Orthologous Groups,是對NCBI的COG數據庫的拓展,提供不同分類水平蛋白的直系同源組(Orthologous Groups,OG)。它擴展了COG數據庫的分類方法,并且提供進行eggnog注釋的工具:eggNOG-mapper
在線版 eggnog-mapper 單次輸入序列條數不能超 10 萬條,可以對氨基酸序列進行切分。
seqkit split --by-size 100000 --out-dir split unigene_pep.fasta
數據準備好以后,登錄在線網站上傳蛋白序列, 在線進行蛋白注釋,完成后下載注釋結果 *emapper.annotations,并將其合并。
uniprot 注釋
是一個提供蛋白質序列和注釋數據的綜合性數據庫。對于序列數據庫,我們會使用blastp/diamond這類軟件進行比對。
由于 eggnog 數據庫對細菌的 GO 注釋信息包含很少,這里我們使用uniref90 數據庫對氨基酸序列進行比對注釋,并基于 idmapping 信息提取 GO 注釋。
# 下載uniref90數據庫
wget https://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/uniref90.fasta.gz
# 下載id mapping文件 11G
wget https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/idmapping/idmapping_selected.tab.gz
# 構建diamond database
diamond makedb --in ./uniref90.fasta.gz --db uniref90
# 進行diamond比對
diamond blastp \
--db ./uniref90 \ # db名稱
--query unigene_pep.fasta \ # 輸入,氨基酸fasta文件
--out unigene_pep.uniref90.m6 \ # 輸出,表格格式
--threads 8 \ # 線程
--outfmt 6 \ # 輸出blast表格格式結果
--max-target-seqs 5 \
--evalue 1e-5
# 基于idmapping 提取GO注釋信息
perl uniref90_idmapping.pl \
unigene_pep.uniref90.m6 \ # 比對結果
./idmapping_selected.tab.gz \ # idmapping文件
> unigene_pep.uniref90.GOanno # 輸出GO注釋信息
# 構建orgdb,并統計GO 注釋
Rscript GOmapperx.R unigene_pep.uniref90.GOanno
抗生素耐藥基因注釋
目前常用的耐藥數據庫:
-
ARDB數據庫:
最早的耐藥數據庫,其核心架構包含完整的耐藥基因序列以及,除此之外,還包括部分抗生素靶位點序列及其相關信息。目前ARDB已不再維護,相關信息已經被整合進CARD數據庫,因此,目前常用CARD進行耐藥性研究。
-
CARD數據庫
CARD是一個基于志愿者貢獻數據的耐藥性研究共享平臺,包括ARDB數據庫的所有耐藥基因信息,且更新很及時,從而保證了數據的時效性。CARD數據庫以ARO為分類單位,在一個term中關聯抗生素、作用靶位點、作用機制、序列變異等信息。除此之外,還包括一些毒力基因的信息、相關的可移動元件信息等。分析模式包括BLAST和RGI模式,除了可以對已知耐藥基因進行注釋外,還可以通過RGI預測潛在的耐藥基因。RGI提供了3種預測標準,即Perfect、Strict和Loose;通過選擇同源比對的判定標準,可以得到不同可信度和數量的潛在耐藥基因,有助于發現新的耐藥基因。
RGI 可以網頁版運行,也可以安裝在本地服務器,在線地址https://card.mcmaster.ca/analyze/rgi
# 下載CARD數據庫參考數據
wget https://card.mcmaster.ca/latest/data
tar -xvf data ./card.json
# 準備輸入文件
unigene_pep.fasta
# 加載數據庫
rgi load \
-i ./card.json \ # 輸入
--local # 數據庫存放在當前目錄
# 運行主程序
rgi main \
--input_sequence unigene_pep.fasta \ # 輸入,氨基酸序列
--output_file rgi_out \ # 輸出文件前綴
--input_type protein \ # 輸入數據類型contig|protein
--alignment_tool DIAMOND \ # 比對軟件
--num_threads 8 \ # 線程數
--local \ # 數據庫在當前目錄
--clean \ # 刪除臨時文件
--include_loose # 保留寬松比對結果
碳水化合物酶注釋
碳水化合物酶注釋的常用數據庫為CAZy 數據庫。
CAZy預測工具dbCAN2
這里使用 dbCAN2 提供的 run_dbCAN 本地版進行碳水化合物酶注釋,dbCNA 也可以使用在線版,網址如下:dbCAN3 server (unl.edu)
# 使用diamond比對方法
run_dbcan \
--out_dir cazy_diamond \ # 輸出目錄
--db_dir 你的路徑 \ # 數據庫路徑
--tools diamond \ # 使用diamond比對進行注釋
--dia_cpu 8 \ # 線程數
unigene_pep.fasta \ # 輸入,蛋白fasta序列
protein # 輸入數據格式
# 使用hmmer結構域搜索方法
run_dbcan \
--out_dir cazy_hmmer \
--db_dir /app/db \ # 數據庫路徑
--tools hmmer \ # 使用結構域搜索進行注釋
--dia_cpu 8 \ # 線程數
--hmm_cpu 8 \
--eCAMI_jobs 5 \
unigene_pep.fasta \ # 輸入,蛋白fasta序列
protein
主要輸出結果: