歡迎關注”生信修煉手冊”!
在某篇評估轉錄組各個分析流程所用軟件的文章中,fusioncatcher 被評為分析融合基因的最佳工具,該軟件的網址如下
https://github.com/ndaniel/fusioncatcher
這個軟件的安裝過程比較繁瑣,依賴很多第三方軟件,為了簡化安裝,官方提供了自動化的安裝腳本, 用法如下
wget http://sf.net/projects/fusioncatcher/files/bootstrap.py -O bootstrap.py
python bootstrap.py -t --download
該腳本會自動下載依賴的軟件包并安裝。軟件的使用相對簡單很多,分為以下兩步
1. 準備參考基因組
fusioncatcher也提供了準備參考基因組的腳本,該腳本會從Ensembl等網站自動下載數據,所以使用時需要聯網,用法如下
fusioncatcher-build -g mus_musculus -o /db/mouse -w asia.ensembl.org
-g
參數指定參考基因組的物種名稱,-o
指定輸出結果的目錄,-w
參數指定ensembl web service, 即biomart的的網址。需要注意的是,-w
參數一定要設置成上述示例中的樣子,默認參數是不可以的,另外對于人和小鼠而言,因為會從gencode數據庫下載文件,而gencode的FTP地址發生了變動,所以要手動修改源代碼中gencode的FTP地址。
對于-o
參數的取值,可以參考如下鏈接
ftp://ftp.ensembl.org/pub/current_fasta
該目錄下每個物種對應一個文件夾,fusioncatcher就是根據-o
參數的取值來下載對應物種的序列。
除了下載文件,該步驟還包括建立索引等費時較長的步驟,所以這一步的運行時間會比較久,需要5-10個小時。
對于human
而言,官方提供基于Ensembl release 90版本建立的數據庫,下載方式如下
mkdir -p /some/human/data/
cd /some/human/data/
wget http://sourceforge.net/projects/fusioncatcher/files/data/human_v90.tar.gz.aa
wget http://sourceforge.net/projects/fusioncatcher/files/data/human_v90.tar.gz.ab
wget http://sourceforge.net/projects/fusioncatcher/files/data/human_v90.tar.gz.ac
wget http://sourceforge.net/projects/fusioncatcher/files/data/human_v90.tar.gz.ad
cat human_v90.tar.gz.* | tar xz
ln -s human_v90 current
2. 運行
用法如下
fusioncatcher \
-d ?database_directory ?\
-i ? fastq_directory ?\
-o ?output_directory
-d
參數指定物種的參考基因組所在目錄,-i
參數指定樣本對應的原始測序數據fastq
文件所在目錄,-o
參數指定輸出結果的目錄。
對于原始序列所在的目錄,在該目錄下可以同時存在多個樣本的結果,軟件會自動識別不同樣本對應的R1和R2端數據。
由于fusioncatcher內置了質量控制的程序,會自動對fastq
文件進行去除adapter,去除低質量等分析,所以我們只需要提供原始的測序數據就可以了。
在輸出目錄中,final-list_candidate-fusion-genes.txt 就是最終預測到的所有融合基因,這個目錄下文件很多,每個文件的詳細解釋可以參考官方文檔。
·end·
—如果喜歡,快分享給你的朋友們吧—
掃描關注微信號,更多精彩內容等著你!