染色體結構變異(sv)包括缺失、重復、倒位、易位、插入等。
SVfinder主要是基于Python開發的,能對全基因組測序分析出SV結果。
SVfinder下載地址:https://github.com/cauyrd/SVfinder
git clone https://github.com/cauyrd/SVfinder.git
預安裝
Python 包:
Scipy ( http://scipy.org/ )
Numpy ( http://www.numpy.org/ )
運行 SVfinder
命令行使用
python SVfinder.py -i <input_mapped_reads.sam> -o <output.txt> [opts]
選項:
-n <int> :cutoff of number of discordant pais to define a cluster (default:2)
-l <int> :extention length to join overlaped reads together (default:1000)
-r <int> :read length (default:100)
-g <int> :gene annotation file (default:hg19.ucsc.gene.txt)
-h :produce this menu
輸出
輸出文件包括輸出摘要文件和輸出 BED 文件。不一致的讀取列在后綴為“_svreads”的文件夾中。
A. 摘要文件由以下列組成:
- SV 類型(SVfinder 支持插入、刪除、倒置、染色體內和染色體間易位)
- 不一致的讀取對
- 1號染色體
- 位置 1 開始
- 位置 1 結束
- 方向1
- 2號染色體
- 位置 2 開始
- 位置 2 結束
- 方向2
- 注釋 1
- 注釋2
- 推定基因融合
B. BED 文件由以下列組成:
- 染色體
- 位置開始
- 位置結束
- chr+start+end+strand
- 方向
簡單應用
SVfinder軟件無需安裝,下載即可使用。不過該軟件是基于python2版本的,現在都是python3,直接運行會報錯,需用pycharm打開SVfinder.py文件進行代碼修改
- epd_python改為python
-
將SVfinder.py里所有的print修改為下圖所示的python3格式,因為python3版本需要加括號。
1.png
修改script文件夾里的classify_reads.py文件,將里面的print修改為python3格式。
2.png
python SVfinder.py
3.png
運行SVfinder
nohup python /mnt/d/bioinfo/biosoft/svfinder/SVfinder-master/SVfinder.py -i /mnt/d/bioinfo/data/clean/MD18428.bwa.sam -o MD18428.sv.output.txt &
這個軟件出結果的時間比較長,不清楚是不是服務器算力問題,運行了2天左右才出結果。
4.png
head MD18428.sv.output.txt
5.png
結果文件里包括插入、刪除、倒位、染色體內和染色體間易位SV結構異常。