結構變異(structural variants,SV)
結構變異類型:
通過pair-ends分析鑒定
---插入(Insertion)
---缺失(Deletion)
---缺失插入(Delegation and Insertion)
---反轉(Inversion)
.....
1. breakdancer軟件安裝
1.1 官網查看,只更新到2013年 breakdancer-1.1.2_2013_03_08.zip
1.2 conda 安裝
首先查查看conda中有沒有?
conda search breakdancer
conda install -y breakdancer
失敗了一次,又一次,
再裝一次,就好了,conda的鏡像不穩定
2. 找SV
2.1 檢測insert
#-q INT Minimum mapping quality [35]
#-s Minimal mean insert size [50]
#-b INTNumber of bins in the histogram [50]
#-g Output mapping flag distribution
mkdir SV && cd SV
bam2cfg.pl -g -h /home/huawei/raw_data/YSQ/4AL_resequence/output/bam/4AL_reseq.sorted.unique.markdup.add.bam >4AL_requence.cfg
一般來說我只關心報錯error,warning什么的根本不管的,所以看一下生成了什么
ls
#4AL_requence.cfg
#4AL_reseq.sorted.unique.markdup.add.bam.lib1.insertsize_histogram
#4AL_reseq.sorted.unique.markdup.add.bam.lib1.insertsize_histogram.png
4AL_requence.cfg:測序平臺,樣本,讀長:150,indel總數量,最小值,最大值,平均indel長度,等
4AL_reseq.sorted.unique.markdup.add.bam.lib1.insertsize_histogram:插入片段的大小
4AL_reseq.sorted.unique.markdup.add.bam.lib1.insertsize_histogram.png生成的圖片顯示:插入片段的大小(橫坐標)及相應的頻率(縱坐標)
2.2 檢測結構變異
breakdancer-max -q 10 4AL_requence.cfg > 4AL_requence.ctx
#-o STRING operate on a single chromosome [all chromosome]
#-s INT minimum length of a region [7]
#-m INT maximum SV size [1000000000]
#-r INT minimum number of read pairs required to establish a connection -q INTminimum mapping quality
#輸出文件格式:
#Chr1 Pos1 Orientation1 Chr2 Pos2 Orientation2 Type Size Score num_Reads num_Reads_lib 4AL_reseq.sorted.unique.markdup.add.bam
#chr1A_part1 3363 28+25- chr1A_part1 3475 28+25- ITX -248 99 22 /home/huawei/raw_data/YSQ/4AL_resequence/output/bam/4AL_reseq.sorted.unique.markdup.add.bam|22 NA
#chr1A_part1 26809 6+3- chr1A_part1 26916 6+3- ITX -266 64 3 /home/huawei/raw_data/YSQ/4AL_resequence/output/bam/4AL_reseq.sorted.unique.markdup.add.bam|3 NA
1-3列和4-6列被用來指定兩個SV斷點的坐標。
一列為染色體chr,一列為位置pos,一列為方向orientation,正負號代表reads比對到anchoring區域的方向,數字代表比對到這個位置的reads數目。
第7列表示SV的類型,
分別有:DEL (deletions), INS (insertion), INV (inversion), ITX (intra-chromosomal translocation,異位發生在同一條染色體內), CTX (inter-chromosomal translocation,易位發生在兩條同源或非同源染色體之間), and Unknown.
第8列表示SV的大小,可以忽略正負號的意義,對染色體間易位無用。
第9列可信度得分。
第10列支持該SV的reads數目。
第11列,library中支持該SV的reads數目
第12列run parameter
第七列為不同的SV類型,統計各種類型有多少,并分別輸出到不同的txt中。
cat 4AL_requence.cfg |grep 'DEL' >4AL_DEL.txt
cat 4AL_requence.cfg |grep 'INV' >4AL_INV.txt
cat 4AL_requence.cfg |grep 'ITX' >4AL_ITX.txt
cat 4AL_requence.cfg |grep 'CTX' >4AL_CTX.txt