軟件安裝
# 安裝bedtools
$ conda install -c bioconda bedtools
# 安裝astk
$ pip install git+https://github.com/huang-sh/astk.git@dev
剪切位點強度計算
支持 suppa2, rMATS輸出結(jié)果。可直接計算各位點強度得分。該軟件是對MaxEntScan(http://hollywood.mit.edu/burgelab/maxent/Xmaxentscan_scoreseq.html)的一個封裝。
以下舉了兩個例子,分別使用suppa2和rMATS的輸出結(jié)果,進行計算
# 基因組序列文件
gfa=GRCm38.primary_assembly.genome.fa
astk sss -e event/suppa2_SE.sig.dpsi -od output/SUPPA2_SE -fi $gfa &
astk sss -e event/SE.MATS.JCEC.txt -od output/rMATS_SE -fi $gfa &
運行結(jié)果:
$ ll -h output/rMATS_SE | cut -f 5- -d " "
53 Sep 2 21:23 A0_3SS
53 Sep 2 21:23 A1_5SS
53 Sep 2 21:23 A2_3SS
53 Sep 2 21:24 A3_5SS
53 Sep 2 21:24 A4_3SS
53 Sep 2 21:24 A5_5SS
23K Sep 2 21:24 splice_scores_box.png
161K Sep 2 21:24 splice_scores.csv
$ ll -h output/SUPPA2_SE | cut -f 5- -d " "
53 Sep 2 21:23 A0_5SS
53 Sep 2 21:23 A1_3SS
53 Sep 2 21:23 A2_5SS
53 Sep 2 21:23 A3_3SS
16K Sep 2 21:23 splice_scores_box.png
51K Sep 2 21:23 splice_scores.csv
對于skipping exon 類型其中,rMATS輸出結(jié)果會比SUPPA2的多兩個。因為rMATS的輸出結(jié)果包含了上游exon的3‘ss,和下游exon的5ss。而suppa2沒有。
其中A_SS文件內(nèi)包含了剪切位點的序列和bed坐標文件
splice_scores_box.png
image.png
splice_scores.csv是csv表格,包含各位點得分