可變剪切定義
有些基因的一個mRNA前體通過不同的剪接方式(選擇不同的剪接位點)產(chǎn)生不同的mRNA剪接異構體,這一過程稱為可變剪接(或選擇性剪接, alternative splicing)
內(nèi)含子剪切需要區(qū)分外顯子和內(nèi)含子,主要識別包括內(nèi)含子5‘及3’末端序列即中間分支點(branch site)附近序列。5‘剪切點稱為供體點(donor site),3’剪切點稱為受體點(acceptor site)。內(nèi)含子開始和末尾的堿基最為保守,為GU-AG(約占99.24%),少數(shù)為GC-AG(0.7%),極少數(shù)為(AT-AC)
剪切由剪切體催化完成,剪切體主要有幾個糖蛋白亞基組成。每個亞基由RNA鏈和蛋白質(zhì)組成,剪切體分為主要剪切體(major spliceosome)和次要剪切體 (minor spliceosome),主要剪切體負責對接GU-AG的形式,次要剪切體對接AT-AC的形式,剪切過程就是U1結合donor site,U2結合branch site ,U4-U5-U6 形成復合物去綁定鏈接到U1-U2上,最終完成剪切。
可變剪切種類主要可以分為以下五類:
可變剪切分析軟件
RNA-seq可變剪切一般分析過程:
比對軟件:hisat2、 star、 tophat
AS識別軟件:依賴已有的gtf文件,Asprofile、rmats、cash,不依賴的有l(wèi)eafcutter
AS差異分析:定量再進行差異表達分析
推薦軟件:cash/rMATS
CASH 可變剪切分析
下載路徑:https://sourceforge.net/projects/cash-program/
Released?/2.2.1/cash_v2.2.1.zip
unzip cash_v2.2.1.zip
cd cash_v2.2.1
要求:Java version ≥ 1.8 ? 自行安裝:https://www.java.com/en/download/help/linux_x64_install.xml
java –jar cash.ja
運行腳本
無生物學重復:
java -jar -Xmx10g cash.jar --Case:prefix1 C1.bam --Control:prefix2 C2.bam --GTF ref.gtf—Output sample
有生物學重復:
java-jar -Xmx10g cash.jar --Case:Control C1.bam,C2.bam --Control:Treat T1.bam,T2.bam --GTF ref.gtf--Output samples
~/bio/jdk1.8.0_201/bin/java -jar -Xmx10g ~/bio/cash/cash.jar --Case:Mutation ~/testData/bams/C1.bam,~/testData/bams/C.bam --Control:WildType ~/testData/bams/W1.bam,~/testData/bams/W2.bam --GTF ~/ref/hg19.gtf --Output test
結果文件解讀:
文件1:test.ControlvsTreat.alldiff.statistics.txt 主要是統(tǒng)計分析結果
文件2: test.MutationvsWildType.alldiff.txt 具體剪切信息文件
rMATS可變剪切分析
Multivariate Analysis of Transcript Splicing (MATS) ?4.0版本以上的,不支持沒有生物學重復的差異分析
下載: http://rnaseq-mats.sourceforge.net/rmats4.0.2/
Release of?rMATS 4.0.1(建議下載版本,最新4.0.2版本運行時候bugs可能較多)
安裝相關需求包,有root權限按照官方指南安裝,沒有的安裝如下:
User Guide http://rnaseq-mats.sourceforge.net/rmats4.0.1/user_guide.htm
利用 conda 安裝 numpy ,libblas, liblapack,gfortran (https://anaconda.org/bioconda/)
libgsl0ldbl包需要自行編譯
先去官網(wǎng)下載GSL安裝包http://www.gnu.org/software/gsl/
下載最新的版本后解壓,在解壓后的目錄執(zhí)行
./configure --prefix=/usr/local/bin && make && make install
cd /usr/local/bin
vi ./bashrc 添加路徑
最下面加入:
export LD_LIBRARY_PATH=/usr/local/bin: $LD_LIBRARY_PATH
source ./bashrc
找到編譯的路徑,建立軟連接
cd /usr/local/bin ? ? ?
ln libgsl.so.23 libgsl.so.0
腳本運行
fastq文件運行
python rmats.py --s1 s1.txt --s2 s2.txt --gtf gtfFile --bi STARindexFolder -od outDir -t readType -readLength readLength [options]*
python rMATS-turbo-xxx-UCSx/rmats.py --s1 s1.txt --s2 s2.txt --gtf gtf/Homo_sapiens.Ensembl.GRCh37.72.gtf --bi ~/STARindex/hg19 --od out_test -t paired --nthread 6 --readLength 101 --tophatAnchor 8 --cstat 0.0001 --tstat 6
s1及s2的文件為兩個樣品的fastq文件路徑
bam文件運行
python rmats.py --b1 b1.txt --b2 b2.txt --gtf gtfFile --od outDir -t readType --nthread nthread --readLength readLength --tstat tstat [options]*
python rMATS-turbo-xxx-UCSx/rmats.py --b1 b1.txt --b2 b2.txt -gtf gtf/Homo_sapiens.Ensembl.GRCh37.72.gtf -od bam_test -t paired --readLength 101 --cstat 0.0001 --libType fr-unstranded
b1.txt和b2.txt文件為兩個樣品的bam文件路徑
結果文件解讀
輸出五種可變剪接類型輸出:可變剪接類型.MATS.JCEC.txt 考慮外顯子長度 可變剪接類型.MATS.JC.txt 不考慮外顯子長度
rmats2sashimiplot 可視化rmats分析結果
下載鏈接:https://github.com/Xinglab/rmats2sashimiplot
python2.7下安裝python setup.py install (需安裝python畫圖包matplotlib)