RNA-seq 可變剪切

可變剪切定義

有些基因的一個mRNA前體通過不同的剪接方式(選擇不同的剪接位點)產(chǎn)生不同的mRNA剪接異構體,這一過程稱為可變剪接(或選擇性剪接, alternative splicing)

內(nèi)含子剪切需要區(qū)分外顯子和內(nèi)含子,主要識別包括內(nèi)含子5‘及3’末端序列即中間分支點(branch site)附近序列。5‘剪切點稱為供體點(donor site),3’剪切點稱為受體點(acceptor site)。內(nèi)含子開始和末尾的堿基最為保守,為GU-AG(約占99.24%),少數(shù)為GC-AG(0.7%),極少數(shù)為(AT-AC)

剪切由剪切體催化完成,剪切體主要有幾個糖蛋白亞基組成。每個亞基由RNA鏈和蛋白質(zhì)組成,剪切體分為主要剪切體(major spliceosome)和次要剪切體 (minor spliceosome),主要剪切體負責對接GU-AG的形式,次要剪切體對接AT-AC的形式,剪切過程就是U1結合donor site,U2結合branch site ,U4-U5-U6 形成復合物去綁定鏈接到U1-U2上,最終完成剪切。


可變剪切種類主要可以分為以下五類:

可變剪切分析軟件

RNA-seq可變剪切一般分析過程:

比對軟件:hisat2、 star、 tophat

AS識別軟件:依賴已有的gtf文件,Asprofile、rmats、cash,不依賴的有l(wèi)eafcutter

AS差異分析:定量再進行差異表達分析

推薦軟件:cash/rMATS

CASH 可變剪切分析

下載路徑:https://sourceforge.net/projects/cash-program/

Released?/2.2.1/cash_v2.2.1.zip

unzip cash_v2.2.1.zip

cd cash_v2.2.1

要求:Java version ≥ 1.8 ? 自行安裝:https://www.java.com/en/download/help/linux_x64_install.xml

java –jar cash.ja

運行腳本

無生物學重復:

java -jar -Xmx10g cash.jar --Case:prefix1 C1.bam --Control:prefix2 C2.bam --GTF ref.gtf—Output sample

有生物學重復:

java-jar -Xmx10g cash.jar --Case:Control C1.bam,C2.bam --Control:Treat T1.bam,T2.bam --GTF ref.gtf--Output samples

~/bio/jdk1.8.0_201/bin/java -jar -Xmx10g ~/bio/cash/cash.jar --Case:Mutation ~/testData/bams/C1.bam,~/testData/bams/C.bam --Control:WildType ~/testData/bams/W1.bam,~/testData/bams/W2.bam --GTF ~/ref/hg19.gtf --Output test

結果文件解讀:

文件1:test.ControlvsTreat.alldiff.statistics.txt 主要是統(tǒng)計分析結果

文件2: test.MutationvsWildType.alldiff.txt 具體剪切信息文件

rMATS可變剪切分析

Multivariate Analysis of Transcript Splicing (MATS) ?4.0版本以上的,不支持沒有生物學重復的差異分析

下載: http://rnaseq-mats.sourceforge.net/rmats4.0.2/

Release of?rMATS 4.0.1(建議下載版本,最新4.0.2版本運行時候bugs可能較多)

安裝相關需求包,有root權限按照官方指南安裝,沒有的安裝如下:

User Guide http://rnaseq-mats.sourceforge.net/rmats4.0.1/user_guide.htm

利用 conda 安裝 numpy ,libblas, liblapack,gfortran (https://anaconda.org/bioconda/)

libgsl0ldbl包需要自行編譯

先去官網(wǎng)下載GSL安裝包http://www.gnu.org/software/gsl/

下載最新的版本后解壓,在解壓后的目錄執(zhí)行

./configure --prefix=/usr/local/bin && make && make install

cd /usr/local/bin

vi ./bashrc 添加路徑

最下面加入:

export LD_LIBRARY_PATH=/usr/local/bin: $LD_LIBRARY_PATH

source ./bashrc

找到編譯的路徑,建立軟連接

cd /usr/local/bin ? ? ?

ln libgsl.so.23 libgsl.so.0

腳本運行

fastq文件運行

python rmats.py --s1 s1.txt --s2 s2.txt --gtf gtfFile --bi STARindexFolder -od outDir -t readType -readLength readLength [options]*

python rMATS-turbo-xxx-UCSx/rmats.py --s1 s1.txt --s2 s2.txt --gtf gtf/Homo_sapiens.Ensembl.GRCh37.72.gtf --bi ~/STARindex/hg19 --od out_test -t paired --nthread 6 --readLength 101 --tophatAnchor 8 --cstat 0.0001 --tstat 6

s1及s2的文件為兩個樣品的fastq文件路徑

bam文件運行

python rmats.py --b1 b1.txt --b2 b2.txt --gtf gtfFile --od outDir -t readType --nthread nthread --readLength readLength --tstat tstat [options]*

python rMATS-turbo-xxx-UCSx/rmats.py --b1 b1.txt --b2 b2.txt -gtf gtf/Homo_sapiens.Ensembl.GRCh37.72.gtf -od bam_test -t paired --readLength 101 --cstat 0.0001 --libType fr-unstranded

b1.txt和b2.txt文件為兩個樣品的bam文件路徑

結果文件解讀

輸出五種可變剪接類型輸出:可變剪接類型.MATS.JCEC.txt 考慮外顯子長度 可變剪接類型.MATS.JC.txt 不考慮外顯子長度



rmats2sashimiplot 可視化rmats分析結果

下載鏈接:https://github.com/Xinglab/rmats2sashimiplot

python2.7下安裝python setup.py install (需安裝python畫圖包matplotlib)

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內(nèi)容