2021-04-30 可變剪接與rMATS分析

????????可變剪接(Alternative splicing):一個基因的外顯子以不同的組合方式剪接形成不同的成熟RNA,由此產生的不同的 mRNA 可能被翻譯成不同的蛋白質構體,因此,一個基因可能編碼多種蛋白質。常見的可變剪接軟件包括rMATS,Asprofile以及miso等。

Alternative splicing

rMATS介紹

rMATS是一個從RNA-Seq數據中檢測差異選擇性剪接事件的計算工具,根據RNA-Seq數據,rMATS可以自動檢測和分析與所有主要類型的可變剪接模式相對應的可變剪接事件。rMATS可識別的可變剪切事件有5種。

rMATS可變剪接分類

skipped exon (SE),外顯子跳躍,指一個或多個外顯子連同其兩端的內含子一起被剪切,在成熟mRNA中不存在。

alternative 5' splice site (A5SS),5’端可變剪接,它們的3’端剪接位點一致但5’端剪接位點不同,產生不同長度的5’端外顯子。

alternative 5' splice site (A3SS),3’端可變剪接,它們的5’端剪接位點一致但3’端剪接位點不同,產生不同長度的3’端外顯子。

mutually exclusive exons (MXE),外顯子互斥,成熟的mRNA變體中,彼此特有的外顯子,這些外顯子不能同時出現在同一成熟mRNA中。

retained intron (RI),內含子保留,在一些轉錄本中內含子不會被剪切掉,保留在成熟的mRNA。

定量

rMATS采用exon inclusion level 來定義樣本中可變剪切事件的表達量,以外顯子跳躍(Skipped Exon)為例,正常的轉錄本稱之為Exon Inclusion Isofrom, 發生了外顯子跳躍的轉錄本則稱之為Exon Skipping Isofrom。

用 I 表示比對到Exon Inclusion Isofrom上的reads,S表示比對到Exon Skipping Isofrom上的reads, 則該外顯子跳躍的可變剪切事件比例可以表示為:


可以看到,exon inclusion level實際上是inclusion isofrom所占的比例,計算時,用長度校正了原始的reads數。其他類型的可變剪切事件也可以劃分成上述兩種isoform, 示意圖如下

可以看到,rmats在計算isofrom的長度時,提供了兩種方式,二者的區別就在于是否考慮跳過的exon的長度。

差異分析與統計檢驗

rmats 在差異分析時,比較的就是兩組樣本中inclusion level的差異,給定閾值c,? 判斷兩個樣本中對應inclusion level 的是否發生了變化,公式如下

c這個閾值通過--cstat參數自定義,取值范圍為0-1,代表的是兩個樣本中inclusion level的差值,0.1表示兩個樣本中該可變剪切事件的inclusion level相差10%。當然,實際計算過程是非常繁瑣的,需要考慮數據的分布,對應的統計模型等各種因素,最終會給出每個可變剪切事件的p值和多重假設檢驗校正后的FDR值。

rMATS安裝

????????非root權限下安裝rMATS總是出現各種問題,使用常規的conda安裝貌似只能安裝低版本的rMATS,運行的時候也是各種不兼容。幸得高手指點,在最新版rmats-turbo-4.1.1,有一個快速安裝的方式:./build_rmats --conda(再次提醒閱讀使用說明的重要性:))。如無意外,應該可以安裝成功。

rMATS使用

!!!重要

使用./build_rmats --conda方式安裝的rmats似乎必須在安裝目錄下使用./run_rmats --b1 /path/to/b1.txt --b2 /path/to/b2.txt --gtf /path/to/the.gtf -t paired --readLength 50 --nthread 4 --od /path/to/output --tmp /path/to/tmp_output進行運行,反而在b1.txt目錄下是用絕對路徑引用run_rmats(例如/path/to/run_rmats)進行運行總是提示:FileNotFoundError: [Errno 2] No such file or directory: 'b1.txt'

具體程序執行代碼參考原文。

rMATS結果解讀

在輸出目錄下,有很多的文件,我們重點關注其中兩種文件即可:AS_Event.MATS.JC.txt, AS_Event.MATS.JCEC.txt。這里的AS_Event對應五種不同類型的可變剪切事件,每種類型是一個單獨的文件,而JC和JCEC對應的是isoform effective length的兩種計算方式。由于兩種計算方式沒有絕對的孰優孰劣的區分,根據需要進行選擇。在這些文件中,包含了定量和差異的結果,其中InclevelDifference就是兩組樣本中表達量的差值,通過Pvalue和FDR可以對結果進行過濾和篩選。

針對exonStart_0base,exonEnd,upstreamES,upstreamEE,downstreamES,downstreamEE如下所示。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容