rmats是一款比較好的分析可變剪切的分析軟件,將rmats分析的結果,利用rmats2sashimiplot繪畫出的圖也是比較漂亮的,
可變剪切事件:
可變剪切事件可以分為:
我們就講一下外顯子跳躍事件,
如下圖所示:
上面的那個屬于Exon lnclusion isoform的情況。
下面那個屬于Exon Skipping isoform的情況
外顯子跳躍后,中間的外顯子就沒有了,兩邊的連到一起
那么,測序的reads是如何捕捉到的轉錄本怎么和可變剪切事件的呢?
上圖中左邊為inclusion isofrom, 右邊為skipping isoform, 比對上inclusion isoform的reads 有兩種,分別為紅色和紫色,其中紅色reads只比對到了1號和3號exons上,無法區分這部分reads是來自inclusion isofrom還是skipping reads, 而紫色的reads 比對到了exon2以及exon2與其他exon的連接處,這部分reads可以明確來自inclusion isoform. 所以在統計inclusion isofrom count時,只會計數這部分reads(紫色reads), 同理,統計skipping isoform的reads數時,只會統計綠色部分的reads。
結果解讀:
那么結果該如何解讀呢?
其中RPKM衡量表達量情況,lnclevel是什么呢?
文獻中給的定義是:
1.lncLevel1 : inclusion level for SAMPLE_1 replicates (comma separated) calculated from normalized counts(對于sample1)
2.IncLevel2 : inclusion level for SAMPLE_2 replicates (comma separated) calculated from normalized counts(對于sample2)
3.IncLevelDifference : average(IncLevel1) - average(IncLevel2)
回到剛才,那么
lnclevel是exon inclusion level,是Exon Inclusion Isoform在總(Exon Inclusion Isoform + Exon Skipping Isoform)所占比例
lnclevel的計算公式如下:
ψ = (I/lI)/[(S/lS) + (I/II)]
其中:
- I是指mapping到exon inclusion isoform的reads數
- S指mapping到exon skipping isoform的reads數
- II指exon inclusion isoform的有效長度
- IS 指exon skipping isoform的有效長度
那么有效長度的定義又是什么呢???
剛才我們介紹了rMATS只會記錄連接處(紫色和綠色)的reads
以exon skipping為例,每一個連接處都會有8bp左右的anchor,作者默認為8bp,因此有效比對到兩邊exon的長度為 r-2a+1(加 1 是為了防止0值)
因此可以定義出 junction length :the overall junction region covered by reads across junctions, affected by read length, anchor length (by default 8 bps in both upstream and downstream exons) and exon length
junction length is calcualted as (read length - anchor)*2
假設 read length = 150np;anchor = 8bp,則 junction length = 284bp,skipping的有效長度為135bp
rMATs是根據Likelihood-ratio test來比較兩組樣本可變剪切是否有差異
所以,我們根據這個就可以看兩個樣品是否有可便剪切上的差異了
那么,當Exon inclusion isoform數量較高時,lnclevel1較高;當Exon skipping isoform數量較高時,lnclevel2較高。
如果Exon inclusion isoform數量低的離譜,Exon skipping isoform有一定數量且保持不變那么lnclevel1會接近于0;反之,Exon skipping isoform也一樣。
但是,我們在利用miso或rmats分析可變剪切的時候,往往用sashimiplot進行可視化,其中基于兩款軟件畫圖的reads可能會不一樣,那么:
對于rmats2sashimiplot產生的圖片,我們不需要太過于糾結reads數目和rmats對應不上,只需要看reads分布的大體趨勢即可,重點是關注不同樣本中IncLevel的差異。
這是因為sashimiplot的input是miso的輸出文件,而rmats的output會被sashimiplot轉換成miso的output,才可以繼續作圖
在轉換的過程中由于rmats和miso判斷可變剪切的原理不一樣,所以會造成一定誤差
判斷差異可變剪切的統計學模型
由上面的敘述我們知道判斷某個基因是否存在差異可變剪切是通過 | Ψi1-Ψi2 | ≤ c,其中 i 表示第 i 個基因;Ψ 即為 lnclevel。
首先rmats先計算全部基因的 | Ψi1-Ψi2 | ,并以此擬合出一個分布:
上面這張圖的橫坐標表示 | Ψi1-Ψi2 | ,縱坐標表示頻率(頻數)分布直方圖,也就是表示當 | Ψi1-Ψi2 | 為某值是,對應一共有多少個基因滿足這個條件
那么rmats里面有一個參數是 --cstat,默認為0.01%,也就是說在全部的基因中,存在差異可變剪切的只占0.01%。因此統計全部基因的 | Ψi1-Ψi2 | 值,選擇差異最大的那0.01%,并定義為存在差異可變剪切的基因,那么p_val即為上圖陰影部分的面積
如何理解rMAT結果
前幾列代表的是基因的基本信息:
- chr: 代表染色體
- strand: 代表鏈的信息
而 exonStart_0base ,exonEnd,upstreamES,upstreamEE,downstreamES,downstreamEE代表的是可變剪切的isoform的位置信息:
exonStart_0base ,exonEnd代表skip的外顯子
而:
前面兩列代表顯著性,而lncLevels1和lncLevels2分別對應這不同處理中各個生物學重復的lncLevels值,而lncLevelDifference代表lncLevels1與lncLevels2的差值,若差值很大并且顯著則判斷為差異可變剪切
參考:https://cloud.tencent.com/developer/article/1366294
參考:https://www.biostars.org/p/256949/
參考:http://www.lxweimin.com/p/d2f00c1c9067