差異剪接分析軟件rMATS結果文件解讀(v4.1.2)

第一次做差異剪接分析,rMATS做完后一頭霧水,查閱資料整理了一下結果文件。

  • 我使用的版本是v4.1.2,用conda安裝的,軟件的安裝和使用就不細說了,網上已經有很多帖子,這里只對幾種比較重要的結果文件進行解讀。說是解讀,其實也只是翻譯了一下,目的是幫助自己更好理解。

一些重要的區分

JC和JCEC區分

rMATS中,JC是Junction Counts的縮寫,表示跨越剪切位點的reads(暫且叫為JC reads)數量,JCEC是Junction Counts和Exon Counts的縮寫合并,Exon Counts表示不跨越剪切位點的reads數量,JCEC可以理解為所有比對上的reads(暫且叫為JCEC reads)。他們的關系見下圖:

IJC和SJC區分

這里引用一位老哥的帖子https://www.plob.org/article/22921.html,自己做了一些標注

IJC表示外顯子包含的reads數目
SJC表示外顯子跳躍的reads數目

注意,圖中I和S都是外顯子,另外外顯子包含是我瞎起的名字。

rMATS中的AS分類

  • SE 外顯子跳躍
  • A5SS 5'端可變剪切
  • S3SS 3'端可變剪切
  • MXE 外顯子選擇性跳躍
  • RI 內含子保留

結果文件類型

rMATS生成的文件大致以下幾種:

  • [AS_Event].MATS.JC.txt: 只計算Junction Counts(跨越剪切位點的reads)的最終輸出結果
  • [AS_Event].MATS.JCEC.txt: 計算了跨越剪切位點的reads和不跨越剪切位點的最終輸出結果
  • fromGTF.[AS_Event].txt: 通過GTF文件和RNA鑒定的所有選擇性剪接(AS)事件
  • fromGTF.novelJunction.[AS_Event].txt: 考慮了RNA后確定的選擇性剪接(AS)事件,不僅僅考慮GTF文件。這個結果只用跨越剪切位點進行計算。
  • fromGTF.novelSpliceSite.[AS_Event].txt: 只用不跨越剪切位點計算的結果。分析時使用參數 --novelSS 才會計算。
  • JC.raw.input.[AS_Event].txt: 跨越剪切位點的reads的AS事件計數
  • JCEC.raw.input.[AS_Event].txt: 所有reads的AS事件計數

[AS_Event].MATS.JC.txt的結果文件

<font size=1>dfjioan</font>

第幾列 第幾列 第幾列 第幾列
表頭 描述 A3SS.MATS.JC.txt
MXE.MATS.JC.txt
RI.MATS.JC.txt SE.MATS.JC.txt A5SS.MATS.JC.txt
ID AS事件編號 1 1 1 1
GeneID 可變剪接事件所在基因編號 2 2 2 2
geneSymbol 可變剪接事件所在基因名稱 3 3 3 3
chr 可變剪接事件所在染色體 4 4 4 4
strand 可變剪接事件所在鏈的方向 5 5 5 5
longExonStart_0base 較長外顯子的起始位點 6
longExonEnd 較長外顯子的終止位點 7
shortES 較短外顯子的起始位點 8
shortEE 較短外顯子的終止位點 9
flankingES 差異外顯子附近的外顯子的起始位點 10
flankingEE 差異外顯子附近的外顯子的終止位點 11
exonStart_0base 外顯子的起始位點 6
exonEnd 外顯子的終止位點 7
1stExonStart_0base 第一個外顯子的起始位點 6
1stExonEnd 第一個外顯子的終止位點 7
2ndExonStart_0base 第二個外顯子的起始位點 8
2ndExonEnd 第二個外顯子的終止位點 9
riExonStart_0base 包含內含子的外顯子的起始位點 6
riExonEnd 包含內含子的外顯子的終止位點 7
upstreamES 上游外顯子的起始位點 10 8 8
upstreamEE 上游外顯子的終止位點 11 9 9
downstreamES 下游外顯子的起始位點 12 10 10
downstreamEE 下游外顯子的起始位點 13 11 11
ID 12 14 12 12
IJC_SAMPLE_1 樣品1外顯子包含(見下面的解釋)的reads數目,重復樣品用逗號隔開 13 15 13 13
SJC_SAMPLE_1 樣品1外顯子跳躍的reads數目,重復樣品用逗號隔開 14 16 14 14
IJC_SAMPLE_2 樣品2外顯子包含(見下面的解釋)的reads數目,重復樣品用逗號隔開 15 17 15 15
SJC_SAMPLE_2 樣品2外顯子跳躍的reads數目,重復樣品用逗號隔開 16 18 16 16
IncFormLen 外顯子包含轉錄本的長度,用于標準化 17 19 17 17
SkipFormLen 外顯子跳越轉錄本的長度,用于標準化 18 20 18 18
PValue 19 21 19 19
FDR 校正后的PValue 20 22 20 20
IncLevel1 樣本1的外顯子包含的水平。重復樣品用逗號分隔。根據標準化計數計算 21 23 21 21
IncLevel2 樣本2的外顯子包含的水平。重復樣品用逗號分隔。根據標準化計數計算 22 24 22 22
IncLevelDifference average(IncLevel1)-average(IncLevel2) 23 25 23 23

</font>

summary.txt文件

這里用以下命令對summary.txt進行了轉置,更方便查看

for i in {1..9}; do cut -f $i summary.txt |xargs|sed 's/ /\t/g' ;done

EventType SE A5SS A3SS MXE RI
AS事件類型 外顯子跳躍 5'端可變剪切 3'端可變剪切 外顯子選擇性跳躍 內含子保留
TotalEventsJC
兩組樣本中)所有跨越剪切位點事件的數量
12548 527 534 1047 888
TotalEventsJCEC
(兩組樣本中)所有跨越與不跨越剪切位點事件的數量
12818 538 550 1059 915
SignificantEventsJC
(兩組樣本中)跨越剪切位點事件達到顯著水平的數量
1088 98 82 239 212
SigEventsJCSample1HigherInclusion
(與樣本2相比,)樣本1中跨越剪切位點事件達到顯著水平的數量
370 60 45 92 144
SigEventsJCSample2HigherInclusion
(與樣本1相比,)樣本2中跨越剪切位點事件達到顯著水平的數量
718 38 37 147 68
SignificantEventsJCEC
(兩組樣本中)跨越與不跨越剪切位點事件達到顯著水平的數量
1128 106 95 252 238
SigEventsJCECSample1HigherInclusion
(與樣本2相比,)樣本1中跨越與不跨越剪切位點事件達到顯著水平的數量
391 66 52 100 163
SigEventsJCECSample2HigherInclusion
(與樣本1相比,)樣本2中跨越與不跨越剪切位點事件達到顯著水平的數量
737 40 43 152 75

其他文件的表頭信息也差不多。

參考資料:

rMATS差異可變剪切分析 | Public Library of Bioinformatics (plob.org)

rmats-turbo/README.md at v4.1.2 · Xinglab/rmats-turbo · GitHub

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
禁止轉載,如需轉載請通過簡信或評論聯系作者。

推薦閱讀更多精彩內容