可變剪接鑒定軟件rMATS的結(jié)果文件內(nèi)容說明

????是的,本篇不講解軟件的安裝使用,因?yàn)榫W(wǎng)上的教程已經(jīng)非常多了。

????但是有關(guān)rMATS的輸出結(jié)果,網(wǎng)上的教程都很少提到,結(jié)果應(yīng)該怎么看?各文件各列代表了什么信息?很多老師或同學(xué)們拿到結(jié)果后,非常抓狂,因?yàn)椴磺宄募?nèi)容的含義,因?yàn)楣倬W(wǎng)上也沒有給出詳細(xì)的結(jié)果說明。

????為此,我們?cè)诒酒獙?duì)rMATS的結(jié)果內(nèi)容項(xiàng)作了梳理,解決這個(gè)問題,給大家提供一個(gè)參考。

????rMATS評(píng)估可變剪接,使用注釋文件中的外顯子(exon)位置信息,并結(jié)合測(cè)序數(shù)據(jù)和基因組比對(duì)結(jié)果計(jì)算各外顯子的表達(dá)狀態(tài),推斷可能的外顯子可變剪接狀態(tài)。

首先來看可變剪接的5種模式。

????SE,外顯子跳躍,指一個(gè)外顯子從初始轉(zhuǎn)錄物上被剪切掉。

????A5SS,可變5’剪接,它們的3’端剪接位點(diǎn)一致但5’端剪接位點(diǎn)不同,產(chǎn)生不同長度的5’端外顯子。

????A3SS,可變3’剪接,它們的5’端剪接位點(diǎn)一致但3’端剪接位點(diǎn)不同,產(chǎn)生不同長度的3’端外顯子。

????MXE,可變剪接形成兩種不同的轉(zhuǎn)錄本,兩轉(zhuǎn)錄本之間相同的外顯子稱為constitutive exon, 不同的外顯子稱為inclusive exon,兩個(gè)inclusive exon不能同時(shí)存在同一轉(zhuǎn)錄本。

????RI,內(nèi)含子保留,在一些轉(zhuǎn)錄本中內(nèi)含子不會(huì)被剪切掉,保留在最終的轉(zhuǎn)錄本中。

SE*

????以該名稱開頭的文件,記錄了基因組中的SE剪接事件。

? ??文件中,前幾列記錄了可變剪接事件的位置信息。

????GeneID、geneSymbol,發(fā)生可變剪接的基因id和名稱。

????chr、strand、exonStart_0base、exonEnd、upstreamES、upstreamEE、downstreamES、downstreamEE,記錄了發(fā)生可變剪接的位置信息,包含所在染色體、正負(fù)鏈、剪接位點(diǎn)等。在SE模式下,upstreamexon和downstreamexon拼接在一起,skipped exon被剪切掉。

隨后的幾列,與該剪接事件的可信度有關(guān)。

????IJC_SAMPLE,記錄了支持skipped exon被保留(外顯子包含)的相關(guān)reads數(shù),這意味著該外顯子在剪接后將出現(xiàn)在最終加工的mRNA轉(zhuǎn)錄物中。

????SC_SAMPLE,記錄了支持skipped exon被剪切(外顯子跳躍)的相關(guān)reads數(shù),這意味著該外顯子在可變剪接過程中被切除,不出現(xiàn)在最終加工的mRNA轉(zhuǎn)錄物中。

????我們可知,如果該剪接事件比較可信,則理論上SC_SAMPLE中的數(shù)值應(yīng)當(dāng)更大,IJC_SAMPLE中的數(shù)值應(yīng)當(dāng)較小,否則,沒有有效的證據(jù)支持可變剪接(skipped exon被剪切,外顯子跳躍)的發(fā)生。

????如果存在多組,則分別以IJC_SAMPLE_1、IJC_SAMPLE_2等命名,以分別顯示各組數(shù)據(jù)中,支持剪接事件的reads數(shù)量。

????如果每組中存在多個(gè)重復(fù),則該列的數(shù)據(jù)中包含多個(gè)值,每個(gè)值對(duì)應(yīng)一個(gè)樣本,以逗號(hào)分隔。

????當(dāng)然,除了reads支持?jǐn)?shù)量,還要考慮外顯子長度的問題,因?yàn)楦L的轉(zhuǎn)錄本往往對(duì)應(yīng)了更多的reads count值,還需要根據(jù)支持reads數(shù)量及外顯子長度,對(duì)有效reads標(biāo)準(zhǔn)化。

????IncFormLen和SkipFormLen分別對(duì)應(yīng)了外顯子是否被剪切所產(chǎn)生轉(zhuǎn)錄本同工型的有效長度。IncFormLen,外顯子包含同種型的有效長度;SkipFormLen,外顯子跳躍同工型的有效長度。

????最后幾列,即為綜合考慮支持剪接事件的reads數(shù)量,以及外顯子剪接后的長度,所得的統(tǒng)計(jì)指標(biāo)。

????PValue,可變剪接事件的p值,p值越小約可信。

????FDR,校正后的p值,越小越可信,一般取FDR<0.05作為閾值。

????IncLevel,根據(jù)剪接事件所產(chǎn)生同工型的有效長度以及支持剪接事件的reads數(shù)量計(jì)算,結(jié)果反映了樣本的最終mRNA轉(zhuǎn)錄本中平均包含各自外顯子的頻率的信息。與上述IJC_SAMPLE等類似,如果存在多組,則分別以IncLevel1、IncLevel2等命名。

????IncLevelDifference = IncLevel1 - IncLevel2,結(jié)果可反映不同樣本組間,可變剪接事件的差異程度。

A5SS*和A3SS*

????以該名稱開頭的文件,記錄了基因組中的A5SS、A3SS剪接事件。

????除了以下位置信息,A5SS、A3SS中有所不同。

????其它列的信息,兩種文件中的結(jié)構(gòu)與上述SE結(jié)果文件中的結(jié)構(gòu)相同,各列信息所代表的含義大致一致,參考上述即可。

MXE*

????以該名稱開頭的文件,記錄了基因組中的MXE剪接事件。

????結(jié)果文件中,關(guān)于MXE剪接事件所涉及的位置信息,如下所示。

????其它列的信息,兩種文件中的結(jié)構(gòu)與上述SE結(jié)果文件中的結(jié)構(gòu)相同,各列信息所代表的含義大致一致,參考上述即可。

RI*

????以該名稱開頭的文件,記錄了基因組中的RI剪接事件。

????結(jié)果文件中,關(guān)于RI剪接事件所涉及的位置信息,如下所示。

其它列的信息,兩種文件中的結(jié)構(gòu)與上述SE結(jié)果文件中的結(jié)構(gòu)相同,各列信息所代表的含義大致一致,參考上述即可。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容