m6A-Seq數(shù)據(jù)質(zhì)量評(píng)估:trumpet包

文章信息

文獻(xiàn)標(biāo)題:trumpet: transcriptome-guided quality assessment of m6A-seq data
發(fā)表雜志:BMC Bioinformatics
發(fā)表時(shí)間:13 July 2018
原文doi: https://doi.org/10.1186/s12859-018-2266-3

image-20210125162326019.png

關(guān)于作者-Jia Meng

最近做m6A分析研發(fā),發(fā)現(xiàn)搜到的軟件都是他們家的,就去搜了一下這個(gè)大佬

主頁(yè)介紹如下:https://www.xjtlu.edu.cn/en/departments/academic-departments/biological-sciences/staff/jia-meng
實(shí)驗(yàn)室主頁(yè):https://www.xjtlu.edu.cn/zh/news/2019/02/m6a

其中關(guān)于Peak識(shí)別發(fā)表的軟件一部分如下:

image-20210125162923656.png

可以說(shuō)是非常高產(chǎn)了,其中exomePeak的升級(jí)版本預(yù)計(jì)今年5月份見(jiàn)刊。

文獻(xiàn)摘要

RNA甲基化免疫沉淀測(cè)序(MeRIP-seq或m6A-seq)已被廣泛用于分析RNA N6-腺苷甲基化在轉(zhuǎn)錄組中的分布。然而,由于RNA分子的固有特性以及該技術(shù)復(fù)雜的操作過(guò)程,m6A-seq數(shù)據(jù)往往存在各種缺陷。對(duì)m6A-seq數(shù)據(jù)的質(zhì)量進(jìn)行評(píng)估需要一種方便、全面的工具,以確保它們適合后續(xù)的分析。

從技術(shù)方面,m6A-seq可以認(rèn)為是ChIP-Seq和RNA-Seq的結(jié)合。因此,通過(guò)有效地結(jié)合兩種技術(shù)的數(shù)據(jù)質(zhì)量評(píng)估指標(biāo),我們開發(fā)了用于m6A-seq數(shù)據(jù)質(zhì)量評(píng)估的trumpet R包。trumpet包從m6A-seq數(shù)據(jù)中獲取比對(duì)產(chǎn)生的BAM文件以及轉(zhuǎn)錄組信息作為輸入,生成HTML格式的質(zhì)量評(píng)估報(bào)告。

除此之外,還可以用于其他RNA免疫沉淀測(cè)序技術(shù)數(shù)據(jù)評(píng)估如m1A-seq, CeU-Seq, Ψ-seq等。

主要評(píng)價(jià)指標(biāo)

1.測(cè)序數(shù)據(jù)統(tǒng)計(jì)

這個(gè)地方主要通過(guò)計(jì)算read count來(lái)獲得對(duì)樣本的一個(gè)全面了解,這可能是檢查樣本質(zhì)量的最基本方法。低reads count或比對(duì)到特定基因組區(qū)域的reads比例差異過(guò)大可能與低數(shù)據(jù)質(zhì)量有關(guān),這是由于多樣本混庫(kù)測(cè)序不平衡、DNA污染或?qū)嶒?yàn)過(guò)程中的其他偏差造成的。

下表來(lái)源于小鼠中腦3個(gè)Fto基因敲除和3個(gè)對(duì)照樣本的統(tǒng)計(jì)結(jié)果(GSE47217),其中IP2樣本3'UTR的reads相比其他樣本過(guò)少,可能是由于樣本制備過(guò)程中 3′ bias 造成的。

image-20210125165739190.png
2.read coverage評(píng)價(jià)

由于基因差異表達(dá), PCR artifacts和randomness,可能會(huì)造成全轉(zhuǎn)錄組read覆蓋度的異質(zhì)性。下表中,相對(duì)于其他樣本,IP2樣本的外顯子區(qū)域read覆蓋度高,在區(qū)域覆蓋度 > 104 reads 時(shí)更顯著。這表明read覆蓋度的異質(zhì)性很高,這可能表明在樣品制備或測(cè)序過(guò)程中存在潛在的PCR rtifacts。

這個(gè)現(xiàn)象在 FASTQC評(píng)估結(jié)果中也得到了驗(yàn)證: IP2 has highest Kmer content among the samples (fold enrichment of the most over-represented Kmer: 33.31 in IP2 vs 23.61 and 27.63 in IP1 and IP3)。

PCR artifacts 可能進(jìn)一步加劇了m6 A-seq實(shí)驗(yàn)reads覆蓋的異質(zhì)性。


image-20210125170918589.png
3.reads分布可視化

RNA m6A一般分布在起始密碼子和終止密碼子附近。這個(gè)結(jié)果展示了(5’UTR, CDS and 3’UTR)這三個(gè)區(qū)域的m6A分布。

image-20210125172710463.png
4.使用ESES評(píng)估免疫沉淀反應(yīng)效率

m6A-Seq數(shù)據(jù)的一個(gè)主要評(píng)價(jià)指標(biāo)就是免疫沉淀反應(yīng)效率,只要體現(xiàn)在免疫沉淀信號(hào)的富集程度。

為了評(píng)估IP樣本中的m6A信號(hào),trumpet包使用 ESEC:exome signal extraction scaling這個(gè)指標(biāo)。該指來(lái)源于評(píng)估ChIP-seq數(shù)據(jù)的信號(hào)SES方法,ESES不同于SES主要有兩點(diǎn):

  • 首先,將SES方法中ChIP-seq數(shù)據(jù)的基因組背景替換為標(biāo)準(zhǔn)化的MeRIP-seq數(shù)據(jù)的基因特異性外顯子背景,排除不攜帶有意義信號(hào)的區(qū)域(內(nèi)含子和非基因區(qū)域)的影響。

  • 其次,根據(jù)基因的表達(dá)水平對(duì)MeRIP-seq數(shù)據(jù)的read覆蓋進(jìn)行歸一化處理,以消除基因不同表達(dá)水平的影響。

image-20210125175224898.png

我們可以看到第二個(gè)IP樣本(IP2)與其他樣本有很大的不同,這與之前的結(jié)果是一致的。

image-20210125175340959.png
5.使用C-test評(píng)估m(xù)6A信號(hào)富集程度

此指標(biāo)也顯示IP2樣本異常,與之前的評(píng)估結(jié)果一致。

image-20210125175803640.png
6.對(duì)樣本進(jìn)行層次聚類和PCA分析

我感覺(jué)這個(gè)結(jié)果有點(diǎn)充數(shù)了。。。主要用于樣本的一致性和可重復(fù)性評(píng)估。

image-20210125180006565.png
7.特異基因的read覆蓋異質(zhì)性

在實(shí)際項(xiàng)目中,bam中比對(duì)的reads并不是均勻地分布在同一個(gè)基因上。IP 樣本中read覆蓋度的異質(zhì)性可能來(lái)源于m6A位點(diǎn)信號(hào)的富集,

坐標(biāo)軸分別表示:每個(gè)樣本中每一個(gè)gene的read count的均值和標(biāo)準(zhǔn)差。與IP樣本相比,input樣本的這個(gè)曲線相對(duì)更加平緩。

image-20210125180220455.png

實(shí)現(xiàn)代碼

github:https://github.com/skyhorsetomoon/Trumpet

使用特別簡(jiǎn)單,輸入樣本的bam文件和一個(gè)gtf文件就行了

## All gone with one touch
rm(list=ls())
options(stringsAsFactors = F)
?
## 安裝
#devtools::install_github("skyhorsetomoon/Trumpet")
library(Trumpet)
?
## 使用R包中的示例數(shù)據(jù)
f1 <- system.file("extdata", "IP1.bam", package="Trumpet")
f2 <- system.file("extdata", "IP2.bam", package="Trumpet")
f3 <- system.file("extdata", "IP3.bam", package="Trumpet")
f4 <- system.file("extdata", "IP4.bam", package="Trumpet")
f5 <- system.file("extdata", "Input1.bam", package="Trumpet")
f6 <- system.file("extdata", "Input2.bam", package="Trumpet")
f7 <- system.file("extdata", "Input3.bam", package="Trumpet")
f8 <- system.file("extdata", "treated_IP1.bam", package="Trumpet")
f9 <- system.file("extdata", "treated_Input1.bam", package="Trumpet")
?
ip_bam <- c(f1,f2,f3,f4)
input_bam <- c(f5,f6,f7)
?
contrast_ip_bam <- c(f8)
contrast_input_bam <- c(f9)
?
## gtf文件
gtf <- system.file("extdata", "hg19toy.gtf", package="Trumpet")
?
?
## 生成HTML報(bào)告
trumpet_report <- Trumpet_report(IP_BAM = ip_bam, 
 Input_BAM = input_bam, 
 contrast_IP_BAM = contrast_ip_bam, 
 contrast_Input_BAM = contrast_input_bam, 
 condition1 = "untreated", 
 condition2 = "treat", 
 GENE_ANNO_GTF = gtf)

分析走到這里,出現(xiàn)了一個(gè)報(bào)錯(cuò):

image-20210127112720399.png

上網(wǎng)查找原因,是因?yàn)檫@個(gè)trumpet包需要使用到Guitar包,額,然后我發(fā)現(xiàn)這個(gè)Guitar包也是他們課題組發(fā)的。這個(gè)包后來(lái)更新了,現(xiàn)在更新到了2.6.0,這個(gè)函數(shù)名字就變成了另外一個(gè)名字。這個(gè)問(wèn)題也有人在他們新開發(fā)的exomePeak2里面提到了,見(jiàn):https://github.com/ZW-xjtlu/exomePeak2/issues/1

然后我想,那我用老版本的吧,找到了1.7.0版本:https://mirror.nju.edu.cn/bioconductor/3.2/bioc/html/Guitar.html,然后本地安裝:

install.packages("Guitar_1.7.0.tar.gz", repos = NULL, type = "source")

發(fā)現(xiàn)還是不行,就聯(lián)系了作者,作者給我了一個(gè)1.5.0的版本的:https://github.com/lzcyzm/Guitar,重新安裝:

#devtools::install_github("lzcyzm/Guitar")
library(Guitar)
package.version("Guitar")
[1] "1.5.0"

然后順利跑上了前面的代碼,生成了質(zhì)控報(bào)告。可以說(shuō)非常曲折了。這個(gè)1.5.0版本的,如果不是作者給我鏈接,我感覺(jué)我還真找不到。這個(gè)包由于自發(fā)布之后,更新比較少,希望我們將這個(gè)包推薦給大家使用后,大家能多多給反饋,希望作者也能后續(xù)更新以便更多的人能使用上。

生成的網(wǎng)頁(yè)報(bào)告結(jié)果還是很不錯(cuò)的。

下面來(lái)看一眼生成的網(wǎng)頁(yè)版本的m6A-Seq質(zhì)控報(bào)告吧,默認(rèn)在輸出路徑下生成一個(gè)Trumpet_report.html。

報(bào)告上方有目錄鏈接,其實(shí)從這個(gè)地方,我們也可以學(xué)習(xí)作者的源代碼,看看怎么使用R語(yǔ)言生成html報(bào)告。

image-20210127113720767.png

有比對(duì)結(jié)果統(tǒng)計(jì):
這個(gè)地方直接用read數(shù)而不是M為單位的我感覺(jué)會(huì)更直觀好一點(diǎn)。

image-20210127113855434.png

read分布可視化:
m6A-Seq的peak一般在5'UTR和終止密碼子附近有富集【doi:10.1038/nature11112 ,doi:10.1016/j.cell.2012.05.003】。

image-20210127114043155.png

還有一些其他比較有意思的圖,大家可以自行去看看啦。

m6A分析流程后續(xù)會(huì)陸陸續(xù)續(xù)更新,請(qǐng)期待吧。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,622評(píng)論 6 544
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,716評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,746評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,991評(píng)論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,706評(píng)論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 56,036評(píng)論 1 329
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,029評(píng)論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,203評(píng)論 0 290
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,725評(píng)論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,451評(píng)論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,677評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,161評(píng)論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,857評(píng)論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,266評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,606評(píng)論 1 295
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,407評(píng)論 3 400
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,643評(píng)論 2 380

推薦閱讀更多精彩內(nèi)容