A survey of best practices for RNA-seq data analysis
RNA-seq數(shù)據(jù)分析指南
內(nèi)容
前言
各位同學(xué)/老師,大家好,現(xiàn)在由我給大家講講我的文獻(xiàn)閱讀報告!
A survey of best practices for RNA-seq data analysis ,我把它叫做RNA-seq數(shù)據(jù)分析指南。這篇文章是由佛羅里達(dá)大學(xué)等單位的研究人員在1月26日發(fā)表在Genome Biology上的,該期刊的影響因子有10.8分。這是這篇文章的通訊作者,應(yīng)該挺靠譜的。
新一代測序技術(shù)在爆炸式發(fā)展的同時,也衍生出許多其他技術(shù)創(chuàng)新。RNA-Seq就是其中之一,這項技術(shù)使我們對細(xì)胞發(fā)育及其調(diào)控機(jī)制的理解,達(dá)到了前所未有的深度和廣度。RNA-seq可以獲得相當(dāng)驚人的數(shù)據(jù)量,而這恰恰是一柄雙刃劍。豐富的數(shù)據(jù)量蘊(yùn)含著大量的寶貴信息,但這樣的數(shù)據(jù)需要復(fù)雜的生物信息學(xué)分析,才能從中提取到有意義的結(jié)果。
正因如此,數(shù)據(jù)分析可以說是RNA-seq的重中之重。RNA-seq有非常廣泛的應(yīng)用,但沒有哪個分析軟件是萬能的。科學(xué)家們一般會根據(jù)自己的研究對象和研究目標(biāo),采用不同的數(shù)據(jù)分析策略。現(xiàn)在人們已經(jīng)發(fā)表了大量的RNA-seq和數(shù)據(jù)分析方案,對于剛?cè)腴T的新手來說難免有些無所適從。這篇文章概述了RNA-seq生物信息學(xué)分析的現(xiàn)行標(biāo)準(zhǔn)和現(xiàn)有資源,為人們提供了一份RNA-seq數(shù)據(jù)分析指南,可以作為開展RNA-seq研究的寶貴參考資料。
這份指南覆蓋了RNA-seq數(shù)據(jù)分析的所有主要步驟,比如質(zhì)量控制、讀段比對、基因和轉(zhuǎn)錄本定量、差異性基因表達(dá)、功能分析、基因融合檢測、eQTL圖譜分析等等。研究人員繪制的RNA-seq分析通用路線圖(標(biāo)準(zhǔn)Illumina測序),將主要分析步驟分為前期分析、核心分析和高級分析三類。前期預(yù)處理包括實(shí)驗設(shè)計、測序設(shè)計和質(zhì)量控制。核心分析包括轉(zhuǎn)錄組圖譜分析、差異基因表達(dá)和功能分析。高級分析包括可視化、其他RNA-seq技術(shù)和數(shù)據(jù)整合。研究人員在文章中探討了每個步驟所面臨的挑戰(zhàn),也評估了一些數(shù)據(jù)處理方法的潛力和局限性。此外,他們還介紹了RNA-seq數(shù)據(jù)與其他數(shù)據(jù)類型的整合,將基因表達(dá)調(diào)控與分子生理學(xué)和功能基因組學(xué)關(guān)聯(lián)起來,這種研究方式如今越來越受到研究者的歡迎。這篇文章在結(jié)尾處介紹了一些為轉(zhuǎn)錄組領(lǐng)域帶來改變的新技術(shù),特別是單細(xì)胞RNA-seq和長讀段測序技術(shù)帶來的機(jī)遇和挑戰(zhàn)。
背景
高通量測序平臺
從這張圖,橫軸是年份,縱軸是測序儀的通量,圈里面的數(shù)字代表測序讀長。我們可以看到測序儀的通量和讀長都在增加了,其中Pacfic Biosciences 的三代測序儀讀長最長,可以達(dá)到14K,illumina的測序儀通量最大,HiSeq X Ten的通量可以達(dá)到1.8T。現(xiàn)在Illumina生產(chǎn)的測序儀占主要的市場份額,我們來單獨(dú)看看他的測序儀參數(shù)。
從左到右,測序儀的通量逐漸增大,它們適合不同的樣品和測序目的。Miseq通量比較低,適合宏基因組等微生物測序;Hiseq通量太高了,如果你送去公司測序,他們一般要20~30天才能返回數(shù)據(jù),是因為公司要累積很多樣品,加標(biāo)簽后一起測序。
高通量測序技術(shù)的應(yīng)用
這幅圖的橫軸是年份,縱軸是高通量技術(shù)應(yīng)用的代表性文章的引用量。不同的應(yīng)用技術(shù)用顏色進(jìn)行分類,數(shù)據(jù)點(diǎn)的大小跟發(fā)表率(引用率/月)成正比。可以看出RNA-Seq測序技術(shù)的應(yīng)用最為廣泛。
實(shí)驗設(shè)計
RNA-seq到底測的是什么?**
mRNA在生物個體內(nèi)RNA的組分中只占很小的一部分,rRNA占絕大多數(shù)。**一般我們說
RNA-seq指的都是mRNA-seq,后面的流程也都是主要針對mRNA-seq數(shù)據(jù)分析的。在科學(xué)家們的努力下,可以把那些非編碼RNA提取出來建庫,進(jìn)行測序。
一個成功的RNA-seq研究,起決定性因素的是一個好的實(shí)驗設(shè)計。還依賴于建庫的類型、測序深度和設(shè)置適于的生物重復(fù)。并且盡量減少測序本身以外帶來的數(shù)據(jù)誤差。
文庫構(gòu)建
1.一般生物體中的的RNA中,rRNA占絕大多數(shù),含量超過90%,而mRNA的含量在1-2%左右。對于真核生物,一般使用加poly(A)選擇性富集mRNA或者而原核生物則是通過去除rRNA;
2.是否建stand-preserving庫;
3.對于Illumina,測序插入片段一般小于500bp。確定合適長度的插入片段是后續(xù)測序和分析的關(guān)鍵;
4.單端還是雙端測序毫無疑問的是,單端測序更便宜一些,如果你研究的某個物種的基因表達(dá)水平,并且它的轉(zhuǎn)錄組已經(jīng)被注釋很好了,單端測序產(chǎn)生的數(shù)據(jù)量一般是足夠的了。
雙端測序呢,它的讀長更長,更適合于那些沒有被注釋的轉(zhuǎn)錄組物種的研究,便于其轉(zhuǎn)錄本的從頭拼接。
測序深度和重復(fù)數(shù)
這里的測序深度和重復(fù)數(shù)的設(shè)置呢。
- 測序深度和數(shù)據(jù)量不能一味加大。測序深度雖然可以提高基因定量和檢測的敏感性(低豐度的基因),但是同時也會增加一些噪音和一些無用的轉(zhuǎn)錄本。
2.重復(fù)數(shù),很重要。(舉例子:比較兩個班的語文成績,抽取一個人代表一個班來比較,顯然是不科學(xué)的。)增加重復(fù)數(shù)可以減少實(shí)驗誤差,對提高結(jié)果的可靠性,是非常有意義的。
誤差分為技術(shù)誤差和生物學(xué)差異。
技術(shù)誤差-可以通過選擇最優(yōu)化的實(shí)驗測序程序;生物誤差-三個生物學(xué)重復(fù)是最基本的啦。
然后呢,設(shè)定生物學(xué)重復(fù)對差異基因的檢出率(真陽性率 TPR)的提高具有明顯效果。上面說增加測序深度可以檢測到低豐度基因,但是對任何樣品來說的當(dāng)測序深度增加再增加,它就會到達(dá)平臺期。
由于科研經(jīng)費(fèi)有限,無法無限制地增加樣本數(shù)或數(shù)據(jù)量。
所以在生物學(xué)重復(fù)數(shù)和單個樣本測序量上必須找到平衡點(diǎn)。在總數(shù)據(jù)量不變的情況下,將總數(shù)據(jù)量分配到更多的生物學(xué)重復(fù)樣本中,差異分析結(jié)果的可靠性在不斷提升。
對于RNA-seq,生物學(xué)重復(fù)數(shù)的價值要大于單個樣本測序量。但增加生物學(xué)重復(fù)的樣本數(shù),意味著要增加建庫費(fèi)用。因此,即使總數(shù)據(jù)不變,設(shè)置過多的生物學(xué)重復(fù)也是不合理的。
我們最終確定設(shè)置多少生物學(xué)重復(fù)還是需要看樣本個體之間的差異大不大,這點(diǎn)我們一般都很清楚,在測序之前,如果你所研究的現(xiàn)象在兩個實(shí)驗樣本之間差異很穩(wěn)定的話,就可以少設(shè)置一些重復(fù),差異不穩(wěn)定的話有時候設(shè)置10個/20個都不夠。具體問題具體分析!!
3. 測序深度(Sequencing depth),也叫乘數(shù),指每個堿基被測序的平均次數(shù),是用來衡量測序量的首要參數(shù)。研究表明,增加測序深度,測序量從1.6M條reads增加到20M條reads,(75bp)但到10M條reads時就已經(jīng)達(dá)到平衡了,80%的雞轉(zhuǎn)錄本被檢測到。在此基礎(chǔ)上增加測序量,它們會比對到已經(jīng)存在的轉(zhuǎn)錄本上。
因此即使提高測序深度,低表達(dá)水平的基因的檢測是比較困難的。并且提高測序深度確實(shí)能夠增加基因差異表達(dá)的敏感度,但是并不能保證檢測到的差異具有生物學(xué)意義。
這篇2012年BMC Genomics的方法學(xué)文章,影響因子3.98至今被引用次數(shù) 87次。
直觀一些說,如果某個基因在RNA-seq結(jié)果顯示差異表達(dá),但QPCR結(jié)果表明這個基因表達(dá)差異不顯著,
可以認(rèn)為這個基因RNA-seq結(jié)果為假陽性;反之,這個結(jié)果就是真陽性。
生物學(xué)重復(fù)對差異表達(dá)分析的影響
如圖所示,在單樣本測序量保持不變的情況下,隨著生物學(xué)重復(fù)(n)的提高,差異分析的假陽性率(FPR)基本穩(wěn)定,但真陽性率(TPR)在不斷提高。也就是說提高生物學(xué)重復(fù)數(shù),實(shí)驗對差異基因的檢測更加敏感,那些差異倍數(shù)較小或差異量較低的差異表達(dá)基因(此類基因的差異檢測難度較大)能夠更加容易被檢測到。
如表2、3所示,在一定的生物學(xué)重復(fù)數(shù)( n)的情況下,隨著單樣本測序量(Depth)的提高(25% → 100%),真陽性率(TPR)都只有有限的提高。例如在n=3的情況下,單個樣本的測序量從25%提高到100%,TPR僅僅從6.24%提高到8.95%。在表3中,如果Depth等于25%不變,當(dāng)n從2提高到12,TPR的提高則是非常明顯的。因此測序深度對結(jié)果改善效果不如增加生物學(xué)重復(fù)。
總數(shù)據(jù)量不變,生物學(xué)重復(fù)數(shù)與單樣品測序量最佳組合
如果保持總測序量不變(即如果生物量重復(fù)數(shù)為n,則單個樣品的測序量降低為1/n,總數(shù)據(jù)量為n*1/n=1,保持不變)。如圖A,灰色實(shí)線代表不同的生物學(xué)重復(fù)數(shù)(n)和單樣本數(shù)據(jù)量(1/n)組合的情況下,真陽性率(TPR)的變化。結(jié)果表明,隨著n的提高,TPR率不斷提高。例如n=2,TPR約為3%,如果n=6,TPR則提高到22%。
同時我們也可以對“單樣本測序量對差異表達(dá)分析的影響”再進(jìn)行深入觀察。
如果n保持不變,但單個樣本的數(shù)據(jù)量不斷降低,TPR的降低十分緩慢。例如,n=3,單個樣本的數(shù)據(jù)量從100%降低到15%,TPR的值一直處于平臺期,僅僅從9%降低到5%。 但是不同的生物學(xué)重復(fù)數(shù)和單樣本測序量的組合,對假陽性率( FPR)的影響卻較小。如圖 B,灰色實(shí)線代表不同生物學(xué)重復(fù)數(shù)(n)和單樣本數(shù)據(jù)量(1/n)組合的情況下,真陽性率(FPR)的變化。雖然 n 從2 變化到 96,F(xiàn)PR 基本沒有太大變化。
從圖中我們很容易發(fā)現(xiàn),基于負(fù)二項分布的差異分析檢驗(P value),F(xiàn)PR 對生物學(xué)重復(fù)數(shù)和單個樣本數(shù)據(jù)量均不敏感,始終保持低于 0.1%水平。或者說,這個算法對 FPR 的控制還是非常理想的。
討論
隨著測序單價的下降,目前市場上 RNA-seq 類項目的單樣本測序量正在不斷提高。以 2G,PE100 測序的表達(dá)譜項目為例,其對應(yīng)的測序量為 20M 條 reads。如果一條長度為 1kbp 的低表達(dá)基因的表達(dá)量為 RPKM=0.5,其理論上可以檢測到的 reads 數(shù)為 20×0.5=10。所以低豐度基因的檢測,對 RNA-seq 這個技術(shù)來說并非最大問題。
第二個問題“轉(zhuǎn)錄本表達(dá)量的高低變化”比“轉(zhuǎn)錄本的有無”更具有普遍的生物學(xué)意義。雖然個別基因的表達(dá)量變化程度,可以使用 Qpcr 來驗證。但我們往往也使用所有差異基因來統(tǒng)計某些規(guī)律。例如使用差異基因的 pathway 富集分析來尋找與性狀相關(guān)的 pathway。如果在全局水平的差異基因集并不可靠,那么 pathway富集分析得出的結(jié)論的可靠性自然也受到影響。而全局水平的差異基因數(shù)量巨大,是難以使用 Qpcr 驗證的。因此,定量以及差異分析的準(zhǔn)確性是在 RNA-seq 中更值得關(guān)心的問題。
測序設(shè)計
RNA-seq文庫的制備和測序過程:RNA碎裂,cDNA合成,接頭連接,PCR擴(kuò)增,加標(biāo)簽(多樣品混合測序),上泳池測序;
如何減少誤差:
1. 使用末端帶隨機(jī)核酸的接頭或者使用化學(xué)碎裂法代替RNAse III碎裂法;
2. 不同批次實(shí)驗或者不同runs。
a. 如果樣品太多在一個批次或者一個run跑不完,為了避免技術(shù)誤差造成太大的實(shí)驗誤差,要把樣品隨機(jī)分配到每個批次或runs中;(到底怎么設(shè)計,我們要討論一下!!)
b. 如果你的樣品是多樣品混合測序,每個樣品要單獨(dú)加上標(biāo)簽,每個lanes要保證足夠的測序深度,為了保證所有的樣品在每個lane中都有。如果送給公司去做的話,我們要選擇建庫水平好些的,并且要求他們這么去做,應(yīng)該會更好。
質(zhì)量控制
重復(fù)數(shù):
技術(shù)重復(fù)(spearman秩相關(guān)系數(shù)R2>0.9);生物重復(fù)(主成分分析PCA)
原始數(shù)據(jù)的質(zhì)量控制:
原始數(shù)據(jù)回來后,你做完備份以后,做的第一件事情就是看看數(shù)據(jù)質(zhì)量如何,一般來自llumina測序平臺用軟件FastQC看;其他平臺的數(shù)據(jù)用軟件NGSQC。一般會有原始數(shù)據(jù)的序列質(zhì)量,GC含量,存在的接頭以及K-mers子串圖并且重復(fù)序列太多的reads。
并且reads 3‘末端的質(zhì)量低于前段,原因是隨著測序讀長的增加,酶活性下降,熒光強(qiáng)度也在下降,因此測序數(shù)據(jù)質(zhì)量逐漸降低乃是自然趨勢。常用的數(shù)據(jù)過濾的軟件有FASTX-Toolkit and Trimmomatic,其他還有許多,你也可以自己寫代碼處理數(shù)據(jù)。
Reads比對后的質(zhì)量控制(評估比對質(zhì)量的指標(biāo)):**比對上的reads占總reads的百分比; Reads比對到外顯子和參考鏈上的覆蓋度是否一致;比對到基因組序列:多重比對reads?比對到轉(zhuǎn)錄組序列:來自未被注釋的轉(zhuǎn)錄本的reads會丟失; 產(chǎn)生更多的多重比對reads; 轉(zhuǎn)錄本被定量以后,應(yīng)該看一下GC含量和基因長度偏差,確定定量的方法是否適用。
轉(zhuǎn)錄本分析
把所有樣本的reads混合用于轉(zhuǎn)錄本的拼接。二代測序的轉(zhuǎn)錄組reads用于拼接還是存在一些問題的,最終拼接結(jié)果不太理想。一個轉(zhuǎn)錄本的拼接結(jié)果會是10~100contigs。三代測序的讀長直接可以把一個轉(zhuǎn)錄本讀完了,完全不需要拼接。
RPKM/FPKM/TPM用來表示RNA-seq基因表達(dá)水平的值;對于單端測序RPKM和FPKM值是一樣的,F(xiàn)PKM可以轉(zhuǎn)換成TPM。Cufflinks(支持雙端測序數(shù)據(jù),并且需要GTF格式的注釋文件)定量算法有……
提一個問題,有那么多軟件到底怎樣才是好的,選哪個軟件好呢?
功能分析
功能分析是標(biāo)準(zhǔn)轉(zhuǎn)錄組分析流程的最后一步,分析差異表達(dá)基因的分子功能和代謝通路。
其他RNA-seq應(yīng)用
小RNA:
1.小RNA的長度通常在18~34個堿基,包含了miRNAs, short-interfering RNAs (siRNAs),PIWI-interactingRNAs (piRNAs)以及其他種類的**。
- sRNA-seq libraries are rarely sequenced as deeply as regular RNA-seq libraries because of a lack of complexity, with a typical range of 2–10 million reads.
3. 小RNA的數(shù)據(jù)分析流程跟常規(guī)RNA的分析流程不同。
- miRTools 2.0 ,
a tool for prediction and profiling of sRNA species, uses by default reads that are 18–30 bases long
5. 比對到參考基因組上,比對軟件有:
Bowtie2 ,STAR , or Burrows-Wheeler Aligner (BWA) PatMaN and MicroRazerS map short sequences
多種數(shù)據(jù)整合分析
1. Moreover, the combination of RNA-seq and re-sequencing can be used both to remove false positives when inferring fusion genes and to analyze copy number alterations.
2. The statistically significant correlations that were observed, however, accounted for relatively small effects. (DNA methylation)
3. ….
4. 一些分析軟件:CORNA, MMIA,, MAGIA, and SePIA;
5.代謝組和轉(zhuǎn)錄組數(shù)據(jù)結(jié)合進(jìn)行通路分析,有一些軟件:MassTRIX, Paintomics, VANTED v2, and SteinerNet
整合多種組學(xué)數(shù)據(jù)分析還不是很成熟,但是仍有一些軟件可以用。
展望
RNA-seq技術(shù)已經(jīng)成為轉(zhuǎn)錄組分析的標(biāo)準(zhǔn)方法。其相對應(yīng)的技術(shù)和數(shù)據(jù)分析工具還在不斷地發(fā)展。
對低表達(dá)的基因的定量仍是一個等待解決的問題; 三代測序技術(shù),Smart-seq和Smart-seq2應(yīng)用于轉(zhuǎn)錄組測序,所需要的樣品量少,并且可以測定單細(xì)胞內(nèi)的RNA表達(dá)水平; Pacbio 技術(shù)可以直接測得接近全長的轉(zhuǎn)錄本,可以有效解決二代測序技術(shù)拼接較為零碎以及潛在嵌合拼接的問題;
目前的瓶頸:價格高(建庫價格和測序價格);
(1)需要多種長度的文庫;
(2)測序通量有限;Pacbio新推出的sequel測序儀,比舊版本測序儀,通量提高了7倍(測序芯片的波導(dǎo)空數(shù)量從15萬,提升到100萬。所以,有望進(jìn)一步提高Pacbio在轉(zhuǎn)錄組De Novo中的應(yīng)用面。
PS: 綜述類的文章主要是講解原理和優(yōu)缺點(diǎn),以及當(dāng)前趨勢和建議,不可能說看個綜述就學(xué)會了RNA-seq的全套分析,但是不看綜述,不了解原理,所有的分析卻都是無源之水無本之木。
還有,綜述給的建議,包括樣本數(shù),數(shù)據(jù)量這些東西都是實(shí)驗設(shè)計之初就得考慮的,但是大多數(shù)生信工程師拿到數(shù)據(jù)很多東西就沒得改變了,所以總是有人問如果沒有重復(fù)的轉(zhuǎn)錄組數(shù)據(jù)用什么R包來找差異這樣的問題。請大家分清楚理想和現(xiàn)實(shí)的差別。
摘要:
佛羅里達(dá)大學(xué)、加州大學(xué)Irvine分校等單位的研究人員在一月二十六日的Genome Biology雜志上發(fā)表文章,概述了RNA-seq生物信息學(xué)分析的現(xiàn)行標(biāo)準(zhǔn)和現(xiàn)有資源,為人們提供了一份帶有注釋的RNA-seq數(shù)據(jù)分析指南。這將成為開展RNA-seq研究的寶貴參考資料。
生物通報道:新一代測序技術(shù)在爆炸式發(fā)展的同時,也衍生出許多其他技術(shù)創(chuàng)新。RNA深度測序(RNA-Seq)就是其中之一,這項技術(shù)使我們對細(xì)胞發(fā)育及其調(diào)控機(jī)制的理解,達(dá)到了前所未有的深度和廣度。盡管研究細(xì)胞RNA并不是什么新鮮事,但RNA-Seq的出現(xiàn)大大拓展了轉(zhuǎn)錄組研究的規(guī)模,取得了累累碩果,這些是傳統(tǒng)技術(shù)難以企及的。
RNA-seq可以獲得相當(dāng)驚人的數(shù)據(jù)量,而這恰恰是一柄雙刃劍。豐富的數(shù)據(jù)量蘊(yùn)含著大量的寶貴信息,但這樣的數(shù)據(jù)需要復(fù)雜的生物信息學(xué)分析,才能從中提取到有意義的結(jié)果。正因如此,數(shù)據(jù)分析可以說是RNA-seq的重中之重。
RNA-seq有非常廣泛的應(yīng)用,但沒有哪個分析軟件是萬能的。科學(xué)家們一般會根據(jù)自己的研究對象和研究目標(biāo),采用不同的數(shù)據(jù)分析策略。現(xiàn)在人們已經(jīng)發(fā)表了大量的RNA-seq和數(shù)據(jù)分析方案,對于剛?cè)腴T的新手來說難免有些無所適從。
佛羅里達(dá)大學(xué)、加州大學(xué)Irvine(****爾灣)分校等單位的研究人員在一月二十六日的Genome Biology雜志上發(fā)表文章,概述了RNA-seq生物信息學(xué)分析的現(xiàn)行標(biāo)準(zhǔn)和現(xiàn)有資源,為人們提供了一份帶有注釋的RNA-seq數(shù)據(jù)分析指南。這將成為開展RNA-seq研究的寶貴參考資料。
這份指南覆蓋了RNA-seq數(shù)據(jù)分析的所有主要步驟,比如質(zhì)量控制、讀段比對、基因和轉(zhuǎn)錄本定量、差異性基因表達(dá)、功能分析、基因融合檢測、eQTL圖譜分析等等。研究人員繪制的RNA-seq分析通用路線圖(標(biāo)準(zhǔn)Illumina測序),將主要分析步驟分為前期分析、核心分析和高級分析三類。前期預(yù)處理包括實(shí)驗設(shè)計、測序設(shè)計和質(zhì)量控制。核心分析包括轉(zhuǎn)錄組圖譜分析、差異基因表達(dá)和功能分析。高級分析包括可視化、其他RNA-seq技術(shù)和數(shù)據(jù)整合。
研究人員在文章中探討了每個步驟所面臨的挑戰(zhàn),也評估了一些數(shù)據(jù)處理方法的潛力和局限。此外,他們還介紹了RNA-seq數(shù)據(jù)與其他數(shù)據(jù)類型的整合。這種數(shù)據(jù)整合可以將基因表達(dá)調(diào)控與分子生理學(xué)和功能基因組學(xué)關(guān)聯(lián)起來,如今越來越受到研究者的歡迎。
這篇文章在結(jié)尾處介紹了一些為轉(zhuǎn)錄組領(lǐng)域帶來改變的新技術(shù),特別是單細(xì)胞RNA-seq和長讀取測序技術(shù)帶來的機(jī)遇和挑戰(zhàn)。
2015年年初,RNA-Seq的數(shù)據(jù)分析方法如雨后春筍般涌現(xiàn)。三月份,Nature集團(tuán)旗下刊物發(fā)表了三篇介紹RNA-Seq數(shù)據(jù)分析新方法的文章,一篇發(fā)表在《Nature Methods》上,另外兩篇發(fā)表在《Nature Biotechnology》上。這三篇文章有一位共同的作者,那就是約翰霍普金斯大學(xué)計算生物學(xué)中心的Steven Salzberg,生物信息學(xué)和計算生物學(xué)領(lǐng)域的杰出科學(xué)家。Salzberg通過這些文章中分別介紹了三種新工具:HISAT、StringTie和Ballgown。這些工具可以取代之前開發(fā)的早期工具,為RNA-Seq提供了全新的數(shù)據(jù)分析方法,從原始數(shù)據(jù)讀取到差異表達(dá)分析。(更多詳細(xì)信息參見:三篇文章介紹RNA-Seq數(shù)據(jù)分析的新工具)
RNA測序究竟有多可靠呢?由美國FDA牽頭的測序質(zhì)量控制(SEQC)項目對RNA測序的準(zhǔn)確性、可重現(xiàn)性和信息含量進(jìn)行了綜合性評估。其初步調(diào)查結(jié)果發(fā)表在2014年09月的Nature Biotechnology雜志上,石樂明教授是這篇文章的通訊作者之一。研究人員用RNA參照樣本在全球多個實(shí)驗室的Illumina HiSeq、Life Technologies SOLiD、Roche 454平臺上進(jìn)行檢測,主要評估RNA測序在接頭區(qū)域和差異性表達(dá)譜中的表現(xiàn),并將其與芯片和定量PCR(qPCR)進(jìn)行比較。研究表明,數(shù)據(jù)分析的算法會對RNA測序產(chǎn)生很大影響,不同算法生成的轉(zhuǎn)錄本數(shù)據(jù)存在很大差異。(更多詳細(xì)信息參見:石樂明教授Nature子刊:RNA測序到底可不可靠)
前幾天,浙江大學(xué)和哈佛大學(xué)的研究人員在Cell Reports雜志上發(fā)表了一項單細(xì)胞mRNA-seq研究。基因表達(dá)變異是小鼠胚胎干細(xì)胞(ESC)的一個重要特征,但人們一直不清楚這背后的具體原因。研究人員通過分析小鼠胚胎干細(xì)胞發(fā)現(xiàn),這些細(xì)胞表現(xiàn)出的異質(zhì)性是血清培養(yǎng)造成的。他們在其中鑒定了高度變異的基因簇,以及獨(dú)特的染色質(zhì)狀態(tài)。研究顯示,雙價基因(bivalent gene)更容易出現(xiàn)表達(dá)變異。進(jìn)一步研究表明,無血清培養(yǎng)可以減少小鼠ESC的異質(zhì)性和轉(zhuǎn)錄組變異。這意味著,細(xì)胞內(nèi)的網(wǎng)絡(luò)變異大多是細(xì)胞外的培養(yǎng)環(huán)境造成的。(更多詳細(xì)信息參見:浙大80后教授發(fā)表單細(xì)胞RNA測序研究)