學習生信技能樹的RNA-seq這十年(3萬字長文綜述)
首先是目前10年來測序技術的的發展平臺的更迭變化
我摘抄了重點的內容關于不同讀長方式測序結果的優缺點比較如下
短讀長、長讀長
cDNA
與直接RNA-seq
分析的比較。超過90%的人類基因(gene)存在可變剪接,它們會形成兩個或更多的可表達異構體(轉錄本x與y)。
短讀長cDNA測序中就增加了捕獲信息的復雜性,短讀長對異構體的檢測會受到其讀長的限制,在這種技術里,短讀長無法精確地map
到轉錄組上,而長讀長測序方法則能直接鑒定異構體。
在短讀長cDNA測序中,有很大比例的讀長會不明確地map
到不同異構相同的外顯子上;而那些跨越了外顯子-外顯子連接處的讀長可以提高對異構體的分析效果,但是當不同的異構體都含有這個連接處時,這種操作意義不大。
這些問題都加劇了數據分析的復雜性,以及無法對結果進行明確地解釋。
長讀長cDNA方法能夠產生全長的異構體讀長,從而去除或大幅度降低這些不精確的結果,并改進差異異構表達的分析結果。
然而這些方法依賴于cDNA的轉換,它去除了RNA堿基的修飾信息,并且只能粗略地估計多聚腺苷酸(poly(A))尾巴長度。
dRNA-seq
可以進行全長導構體分析,堿基修飾檢測(例如N6-甲基腺苷(M6A))和poly(A)尾巴長度估計。
然后從這個比較中就明白了如果想要的結果是做RNA修飾的那么首選直接RNA測序也就是選擇ONT平臺,但是他的缺點是低通量,樣本制備與測序偏移不明,無法對降解的RNA進行分析。
如果是想要的結果只是RNA表達的上下調而且強調研究新異構體或者著力于新轉錄本的發現,那么就選擇長讀長cDNA,也就是PacBio或ONT平臺的測序方法,缺點同樣是通量低,但針對降解的RNA比直接測序要好一點。
但是目前市面上最常用的還是Illumina平臺的短讀長cDNA,這個的缺點就是前面兩個的優點,而優點就是通量高,能對小RNA有更好的分析,最大的優點就是目前的RNA-seq方法基本上都是針對這個測序方法開發的。
長讀長RNA-seq分析正被研究者們迅速采用,并與深度短讀長RNA-seq數據結合起來,用于更全面的分析,這非常類似于基因組組裝所采取的混合方法。隨著時間的推移,長讀長和dRNA-seq方法可能會用于證明已經鑒定的基因和轉錄本的列表,即使在研究很透的生物中,對于基因和轉錄本的研究也還遠遠不夠。隨著方法的成熟,以及測序通量的增加,差異轉錄本分析將會成為常規方法。合成長讀長RNA-seq或其它技術的發展將對這個領域產生什么樣的影響,還有待觀察。
然而從目前來看,Illumina短讀長RNA-seq依然占據了主導地位,這篇綜述集中討論短讀長測序。
RNA-seq最初用于分析多聚腺苷酸化的轉錄本,使用的方法源于早期的表達序列標簽(expressed-sequence tag)和芯片研究。這種方法存在局限性,隨后進行了改良:在選擇RNA進行測序時,取代dligo-dT富集的替代方法,或者是那些專門選擇轉錄本的3?或5?末端的方法,或者是使用UMIs進行區分技術重復和生物重復的方法,以及針對RNA易降解特性改良的文庫制備方法。并將這些方法的組合使研究者們闡明由可變poly(A)(alternative poly(A),APA),或替代啟動子(alternative promoter)使用和可變剪接(alternative splicing)生成的復雜轉錄本。
改良RNA-seq建庫方法
1.Poly(A)富集的替代方法
2.富集的RNA 3?末端用于Tag RNA-seq以及可變多聚腺苷酸分析(Enriching RNA 3?ends for Tag RNA- seq and alternative polyadenylation analysis.)
3.富集的RNA 5?末端用于起始位點map(Enriching RNA 5?ends for transcription start- site mapping)
4.使用唯一分子標識符來檢測PCR重復
5.提高降解RNA的分析
設計更好的RNA-seq實驗
1.重復與實驗功效(replication and experimental power):研究表明,至少應該使用6個生物學重復,這個數量要超過文獻中常用的3到4個生物重復的數量。
2.確定合適的讀取深度(Determining the optimal read depth)
3.選擇參數:測序長度,單端測序或雙端測序:目前普遍選擇雙端PE
下面就是重頭戲
RNA-seq數據分析
首先是分析流程
其次是RNA-seq數據分析工具
第1階段-測序讀長的比對(alignment)與組裝(assembly)
幾點需要注意
1.處理下機后的FASTQ文件最常見的第一步操作就是將測序讀長map到已知的轉錄組上(或已經注釋的基因組上),將每個測序讀長轉換為一個或多個基因組坐標。這一過程可以使用多個不同的比對工具,例如TopHat,STAR
或HISAT
,它們都依賴于一個參考基因組。
2.一些組裝工具,例如StringTie,SOAPdenovo-Trans
使用利用那些已經比對好的結果中的空隙來推測其外顯子邊界,以及可能的剪接位點。當參考基因組注釋沒有或者是不完整時,或者是你感興趣的組織(例如在腫瘤組織)中轉錄本異常的情況下,這些從頭組裝轉錄本的工具尤其好用。
3.最近,已經開發出了計算高效的“免比對”(alignment-free)工具,例如Sailfish,Kallisto
與Salmon
,這些工具可以直接將測序讀長與轉錄本進行關聯,從而無需單獨的定量步驟(參考后面的第2階段部分)。這些工具在那些表征更高豐度(以及更長的)轉錄本方面表現得非常良好;然后它們在那些定量低豐度或短轉錄本方面表現不佳。
第2階段-轉錄本豐度的量化
1.不同的比較研究表明,在量化步驟中采用的不同的方法對最終的結果影響最大,這種影響甚至超過了第1步中比對工具的選擇。
2.常用的量化工具包括RSEM,CuffLinks,MMSeq
與HTSeq
以及前面提到的那些免比對工具。
- 一些基于讀長計算的工具,例如
HTSeq
(或者是R equivalent,featureCounts
)通常會丟棄許多比對好的讀長,包括那些回貼到多個位置的讀長,或者是重疊多個表達特征的讀長。 -
RSEM
會使用期望最大化的方法來分配那些比對不明的讀長, -
Kallisto
這個無參比對工具會將比對不明的讀長包括在它們相應的轉錄本計數中,從而導致結果偏倚。 - 使用
tximport
包可以將轉錄本豐度估計轉化為讀長計數值(read count equivalents
)。 - 量化步驟中產生的結果通常會合并為一個表達矩陣,在這個矩陣中,每一行是表達特征(基因或轉錄本),每一列是樣本名,表達矩陣中的值要和是實際的讀長值,要么是一種估計豐度。
第3階段-過濾和歸一化
- 通常來說,定量后的基因或轉錄本計數結果還需要過濾和歸一化,從而用于解釋讀長深度,表達模式以及技術偏倚。過濾用于去除那些不均一的低讀長豐度特征的值,從而提高對那些真正差異表達值的檢測能力。而對表達矩陣進行歸一化則更加復雜。直接轉換可以調整豐度值,以便能更加說明GC含量的差異以及讀長深度。
- 早期用于歸一化的方法就是RPKM,但這種方法現在已經淘汰,它已經被那些能夠校正樣本之間更細微差異的方法所取代,例如四分位數法或中位數歸一法。
廣泛的研究表明,歸一化方法的選擇會對最終的結果以及生物學結論產生重要的影響。
- 大多數進行歸一化的算法依賴于兩個重要的假設:第一,大多數基因的表達水平在重復的樣本組之間保持不變;第二,不同的樣本組在總體的mRNA水平上不表現出顯著差異。
- 當這些基礎假設不成立時,那么就需要慎重考慮是否進行歸一化,以及如何進行歸一化。
例如,如果一些基因在一個樣本中高表達,同時相同的基因,以及另外的一些基因在同一組中的另外一個樣本里正常表達,如果對讀長深度進行簡單的歸一化則明顯不夠,因為相同數目的測序讀長會分配到第二個樣本里更多的基因上面。歸一化過程,例如截斷均值化M值(
The Trimmed Mean of M-values,TMM
)方法(它已經整合到的edgeR
包中)就能解決這個問題。
- 選擇一個合適的歸一化方法或許很困難;一種做法就是深度使用多種方法進行分析,然后比較它們結果的一致性。如果結果對于歸一化方法高度敏度,則應該對數據進行進一步的探索,以確定差異來源。但是,比較不同的歸一化方法時,要謹慎確保這種歸一化方法的比較不是為了選擇與原始假設最兼容的歸一化方法。
處理這些問題的一種方法的spike-in control RNAs,這種方法會引入一些外源已知的RNA序列,這些外源已知的RNA序列已知,濃度已知,在建庫的過程中,將它們添加到樣本中。RNA-seq中的Spike-ins方法包括外部RNA控制協會混合物(External RNA Controls Consortium mix, ERCCs),spike-in RNA突變物(spike-in RNA variants, SIRVs)與測序spike-ins(sequencing spike-ins, Sequins)。
- 目前,spike-in控制法并沒有在發表RNA-seq DGE實驗中得到廣泛使用,如果這種方法被進一步改進,提高其一致性的話,則這種方法會得到廣泛使用,但現在很多研究者們在他們的單細胞實驗(這種實驗里會更加廣泛地使用spike-in)使用了這種方法。
第4階段-差異表達的統計建模
- 一旦測序讀長被處理為表達矩陣,那么就可以對實驗進行統計建模,從而確定哪些轉錄本發生了改變。一些工具可以達到這些目的;其中一些工具會對基因水平的讀長數目進行統計建模,而一些則依賴于轉錄本水平的估計。
- 基因水平的工具通常依賴于比對好的讀長數目,使用廣義線性模型(
Generalized Linear Models
)處理這些數據,從而能夠評估復雜的實驗設計。 - 這些工具包括
edgeR,DESeq2
以及limma+voom
,這些工具能夠進行有效地計算,并提供比較結果。 - 對差異異構體表達進行統計建模的工具包括
CuffDiff,MMSEQ
與Ballgown
,這些工具通常需要更多的算力(computational power
),并且不同工具的結果中的信息量更大。 -
但是,在進行選擇差異表達工具之前做的那些工作,例如比對,定量或過濾以及歸一化這些操作對最終結果的總體方差會產生更大的影響。
常規的RNA-seq分析流程需要掌握三個知識點
來自B站
常規RNA-seq進階
- 常規的RNA-seq無法輕易地分辨出特定的細胞類型,也無法保存空間信息,而這兩個信息都是理解生物系統復雜性的關鍵因素。
- 單細胞測序讓人們發現了,即使在被認為研究透徹的疾病背后,還存在著一些未知細胞類型,例如發現了離子細胞(ionocyte cell),這類細胞可能與囊性纖維化疾病有關。
- 空間分辨RNA-seq則提示了在實體組織中細胞與細胞之間的相互作用,例如發現了成年心臟組織中一小群胎兒標記基因表達的細胞。雖然在可預見的未來,常規RNA-seq仍然是一個占據主導地位的工具。但是,單細胞測序與分析方法正在快速地被研究者利用,并且隨著空間RNA-seq方法的成熟,它們有可能成為常規RNA-seq分析中的一部分。
單細胞分析
- scRNA-seq于2009年首次報道,當時的研究者在含有裂解緩沖液的EP管中分離了單個卵母細胞。
- 機械裂解和膠原酶加DNAase的酶解會生成單細胞懸液,從而產生大量可用的細胞,但是這種產生是高度組織特異性的,比較依賴于經驗,其過程也需要非常小心。
- 一旦制備好了單細胞懸液,就可以通過各種方法分離單細胞(FIG 3a);大多數的實驗都是使用流式細胞儀來進行單細胞分選,這種方法是最容易,它可以將單個細胞直接分選到含有裂解液的微孔板中。
- 對于更高通量的實驗,現存有大量分離單細胞的專門儀器,這些儀器需要自己構建或購買。
- 單細胞分離后,它們就被裂解,將RNA釋放到溶解中用于cDNA合成,并將cDNA用于RNA-seq文庫制備。
- 在文庫制備過程中,來源于每個細胞的RNA會通過PCR進行擴增。這種擴增就引入了PCR偏倚,但是UMIs可以用于校正這種偏倚。
- 由于Poisson采樣,一個細胞中只有10-20%的轉錄本會被逆轉錄,這就限制了轉錄本檢測的靈敏度,以及各種方法產生的可用數據。
最近已經出現了關于scRNA-seq的實驗設計指南。方法學的快速發展意味著scRNA-seq方法的技術已經快速過時了。然而Ziegenhain等人提供了scRNA-seq方法的詳細概述,他著重強調了UMIs的在數據分析方面的重要性,并報道了提到了的6種方法中哪一種最為靈敏。然而他們的研究范圍并不包括現在被廣泛使用的10X Geneomics方法。
Figure3-單細胞RNA-seq與空間RNA-seq的概念
當研究者們在選擇scRNA-seq方法,需要考慮的主要因素包括:他們是否需要全長轉錄本的讀長,在分析更多細胞表達譜(寬度, breadth)或每個細胞更多轉錄本(深度,depth)之間進行權衡,以及總體實驗成本。
- 全長scRNA-seq系統的通量比較低,因此每個細胞需要單獨地處理,直到最終生成scRNA-seq文庫。
- 雖然實驗中測序的細胞數量是由選擇的方法決定的,但是這也允許一些靈活性,不過隨著分析的細胞數目的增多,測序成本的增加,往往限制了轉錄組分析的深度。因此,可以使用寬度和深度兩個維度來評估不同的scRNA-seq系統。
最近,對A. thaliana根細胞原生質的分析表明,即使是植物的堅韌細胞壁這種障礙也能被解決,能產生用于測序的單細胞。scRNA-seq正在迅速成為生物學家們工具包的標準配置,并有可能在10年后被廣泛使用,就像今天的常規RNA-seq一樣。
- 當前的常規RNA-seq和scRNA-seq方法為研究者們提供了關于組織或細胞群體的高度詳細的數據,但是沒有捕獲空間信息,就是會降低細胞環境與基因表達之間關系的分析能力。
- 空間轉錄組學(spatialomics)的兩種方法是空間編碼(spatial encoding)與原位轉錄組學(in situ transcriptomics)。
在RNA-seq文庫制備過重中,空間編碼方法能夠記錄其空間信息,或者是通過分離空間受限的細胞(例如,通過激光捕獲顯微解剖, laser-capture micro-dissection, LCM), 或者是通過分離前的位置對RNA加上條形碼(通過從組織切片中直接捕獲mRNA)(FIG. 3b)。原位轉錄組學能夠在組織切片中,通過對細胞中的RNA進行測序或成像來生成數據。技能樹小編建議感興趣的讀者是閱讀最近的深度評論,從而對這一領域進行更全面的理解。
- LCM已經成功地用于從組織切片中的特定區域分離和分析單個細胞用于RNA-seq。雖然LCM需要專門的設備,但是許多機構已經廣泛使用了這種技術。但是,雖然這種技術可能實現高度空間分辨率,但是它消耗人力,并且難以批量使用。
- 使用空間轉錄學 (Spatial Transcriptomics,10X Genomics)與Slide-seq方法可以直接從冰凍組織切片中直接捕獲mRNAs,然后將這些mRNAs直接加載到寡核苷酸微陣列玻片(oligo- arrayed microarray slides)或嚴密包裝寡核苷酸的pucks上。寡核苷酸包括空間條形碼、UMI和oligo-dT引物,它們能唯一地識別每個轉錄本及其位置。
- 空間轉錄學方法已經被證明能夠在一系列物種的組織中能發揮作用,其中就包括小鼠大腦和人類乳腺癌組織,人類心臟組織和擬南芥(A. thaliana)花序組織。Slide-seq是最近開發的一種技術,它已經被證明能夠對小鼠大腦的冰凍切片進行測序。這些直接 mRNA捕獲方法并不需要特殊的設備,且有相對簡單的分析方法,并有可能大規模地應用于許多組織。
然而,還有兩個局限需要解決。首先,該技術只能應用于新鮮的冷凍組織。其次,分辨率受到到陣列大小和捕獲寡核苷酸點和珠子的間距的限制;目前的分析只能使用6.5x7 mm和3x3mm這兩種規格,這就限制了組織切片的尺寸。空間轉錄組學斑點的直徑為100μm,間距為100μm,這意味著它們不夠小或不夠密集,無法實現單細胞級分辨率。Slide- seq珠子則要小的多,直徑只有10μm,而且非常密集,比相對前者具有十倍的空間分辨率,并且測序中的大約一半的珠子似乎是從單個細胞層面產生的數據。從分解的組織和空間編碼的數據與scRNA-seq混合起來的計算方法可以改善分辨率,但是需要基礎技術的進一步發展,以使其成為更常規的RNA-seq工具。
上述空間分辨RNA-seq方法的替代方案包括原位測序和使用單分子熒光原位雜交的基于成像的方法。這些方法能夠產生比RNA-seq方法更窄的轉錄組信息,但它們能直接檢測RNA,并且能夠對低豐度的轉錄本進行分析。同時,它們還能提供組組織結構和微環境的信息,并能產生亞細胞數據。這種方法目前正取得了巨大進步,但是成像方法的一個主要局限就是需要高分辨率或超分辨率顯微鏡與自動流體技術結合,并且這種技術的成像時間可能要花上數小時,甚至是幾天。測序成本的下降比摩爾定律預測的速度更快,與測序成本相比,高通量成規模的成像系統的機會似乎更有限。
- 上述提到的空間轉錄組學都受到無法產生深度轉錄組學數據的限制,以及受到細胞分辨率和/或高成本(時間和/或資金)的限制,但是這些方法正在迅速改進,并且已經應用于臨床樣本。
- 空間轉錄組學的具體計算方法開始出現。此外,原位RNA測序和成像方法的進步已經使得
到
個細胞生成的轉錄組數據成為可能,這與基于液滴的單細胞方法獲得的數據量相近。
動態RNA-seq分析(Beyond steady-state RNA analysis)
- DGE分析是使用RNA-seq來檢測穩態下的mRNA表達水平,這一表達水平是通過mRNA的轉錄,加工和降解速度來決定的。但是,RNA-seq也可以用于研究涉及轉錄,翻譯所涉及的過程與動力學特征,這些研究為基因表達提供了新的思路。
使用新生RNA(nascent RNA)方法來研究活性轉錄
- 基因表達是一個內在的動態過程,但是在檢測復雜轉錄應答的細微以及快速變化或確定不穩定的非編碼RNAs,例如增強子RNAs方面,常規的DGE分析方法就比較受限。RNA-seq可以用于繪制TSSs以及定量新合成的新生RNA,這就可以用來研究RNA動力學。
- 但是,與DGE分析相比,
nascent RNA
的分析則比較難,因為它們半衰期短,豐度低。 - 因此,為了研究這些動態的重要性,研究者們就開發了多種方法來分析
nascent RNA
;這些方法揭示了在啟動子處的差異轉錄程度,表明RNA聚合酶II(Pol II)在啟動子附近的暫停是基因表達的關鍵調節步驟,證明了nascent RNA
有直接調節轉錄的作用,并表明其序列和結構影響轉錄的延伸,暫停和停頓,以及發揮染色體修飾結合和增強了子的作用。 -
nascent RNA- seq
方法旨在區分新近轉錄的RNA和其它RNAs,這些方法可以分為3類:run-on
方法,Pol II
免疫沉淀法,代謝標記法(FIG. 4)。
Figure4-nascent RNA與翻譯組分析的關鍵概念
nascent RNA分析方法是將那些在一個細胞中新轉錄的RNAs從其它的RNAs中富集出來,并將它們與未富集的RNA(成熟的RNA)進行比較,富集nascent RNAs的方法主要有三種。
(a)Run-on方法是利用一個限時脈沖的方法將修飾過的核糖核酸添加到細胞培養基中,對細胞的RNA進行標記;這一過程可以用使用各種修飾的核苷酸,但是,圖中的GRO-seq使用的是Bru修飾的核苷酸。當修飾過的核苷酸整合到RNA后,利用抗BrU的抗體,通過IP的手段將nascent-RNA鏈富集起來,并用于文庫制備以及測序分析。
(b)RNA聚合酶II(Pol II)的IP方法則是利用了微球菌核酸酶(micrococcal nuclease)消化了染色質后,使用相應的抗體拉下了與Pol II結合的RNA。在染色質消化過程中,nascent RNA通過其Pol II足跡保護而不受核酸酶活性的影響,并不會被降解。
(c)代謝標記方法標記RNA的方法類似于Run-on方法,但前者使用的是核苷酸類似物4 sU。提取RNA后,烷基化4 sU,在逆轉錄過重中,就會產生G核苷酸的錯配,從而通過在堿基對級分辨率的突變分析中直接確定4 sU的整合位點。制備3'末端RNA文庫會通過降低未標記的RNA數量來增加測序過程中的信號強度。
Run-on
法是將核酸類似物添加到樣品中,從而使nascent RNA
能夠從總的RNA混合物中進行富集,并能夠檢測瞬時RNA的轉錄(FIG. 4a)。全局
run-on
測序(Global run-on sequencing, GRO-seq)
與精確核酸run-on
測序(Precision nuclear run-on sequencing, PRO-seq)
是分別將Bru
或生物素
修飾的核酸在RNA的轉錄期整合到nascent RNA
中來實現的。由于
run-on
過程中標記的核苷酸的數據,GRO-seq只能測到10-50bp的長度,這就降低的TSS檢測的精度。PRO-seq能夠實現單個堿基級的分辨率,因為生物素標記的核苷酸摻入后轉錄就停止,可以識別出轉錄位點。
Pol II的免疫共沉淀方法包括,天然延長轉錄測序(native elongating transcription sequencing, NET-seq)和哺乳動物染色質天然轉錄測序法(native elongating transcript sequencing for mammalian chromatin, mNET-seq),使用抗FLAG(用FLAG標記的Pol II)抗體進行沉淀的方法,或各種針對Pol II C末端結構域(CTD)的沉淀方法(FIG. 4b)。
NET-seq缺乏特異性,因為任何與Pol II強烈結合的RNA都會污染nascent RNA的富集效果,例如在NET-seq數據中就存在有tRNA和small nucleolar RNA。在mNRET-seq中使用多個CTD抗體提示了VTD修飾是如何影響轉錄的,檢測到了RNA加工的中間體,并能能夠將特定的Pol II nascent RNAs定位于TSSs。
然而,這些檢測能力是以更復雜的實驗,更多的細胞數量和更高的測序成本為代價的。
使用核苷酸類似物硫代吡啶(4-thiouridine, 4 sU)進行代謝脈沖標記(Metabolic pulse- labelling)的方法可以識別nascent RNA(FIG. 4c)。
但是,在那些需要長標記時間的方法中,大多數的轉錄本都會被標記,這就限制了這種方法的靈敏度。
TT-seq將標記時間限制在5分鐘,因此只標記新轉錄本的3’末端,它在進行生物素親和純化前,有一個RNA片段化操作,用于富集標記的RNA。SLAM-seq整合了3’mRNA-seq文庫制備方法(雖然它也用于其它的文庫制備,例如miRNA), 它僅針對標記的新轉錄的RNA進行測序,而非整個轉錄本進行測序。此外,在SLAM-seq中,提取RNA后,還要加入碘乙酰胺(iodoacetamide),用于烷基化已經插入到新生成的nascent RNA鏈中的4 sU殘基。這種修飾會誘導反轉錄式依賴的胞腺嘧啶到胞嘧啶的轉換(T > C),這在測序分析中會被檢測為“突變”,從而直接識別為4 su整合位點。
然而,低摻入率意味著只有少量的4 sU位點可以被轉換為胞嘧啶,這就限制了靈敏性。有兩種方法,即TUC-seq與TimeLapse-seq也使用T>C這種突變分析方法,但是它們并不富集3’末端。這兩種方法用于研究細胞干擾后的轉錄應答和RNA的半衰期。
Nascent RNA分析方法還未進行過直接比較。Nascent RNA方法都受到非特異性背景和/或降解的RNA的負面影響,這會影響讀取深度。
通過僅測序3’末端,那么non-nascent RNA的效應就會在PRO-seq,TT-seq和SLAM-seq中降低,但是幾乎沒有證據表明是否有其他方法更優。親和純化方法費時費力,與代謝標記法相比,前者需要更多的起始材料,但是,確定脈沖標記的時間比較復雜,并且短脈沖產生用于分析的RNA很少,這限制了靈敏度。
最近開發的,組織特異性RNA標記方法以及親折突變分析計算方法或許能夠促進研究者轉向使用生化(基于生物素)富集的手段來研究富含生物學意義的
nascent RNA
和其它RNA。Nascent RNA
方法以及它們與其它方法的綜和,例如空間轉錄組學或RNA-RNA與RNA-蛋白質相互作用
的方法,將會提高我們對轉錄過程的理解。
使用核糖體分析方法檢測活躍的翻譯
- RNA-seq的主要用途在于研究樣本中的mRNA的種類與數量,但是mRNAs的存在與否并不直接關系到蛋白質的合成。
- 現在有兩種方法可以研究轉錄以外的翻譯情況,可以讓研究者們更好的理解翻譯組(translatome):一種是多核糖體表達譜(polysomal profiling),一個是核糖體足跡RNA-seq(Ribo-seq)。
- 核糖體對mRNAs的翻譯具有高度的調節作用,蛋白質水平主要由翻譯活性決定。多核糖體表達譜與Ribo-seq可以讓研究者探索一個轉錄本占用多少個核糖體以及核糖體在轉錄本上的分布(FIG. 5)。
這種方法可以讓研究者推斷在特定時間或細胞狀態下哪些轉錄本正在被活躍地翻譯。這兩種方法都假設mRNA 核糖體的密度與蛋白質合成的水平相關。在不同樣本之間進行比較,就能提示治療條件下,時間推移以及疾病發展過程中,核糖體的動力學特征,上述的這些情況都與翻譯的異常調控有關,例如纖維化,朊病毒或癌癥。
- Figure 5-翻譯組的關鍵概念。翻譯組方法是從那些與核糖體結合的RNA中生成RNA-seq數據,這種方法假設mRNA上的核糖體的密度與蛋白質的合成水平相關。
- (a)多核糖體表達譜的方法是通過離心將RNA分子分成多核糖組分,然后通過RNA-seq的方法進行比較。在多核糖體組分中表達較高的RNA被認為是更活躍的轉錄。
- (b)核糖體足跡(Ribo-seq)法使用RNase來降解暴露的RNA,同時保留那些被核糖體保護的未被降解的RNA。通過對這些保護的RNA進行測序,就可以揭示出核糖體的密度與位置。通過修改變標準Ribo-seq方法,定量翻譯起始測序(QTI-seq)或翻譯復雜表達譜測序(TCP-seq)可以專門富集起始核糖體或其亞基,同時剔除延長的核糖體,因此可以對翻譯的動態過程進行更詳細的分析。對翻譯組RNA-seq數據的過計算 分析可能確定每個mRAN的相對翻譯程度,可以研究翻譯的起始,延長與終止的動力學過程。
- 標準的RNA-seq工具可以用于Ribo-seq的計算分析,但最近已經出現了特定的工具用于尋找開放閱讀框,用于差異或異構體水平的翻譯分析,以及用于研究密碼子偏倚。
- Ribo-seq的主要限制就是超速離心,以及由于核酸酶不同批次間的變化,以需要經驗來確定RNase I的消化條件。
- 這些方法檢測的是來自翻譯起始、延伸和終止的信號的平均強度,但是對Ribo-seq的修改可使得其能夠研究翻譯動力學。
所有的翻譯組方法在概念上都是相似的;它們假設mRNA核糖體的密度與蛋白質的合成水平相關。雖然它們的樣本制備方案不同,但都需要大量的起始細胞數。最終,翻譯組與RNA-seq結合起來研究基因的表達水平,并與蛋白質組學一道來研究蛋白水平,這可能就需要對mRNA的翻譯進行一個廣泛地理解。
種草:Ribo-seq分析必看文獻知識(四):核糖體與蛋白質合成相關生物知識
RNA結構與相互作用分析(Beyond analysis of gene expression)
- RNAs在調節其它生物分子和生物過程(例如剪接和翻譯)中發揮著重要作用,它們涉及RNA與各種蛋白質和/或其它RNA分子的相互作用。
Figure6--RNA結構和RNA-蛋白質相互作用分析的關鍵概念
-
RNA結構和RNA-蛋白質相互作用分析的關鍵概念。
- (a)結構組分析使用核酸酶或化學標記試劑在全轉錄組范圍內來研究結構化RNA(例如雙鏈RNA,dsRNA)或非結構化RNA(單鏈RNA,ssRNA)。
- 在大多數實驗中,在單獨的反應中對ssRNA和dsRNA進行檢測,其結果聯合反應性分析法來確定其結構特征。核酸酶消化方法使用針對dsRNA和/或ssRNA的一個或多個核酸酶來研究RNA的結構。
例如,在對RNA結構要的并行分析(PARS)中,在體外使用RNase V1(一種dsRNA特異性核酸酶)或S1核酸酶(一種ssRNA特異性核酸酶)來酶切并行樣本。酶解后剩余的RNA被轉化為cDNA,然后進行測序,測序的讀長深度與比對區域的反應性成正比。RNA-seq數據的覆蓋和比較結果就能推斷RNA的結構。化學分析法(Chemical-mapping methods),例如使用引物延伸的選擇性2?-羥基酰化分析法(SHAPE-seq)或突變表達譜分析法(SHAPE-Map),這些方法通過結構依賴形式在體外或體內對雙鏈或單鏈區域的核糖核苷酸進行修飾。標記物可以阻斷逆轉錄,導致cDNAs的截短,或者是導致修飾位置錯誤地摻入突變。RNA被轉化為cDNA后進行測序,讀長深度或突變率與比對區域的反應性成正比,從而推斷RNA的結構。
- (b)RNA-RNA的相互作用分析方法,例如SPLASH,這種方法的第一步是將有相互作用的RNA分子通過生物素化的補骨脂進行交聯,然后以通過鏈霉親和素對其進行富集,
- 第二步是在鄰近位置加入相互作用RNA的自由端加入鄰近連接與及片段化。
- 第三步是進行RNA接頭的連接以及環化,制備RNA-seq文庫用于測序,從而揭示出分子內(也就是結構)的RNA相互作用以及分子間的相互作用位點。
- (c)RNA-蛋白質相互作用方法,例如RNA交聯免疫沉淀后測序(CLIP-seq),這種方法使用UV輻射在相互作用的RNA和蛋白質之間產生共價交聯。
- 目的蛋白被抗體富集后,與此蛋白結合的RNA也就被富集了下來,這些RNA加上3'接頭后,提取出來用于cDNA的合成。
- 從結合了接頭的RNA生成的cDNA用于文庫制備,測序。
通過研究RNA分子內的相互作用來研究RNA的結構
- 核糖體RNA和tRNA構成細胞的大部分RNA。它們與其他結構非編碼RNA一起在細胞中發揮各種作用,例如從基因調節到翻譯。
- 現存主要有兩種研究RNA結構的方法:基于核酸酶的方法和化學探針方法。核糖核酸酶消化于1965年首次用于研究RAN(tRNA(Ala))的結構。
- 本文集中討論核酸酶和化學分析方法之間的主要區別(圖·6a),如果想對這方面有進一步的理解,可以看Strobel在這方面的綜述。
核酸酶方法,例如RNA結構的平行分析法(Parallel Analysis of RNA Structure,PARS)和片段測序法(fragmentation sequencing, FRAG-seq),這兩種方法使用能消化單鏈RNA(ssRNA)或雙鏈RNA(dsRNA)的酶。核酸酶消化后剩余的RNA用作RNA-seq的文庫構建。隨后通過對產生的RNA序列數據進行計算分析來識別結構化(雙鏈)和非結構化(單鏈)區域。核酸酶易于使用,可以用于研究ssRNA和dsRNA,但是由于核酸酶消化法的隨機特性,它們與化學分析法相比,分辨率比較低。此外,由于核酸酶尺寸比較大,這就限制了這些核酸酶進入細胞,這就使得它們不適合體內研究。
化學分析法使用與RNA分子反應的化學探針,來標記結構化或非結構化核苷酸。這些標記要么阻斷逆轉錄,要么導致cDNA的錯配,從而可以定位并分析RNA-seq讀長,用于揭示結構組。SHAPE之后進行測序,這種技術方法能夠RNA骨架上的核糖2’-羥基反應來標記未配對的ssRNA,雖然發夾環中的堿基折疊會降低其效率。Structure-seq與硫酸二甲酯測序(dimethyl sulfate sequencing, DMS-seq)能使用DMS來標記腺嘌呤和胞嘧啶殘基,阻斷逆轉錄,最終從生成的截短cDNAs分析中推斷出RNA結構。SHAPE和突變表達譜(SHAPE and utational profiling, SHAPE-Map)和DMS突變表達譜測序(DMS-MaPseq)都修改了實驗條件,從而提高了逆轉錄酶的加工能力,并防止cDNA截短。相反,化學標記會導致錯配事件,在RNA-seq數據的分析中,能夠檢測出這些“突變”,從而揭示RNA結構。化學探針是小分子化合物,盡管由于細胞內的環境處于動態變化中,數據有可能更加多變,但是化學探針還是能夠用于研究活體內的有生物學意義的結構。化學探針還可以用于nascent RNAs的結構分析,并揭示共轉錄RAN折疊的順序。
- 核酸酶和反轉錄阻斷方法通常產生短RNA片段,并且只報告單個酶切位點或化學標記,而錯誤結合和突變檢測方法可以報告每個讀長的多個化學標記。
- 沒有方法不存在偏倚;
- 逆轉錄阻斷永遠不會100%有效,本應誘導突變的化學標記可以阻斷cDNA合成,這兩個因素都可以影響數據的解讀。
- Spike-in控制有可能改善結構組分析的質量,但尚未得到廣泛使用。
- SHAPE方法的比較揭示了僅在體內實驗中才會出現效率差異,因此這就突顯出比較類似復雜方法時所需要謹慎。
- 這些方法正在產生關于RNA結構如何在基因和蛋白質調控中發揮作用的新理解。
例如,DMS分析說明了,RNA結構有可能調控APA,或許會減慢催化活性區域的翻譯,使得更多的時間用于蛋白質的折疊,從而減少錯誤折疊事件。結構RNA-seq方法的結合有可能產生所有的完整結構組信息。隨著該領域的擴展,我們可能會發現,RNA的結構與疾病的進展和或疾病的狀態有關;最近的結果表明,異常RNA結構在重復擴張性疾病方面可能發揮作用。最終,結構組分析也許會促進那些靶向作用于研究透徹的RNA結構的小分子的開發,從而開辟治療開發的新領域。
研究分子間RNA-RNA相互作用
- 分子間的RRIs在轉錄后調控中發揮著重要作用,例如miRNA與靶基因的3’UTR結合。
- 現在已經開發了用于研究分子間RRI的工具,它們用于靶向分析和轉錄組分析。
- 這些分析方法含有一個共同的工作流程,即RNA在打斷與鄰位連接之前,通過交聯來保護其相互作用(FIG. 6b)。
- 大多數并非全部,由不同方法嵌合生成的嵌合cDNA來源于穩定堿基配對(即相互作用)RNA分子的連接。
- 為了提高RRI分析的分辨率,RAP-RNA使用補骨脂素(psoralen)和其他交聯劑,然后用反義寡核苷酸捕獲RNA,以及使用高通量RNA-seq來檢測直接和間接RRI。
- 雖然該方法可以進行更具體的分析,它需要制備多個文庫(每個交聯劑一個文庫)。
- 對整理好的RNA相互作用數據的分析可以對多個相互作用進行可視化,并且這種分析方法已經提示了RNA各類的RRI分布的變化。總之,90%的RRIs涉及mRNAs。近一半涉及miRNA或長鏈非編碼RNA,對于這些RNA,大多數相互作用都與mRNA靶基因相關。
- 對這些整理數據的比較揭示了不同方法對特定RNA物種的偏倚,這導致這些方法之間幾乎沒有重疊。因此,繪制RRI的完整圖譜可能需要使用不止一種方法。
- 然而,RRI方法有幾個局限性。也許最具挑戰性的就是RRI是動態的,并受結構構象和其他分子間相互作用的影響,這使得在沒有重復的情況下,很難對其進行解釋。
分子內的相互作用為分子間的RRI分析增加了干擾,這就需要過濾并除去那些高度結構化的RNAs,例如rRNAs。其它的問題還包括RNA提取過程中相互相互作用的打斷,這就需要穩定的交聯方法,但最常用的RRI交聯劑是補骨脂素和4’-氨基-甲基三氧沙林(4?-amino- methyltrioxsalen, AMT),這些交聯劑只交聯嘧啶,其效率比較低,會降低靈敏度。此外,鄰近連接步驟低效,并且這會連接相互作用和非相互作用RNA,進一步降低靈敏度。
研究RNA-蛋白質相互作用
- ChIP-seq已經成了繪制和研究DNA-蛋白質相互作用不可或缺的工具;類似的IP方法也用于研究RNA-蛋白質的相互作用。
- RNA-蛋白質相互作用方法依賴于IP,利用針對感興趣的RNA結合蛋白的抗體來捕獲其結合的RNA進行分析(第一次報道時是用芯片進行分析的)(FIG. 6c)。
- 各種RNA-蛋白質相互作用方法之間最明顯的區別在于相互作用的RNA和蛋白質是否交聯以及如何交聯:一些方法避免交聯(天然IP, native IP),其他方法使用甲醛進行交聯,一些方法使用紫外線(UV)光進行交聯。最簡單的方法就是RNA免疫沉淀測序(RNA immunoprecipitation and sequencing, RIP-seq),時常,但并非所有情況下都使用天然IP法,以及并非總進行RNA打斷。這種簡便性使用該方法易于被采用。
- 這種方法能產生有用的生物學信息,但是它有兩個重要的缺陷。第一,用于保存RNA-蛋白質相互作用的前提是需要進行溫和地洗滌,這就意味著富集的片段中有相對高的非特異性結合片段。第二,沒有進行RNA打斷就降低了結合位點的分析。
- 因此,RIP-seq具有高度靈活性,并依賴于RNA-蛋白質結合的自然穩定性。
- 使用甲醛交聯在RNA與其相互作用的蛋白質之間產生可逆的共價鍵提高了穩定性,并減少了非特異性RNA的回收,但甲醛也會導致蛋白質-蛋白質的交聯。
- 這種影響可以通過使用0.1%的甲醛(比ChIP-seq研究使用的甲醛低10倍)進行溫和的交聯來降低,這能在多個蛋白質靶點上產生高質量的結果。
隨著公共數據庫中可用的大量數據為計算分析提供了新的機會,因此謹慎考慮CLIP數據的質控,過濾,以及峰值調用(peak calling)和歸一化方法就變得非常重要,這些會影響數據的生物學解釋。為了更全面地討論 RNA-蛋白質的相互作用的CLIP實驗方法,生信技能樹的小編建議讀者可以閱讀最近關于這個主題的綜述。
一些RRI以及所有的RNA-蛋白質結合方法對IP的依賴限制了其對有良好特征抗體蛋白質的研究,而非特異抗體的結合仍然是一個問題(雖然這一問題并非局限于這個領域)。RNA結構也會影響RNA-蛋白質之間的相互作用;一些蛋白質能識別特異的RNA二級結構或與這些結構競爭結合RNA,這使得體外的發現轉向體內就變得復雜了。此外,結構和RNA-蛋白質相互作用方法通常報告一個特定轉錄本或位置的平均值。在實驗室方法中,在計算方法和單分子測序方面的未來發展或許有助于破譯一些這些生物變異。
結論
- Wang,Gerstein和Snyder關于RNA-seq將“革命性地[如何]分析真核轉錄體”的預測肯定是正確的。
- 但是,即使是他們,也有可能對這種轉型的規模感到驚訝。
- 現在我們可以分析RNA生物學的許多方面,這對于基因組功能、研究開發和確定導致癌癥和其他疾病的分子調控異常方面來說是必不可少的。
- 雖然生物學發現階段還遠未結束,但是已經在臨床中使用了RNA-seq方法。
- 單細胞測序正在成為許多實驗的標準配置,空間轉錄組學的分析可能會遵循類似的路徑,使其能夠在與開發當前方法的實驗室范圍之外使用。
- 長讀長測序方法也有可能取代當前相當大比例的研究者們默認選擇的Illumina的短讀長RNA-seq。
- 對于這種情況的出現,長讀長測序技術還需要在增加通量和降低錯誤率方面做出極大的改進。
- 然而,長讀長mRNA異構體測序的優點是,如果它變得像現在短讀長測序一樣便宜和可靠,那么對于那些除了易降解材料外,長讀長測序就可能是首選。
- 考慮到這些因素,那么任何關于RNA-seq在未來十年可能如何發展的預測都有可能過于保守。
文末福利也貼一下,真心不錯
如果你看到這里,應該是真的對學習有追求,那么發郵件(jmzeng1314@163.com),需要你簡單的自我介紹,誠心一點哦,就可以拿到本綜述的markdown翻譯文件、該綜述的PDF、以及一套精心編輯好的轉錄組流程視頻演練。