Normalization
差異基因分析工作流程的第一步是計數歸一化,這對于準確比較樣品之間的基因表達是必需的。
RNA-Seq(RNA測序的縮寫)是一種實驗類型,可讓我們測量基因表達。測序步驟產生大量(數千萬個)cDNA 片段序列,稱為reads,每個read代表樣品中某些RNA分子的一部分.
然后,我們將每個read分配(“map”)到一個isoforms個,并計算每個isoforms(isoform:可以認為同一個基因的不同版本的蛋白)有多少個read。
在所有其他條件都相同的情況下,isoforms越豐富,則來自該異構體的片段越可能被測序。因此,我們可以將read計數代表isoforms的豐度。
Normalization期間經常考慮的主要因素有:
1.測序深度 需要測序深度來比較樣品之間的基因表達。在下面的示例中,每個基因在樣品A中的表達似乎都比樣品B增加了一倍,但這是樣品A的測序深度增加了一倍的結果。
注意:在上圖中,每個粉紅色和綠色矩形代表與基因對齊的讀段。用虛線連接的讀段連接跨越內含子的讀段。
2.基因長度 比較相同樣品中不同基因之間的表達,需要考慮基因長度。在該示例中,基因X和基因Y具有相似的表達水平,但是映射到基因X的讀取次數將比映射到基因Y的讀取次數多得多,因為基因X更長。
3.RNA組成 樣品之間一些高度差異表達的基因,樣品之間表達的基因數量不同或存在污染會影響某些類型的標準化方法。建議對RNA組成進行核算,以準確比較樣品之間的表達,在進行差異表達分析時尤其重要
在此示例中,如果我們將每個樣本除以計數總數進行歸一化,則DE基因將大大扭曲計數,DE基因占據了樣本A的大部分計數,但沒有樣本B的計數。樣品A的大多數其他基因將被總數較大的數除,并且似乎比樣品B中的那些相同基因的表達少。
雖然歸一化對于差異表達分析至關重要,但對于探索性數據分析,數據可視化以及每當您探索或比較樣本之間或樣本內部的計數時,標準化也是必要的。
常用Normalization方法
Normalization method | 描述 | 考慮因素 | 推薦使用 |
---|---|---|---|
CPM (counts per million) | counts scaled by total number of reads | 測序深度 | 同一樣本組重復樣本之間的基因計數比較;不適用于樣品比較或DE分析 |
TPM (transcripts per kilobase million) | counts per length of transcript (kb) per million reads mapped | 測序深度和基因長度 | 樣本內或同一樣本組樣本之間的基因計數比較;不用于DE分析 |
RPKM/FPKM (reads/fragments per kilobase of exon per million reads/fragments mapped) | similar to TPM | 測序深度和基因長度 | 樣本中基因之間的基因計數比較;不適用于樣品比較或DE分析之間 |
DESeq2’s median of ratios | counts divided by sample-specific size factors determined by median ratio of gene counts relative to geometric mean per gene | 測序深度和RNA組成 | 樣品之間的基因計數比較和DE分析 ; 不適用于樣本比較 |
EdgeR’s trimmed mean of M values (TMM) | uses a weighted trimmed mean of the log expression ratios between samples | 測序深度,RNA組成和基因長度 | 樣品之間和樣品內部的基因計數比較,用于DE分析 |
RPKM/FPKM (not recommended)
- 雖然TPM和RPKM / FPKM歸一化方法都考慮了測序深度和基因長度,但不建議使用RPKM / FPKM。原因是通過RPKM / FPKM方法輸出的歸一化計數值在樣本之間不具有可比性。
- 使用RPKM / FPKM歸一化,每個樣本的RPKM / FPKM歸一化計數總數將不同。因此,您不能在樣本之間平均比較每個基因的標準化計數。
RPKM歸一化計數表
基因 | SampleA | SampleB |
---|---|---|
XCR1 | 5.5 | 5.5 |
WASHC1 | 73.4 | 21.8 |
… | … | … |
RPKM歸一化總數 | 1,000,000 | 1,500,000 |
例如,在上表中,即使RPKM計數值相同,SampleA與XCR1(5.5 / 1,000,000)相關的計數比例也比sampleB(5.5 / 1,500,000)大。因此,我們不能直接比較sampleA和sampleB之間XCR1(或任何其他基因)的計數,因為標準化計數的總數在樣本之間是不同的。
后面將繼續學習DESeq2和EdgeR的Normalization方法。以及相互轉換的方法