轉(zhuǎn)錄組數(shù)據(jù)經(jīng)過比對到參考基因組獲得對應(yīng)基因count值后,因?yàn)闇y序深度以及基因長度的關(guān)系,在進(jìn)行差異分析之前,還需要進(jìn)行標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化是轉(zhuǎn)錄組數(shù)據(jù)差異分析必不可少的一步。
用于轉(zhuǎn)錄組差異分析的目前主要是兩個(gè)軟件:Deseq2 和 edgeR;針對這兩款軟件,學(xué)習(xí)一下目前的應(yīng)用的標(biāo)準(zhǔn)化方法。
Global normalization methods
通過針對每個(gè)樣本獲得對應(yīng)的大小因子Cj來使不同樣本的計(jì)數(shù)具有可比性,即使這些樣本的排序深度不同。
首先先確定幾個(gè)后續(xù)會(huì)使用的變量
具體計(jì)算函數(shù)如下:
1. Total read count normalization
cpm(..., normalized.lib.sizes = TRUE)? ? ? ?{edgeR}
原理:將庫的大小作為標(biāo)準(zhǔn)化的一種形式是有直觀意義的,因?yàn)閷⒁粋€(gè)樣本測序到一半的深度,平均會(huì)得到映射到每個(gè)基因的讀取數(shù)的一半。
計(jì)算方法:
2.?Upper quantile normalization
calcNormFactors(..…,method="upperquartile",p=0.75)? ? ? {edgeR}
原理:與規(guī)范微陣列數(shù)據(jù)的標(biāo)準(zhǔn)技術(shù)類似,本方法是根據(jù)分位數(shù)等參數(shù)匹配基因計(jì)數(shù)的樣本間分布。例如,可以簡單地按樣本的中位數(shù)對其計(jì)數(shù)進(jìn)行縮放。由于零和低計(jì)數(shù)基因的優(yōu)勢,中位數(shù)對不同水平的測序工作沒有提供信息。相反,建議使用每個(gè)樣本的上四分位數(shù)(75-第百分位數(shù))。
計(jì)算方法: 1. 計(jì)算樣本上分位數(shù)(75%)然后按庫大小縮放讀取計(jì)數(shù)
2. 重新計(jì)算總的reads count的上分位數(shù)
3. 計(jì)算Cj因子
3. Relative Log Expression(RLE)
calcNormFactors(..…, method ="RLE")? ? ? ? ? ?{edgeR}
estimateSizeFactors(...)? ? ? ? ? {DESeq, DESeq2}
4. Trimmed Mean of M-values(TMM)
calcNormFactors(..,method="TMM")? ? ? ?{edgeR}