轉(zhuǎn)錄組數(shù)據(jù)標(biāo)準(zhǔn)化--Normalization

轉(zhuǎn)錄組數(shù)據(jù)經(jīng)過比對到參考基因組獲得對應(yīng)基因count值后,因?yàn)闇y序深度以及基因長度的關(guān)系,在進(jìn)行差異分析之前,還需要進(jìn)行標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化是轉(zhuǎn)錄組數(shù)據(jù)差異分析必不可少的一步。

用于轉(zhuǎn)錄組差異分析的目前主要是兩個(gè)軟件:Deseq2 和 edgeR;針對這兩款軟件,學(xué)習(xí)一下目前的應(yīng)用的標(biāo)準(zhǔn)化方法。

Global normalization methods

通過針對每個(gè)樣本獲得對應(yīng)的大小因子Cj來使不同樣本的計(jì)數(shù)具有可比性,即使這些樣本的排序深度不同。

標(biāo)準(zhǔn)化過程

首先先確定幾個(gè)后續(xù)會(huì)使用的變量

具體計(jì)算函數(shù)如下:

1. Total read count normalization

cpm(..., normalized.lib.sizes = TRUE)? ? ? ?{edgeR}

原理:將庫的大小作為標(biāo)準(zhǔn)化的一種形式是有直觀意義的,因?yàn)閷⒁粋€(gè)樣本測序到一半的深度,平均會(huì)得到映射到每個(gè)基因的讀取數(shù)的一半。

計(jì)算方法:

計(jì)算公式

2.?Upper quantile normalization

calcNormFactors(..…,method="upperquartile",p=0.75)? ? ? {edgeR}

原理:與規(guī)范微陣列數(shù)據(jù)的標(biāo)準(zhǔn)技術(shù)類似,本方法是根據(jù)分位數(shù)等參數(shù)匹配基因計(jì)數(shù)的樣本間分布。例如,可以簡單地按樣本的中位數(shù)對其計(jì)數(shù)進(jìn)行縮放。由于零和低計(jì)數(shù)基因的優(yōu)勢,中位數(shù)對不同水平的測序工作沒有提供信息。相反,建議使用每個(gè)樣本的上四分位數(shù)(75-第百分位數(shù))。

計(jì)算方法: 1. 計(jì)算樣本上分位數(shù)(75%)然后按庫大小縮放讀取計(jì)數(shù)

上分位數(shù)

2. 重新計(jì)算總的reads count的上分位數(shù)

調(diào)整后的上分位數(shù)

3. 計(jì)算Cj因子

Cj
Cj

3. Relative Log Expression(RLE)

calcNormFactors(..…, method ="RLE")? ? ? ? ? ?{edgeR}

estimateSizeFactors(...)? ? ? ? ? {DESeq, DESeq2}

4. Trimmed Mean of M-values(TMM)

calcNormFactors(..,method="TMM")? ? ? ?{edgeR}

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容