當我們在說RNA-seq reads count標準化時，其實在說什么？

From RNA-seq reads to differential expression, Oshlack et al. Genome Biology 2010

基因表達標準化Normalisation

我們在比較不同樣品不同基因的差異表達情況時，期望表達水平分布符合統計方法的基本假設，但由于測序深度和基因長度的不同，直接使用原始count分析會導致假陽性和假陰性過高，因此對原始數據進行標準化/均一化是十分必要的。

根據樣本間和樣本內重復可以把現有的諸多標準化方法大致分為兩類，一類WSN(within-sample normalization)：RPKM和quartile四分位數法；另一類BSN(between-sample normalization)：TMM和upper quartile上四分位處理。

WSN(within-sample normalization)

最普遍的做法是計算CPM (Counts Per Million)，即原始reads count除以總reads數乘以1,000,000。CPM按照基因或轉錄本長度歸一化后的表達即RPKM (Reads Counts Per Million)、FPKM (Fragments Per Kilobase Million)和TPM (Trans Per Million)，推薦使用TPM（原理如圖）。

calc_cpm <- function (expr_mat, spikes = NULL){
  norm_factor <- colSums(expr_mat[-spikes,])
  return(t(t(expr_mat)/norm_factor)) * 10^6
}

使用此類計算方式時，如果不同樣品之間存在某些基因的表達值極高或者極低，由于它們對細胞中分子總數的影響較大（也就是公式中的分母較大), 有可能導致標準化之后這些基因不存在表達差異，而原本沒有差異的基因在標準化之后卻顯示出差異。

圖片來自基因課genek.tv

TPM更科學

BSN(between-sample normalization)

為了解決上述問題，BSM類分出control set去評估測序深度而不是用所有數據，主要分三種：

TMM (trimmed mean of M-values)

TMM是M-值的加權截尾均值，即選定一個樣品為參照，其它樣品中基因的表達相對于參照樣品中對應基因表達倍數的log2值定義為M-值。隨后去除M-值中最高和最低的30%，剩下的M值計算加權平均值，權重來自Binomial data的delta方法 (Robinson and Oshlack, 2010)。

A scaling normalization method for differential expression analysis of RNA-seq data, Oshlack et al. Genome Biology 2010

RLE (relative log expression)

RLE (relative log expression) 首先計算每個基因在所有樣品中表達的幾何平均值。然后再計算該值與每個樣品的比值的中位數，也叫被稱為量化因子scale factor (Anders and Huber 2010)。

calc_sf <- function (expr_mat, spikes=NULL){
  geomeans <- exp(rowMeans(log(expr_mat[-spikes,])))
  SF <- function(cnts){
    median((cnts/geomeans)[(is.finite(geomeans) & geomeans >0)])
  }
  norm_factor <- apply(expr_mat[-spikes,],2,SF)
  return(t(t(expr_mat)/norm_factor))
}

UQ (upper quartile)

上四分位數 (upper quartile, UQ)是樣品中所有基因的表達除以處于上四分位數的基因的表達值。同時為了保證表達水平的相對穩定，計算得到的上四分位數值要除以所有樣品中上四分位數值的中位數。

calc_uq <- function (expr_mat, spikes=NULL){
  UQ <- function(x) {
    quantile(x[x>0],0.75)
  }
  uq <- unlist(apply(expr_mat[-spikes,],2,UQ))
  norm_factor <- uq/median(uq)
  return(t(t(expr_mat)/norm_factor))
}

以上三種方法效果大同小異，通常比較流行的是TMM和DESeq normalization

edgeR中三種標準化TMM\UQ\RLE方法的比較以及不做標準化的后果

http://www.lxweimin.com/p/a3b78bd49bcc

WSN和BSN兩類方法的選擇

沒有定論，這方面研究較少，也可以先用BSN處理counts再做一下WSN。“Every normalization technique that I have seen assumes you are modeling counts, so the assumptions might be violated if you are using them directly on TPM or FPKM. While this is true, I think most techniques will give reasonable results in practice. Another possibility is to apply a BSN technique to the counts, then perform your within-sample normalization. This area has not been studied well, though we are actively working on it.”
From blog In RNA-Seq, 2 != 2: Between-sample normalization （里面有很多資料文獻，可以進一步了解）

P.S. 這些天看著果子哥在微信號里筆耕不輟，感覺自己要更努力。特別是他最近發布的針對RNA-seq reads count批次效應處理的內容，我有些困惑，與其等著他人解答，不如自己主動找答案。正好那篇推文的英文參考鏈接里有詳細的說明，了解到edgeR里三種均一化normalisation方法TMM,UQ和RLE的異同，而批次效應應該是要單獨考慮的，今天先講講均一化，幫助自己能更新相關的基礎概念，優化自己RNA-seq數據處理的流程，常學常新

果子學生信
理解 Quntile Normalization
批次效應這樣矯正

最后編輯于：2018.08.07 14:16:40

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,578評論 6贊 544
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,701評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 178,691評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,974評論 1贊 318
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,694評論 6贊 413
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 56,026評論 1贊 329
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 44,015評論 3贊 450
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 43,193評論 0贊 290
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,719評論 1贊 336
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,442評論 3贊 360
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,668評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,151評論 5贊 365
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,846評論 3贊 351
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,255評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,592評論 1贊 295
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,394評論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,635評論 2贊 380

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

當我們在說RNA-seq reads count標準化時，其實在說什么？

當我們在說RNA-seq reads count標準化時，其實在說什么？

基因表達標準化Normalisation

WSN(within-sample normalization)

BSN(between-sample normalization)

TMM (trimmed mean of M-values)

RLE (relative log expression)

UQ (upper quartile)

WSN和BSN兩類方法的選擇

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

當我們在說RNA-seq reads count標準化時，其實在說什么？

基因表達標準化Normalisation

WSN(within-sample normalization)

BSN(between-sample normalization)

TMM (trimmed mean of M-values)

RLE (relative log expression)

UQ (upper quartile)

WSN和BSN兩類方法的選擇

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

當我們在說RNA-seq reads count標準化時，其實在說什么？