零膨脹負二項模型(ZINB,10X單細胞和10X空間轉錄組的基礎知識)

學習一點簡單的基礎知識

單細胞RNA測序(single-cell RNA-seq,scRNA-seq)數據是非常有特點的數據,具有很高的稀疏性(high sparsity),具體表現為0非常多(zero inflation)。對于數據的分布給出合理的假設是非常關鍵的工作,是downstream analysis的基礎。顯然對于scRNA-seq的reads count數據,最常用的正態分布是不合理的。首先正態分布描述的是連續型數據,而reads count數據是離散的;其次reads count數據的取值只能為非負整數。經過不斷的嘗試,ZINB被證明是一種可以較好的描述scRNA-seq數據的模型,并且作為一些更advanced的模型的基礎比如SAVER,scVI等。下面我們來看這個模型的細節。

1 Poisson Distribution

基于reads count數據的取值均為非負整數的特點,一個直觀的想法就是用泊松分布來擬合scRNA-seq數據。泊松分布的定義如下:


圖片.png

這里X即為gene在細胞內的表達水平(reads count的數值)。但是用泊松分布來描述scRNA-seq數據面臨了一個新的問題。我們都知道,泊松分布的期望和方差是相等的,即:


圖片.png

但是對于實際的數據來說,隨著gene的平均表達水平越高,其樣本方差與樣本均值的差越大,也即scRNA-seq數據的另一個特點——over-dispersion。我們用一張圖來舉例說明

image

如圖所示,直線(y = x)為基于泊松分布的假設下,基因表達的理論均值與方差的關系,可以看到對于每一種基因,其理論均值與方差相同。而直線之上的部分體現了實際數據中,基因表達的樣本均值與樣本方差的關系,我們看到,隨著基因表達樣本均值的增大,基因表達的樣本方差與均值的差越來越大,不符合泊松分布的性質。

2 Gamma Distribution

對于泊松分布來說,λ是固定不變的,如果我們給λ一個prior呢。 我們關于prior的選擇是Gamma分布。而選擇Gamma分布作為λ的prior在生物學含義上似乎沒有比較直觀的解釋(其實是我自己沒搞懂hhh),但是從統計觀點看,Gamma分布是泊松分布的共軛先驗(conjugate prior),會使得計算posterior非常方便。

Gamma分布的定義如下:


圖片.png

3 Negative Binomial Distribution

上述問題現在匯總為:


圖片.png
圖片.png

證明X服從負二項分布:


圖片.png

根據上述證明,X服從負二項分布。但是新的問題接著產生,在產生數據的過程中,由于一些technical noises(比如某段RNA沒有能夠被逆轉錄)和intrinsic biological variability會導致數據中0的比例非常高,這也就是所謂的zero inflation。于是人們在NB的基礎上,進一步發展出了ZINB。

4 Zero-inflated Negative Binomial

圖片.png

其中δ0為Dirac function,π可以視為真實的基因表達值被觀測為0的概率。至此,整個ZINB模型被完整的建立起來。除了以上這種利用Poisson和Gamma mixture構造NB的方法外,也有人通過NB的兩個參數mean μ和inverse dispersion parameter σ構造NB,即
圖片.png

5 Zero-inflated? (UMI based or read based).

已經有很多工作證明了對于UMI based sequencing來說, NB其實可以很好的刻畫scRNA-seq data(可以參考Nancy Zhang的SAVER)。所以到底用ZINB還是NB還是要取決于測序的技術。不過目前大部分測序都是UMI-based了,所以NB可能會成為更general的選擇。

Reference:
https://en.wikipedia.org/wiki/Poisson_distribution
https://en.wikipedia.org/wiki/Dirac_delta_function
https://en.wikipedia.org/wiki/Gamma_distribution
https://en.wikipedia.org/wiki/Negative_binomial_distribution
https://gregorygundersen.com/blog/2019/09/16/poisson-gamma-nb/
https://zhuanlan.zhihu.com/p/95299303

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
禁止轉載,如需轉載請通過簡信或評論聯系作者。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,327評論 6 537
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,996評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,316評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,406評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,128評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,524評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,576評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,759評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,310評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,065評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,249評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,821評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,479評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,909評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,140評論 1 290
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,984評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,228評論 2 375

推薦閱讀更多精彩內容