單細胞轉錄譜可以根據基因表達水平進行差異分析,通過差異分析,我們可以知道不同分群之間是否存在差異,以及存在顯著表達量差異的基因集(DEG,在單細胞Seurat分析流程中,通過
Seurat::FindAllMarkers()
方法計算得到簇間的過表達差異基因)。進一步,探究這些DEG是由哪些生物學過程介導的,我們的實驗處理影響了哪些生物學過程。理解這些DEG所代表的生物學意義的最佳途徑就是基因富集分析(Gene Set Enrichment Analysis, GSEA)。
1、富集分析的原理
富集分析(Gene Set Enrichment Analysis, GSEA)的基本思想是,如果一個生物學過程在當前研究中發生異常,則共同發揮功能的基因被選擇出來作為與這一過程相關的基因集是大概率事件。分析比較一種生物學狀態的研究群體的【過表達差異基因集】在一通路的富集概率相比在總基因集中【隨機抽取的同數目基因集】在該通路的富集概率是否有顯著差異,如果有顯著差異,則認為該通路對于在當前研究群體是具有意義的。
生物學過程(通路)是受基因表達調控的,一條通路中富集的差異表達基因數目越多,這條通路整體的表達紊亂的可能性就越大。通過富集分析可以用來解讀一組基因背后所代表的生物學知識,揭示其在細胞內或細胞外扮演了什么樣的角色。
2、富集分析的統計模型-超幾何分布型
超幾何分布是統計學中的一種離散分布,它描述了由有限總體中抽出n個樣本,成功抽出指定種類的樣本的個數。 是生物信息學中常用的一種統計分布模型。基因的富集分析就采用這個模型來檢驗一組基因出現在某個通路的顯著性。
2.1超幾何分布與二項分布
在概率論中,超幾何分布是一個在產品檢驗和隨機抽樣中應用廣泛的離散概率分布模型。超幾何分布與二項分布均基于伯努利試驗。
二項分布是建立在有放回抽樣的基礎上的,也就是抽出一個樣品測量或處理完后再放回去
,然后抽下一個,所以二項分布每次試驗結果的發生概率是不變的(有放回抽樣,每次實驗相互獨立)。但在實際的工作中通常我們很少會這樣抽,一般都屬于無放回抽樣,這時候需要用超幾何分布來計算概率。在一般的教課書上都會要求,當總體的容量N不大時,要用超幾何分布來計算,如果N很大而n很小,則可以用二項分布來近似計算,也就是可以將無放回抽樣近似看出有放回抽樣。至于n要小到什么程度,有的書上說n/N小于0.1就可以了,有的書上則要求小于0.05。
總結:二項分布每次試驗結果的發生概率是不變的(有放回抽樣,每次實驗相互獨立),而超幾何分布試驗是在有限總體中進行無放回抽樣(總體數量不斷減少),所以每次試驗結果發生的概率將發生變化(不放回抽樣,每次實驗相互影響)。
2.2離散分布中的兩個重要函數:
① 概率質量函數(probability mass function,簡稱PMF):是離散隨機變量X在各特定取值上的概率P(x),其總和為1。與概率密度函數f(x)不同,概率質量函數是對離散隨機變量定義的,本身就代表該值的概率;而概率- - 密度函數是對連續隨機變量定義的,本身不是概率,它在某區間內的積分才是概率。
- R語言的概率質量函數求算方法
dhyper(k,M,N-M,n)
:返回一次抽樣的成功概率:
超幾何分布的概率質量函數:
②累積分布函數(cumulative distribution function, 簡稱CDF):定義為F(x)=P(X≤x),是單調遞增的,且滿足:F(-∞)=0和F(+∞)=1。對離散分布而言,它是所有小于等于x的值出現的概率之和。
- R語言的累積概率函數求算方法
phyper(k,M,N-M,n)
:求解"至多"問題,返回相應的累計概率(超幾何分布左尾概率):
3、超幾何分布型的假設檢驗-Fisher's 精確檢驗
3.1 關于 Fisher's test:
Fisher's test 用來檢驗一次隨機實驗的結果是否支持對于某個隨機實驗的假設。具體如下:隨機事件發生的概率小于0.05則認定該事件為小概率事件。一般原則認為在某個假設前提下,一次隨機實驗的結果不會出現小概率事件。若一次隨機實驗的結果出現了小概率事件則認定該假設不被支持。
- 在給定假設(如零假設:事件間無顯著相關性)的前提下,對假設事件的出現可能性做統計學檢驗,p-value越小,越能拒絕原假設。
- p-value是一種概率:是在原假設為真的前提下,出現該樣本或比該樣本更極端的結果的概率之和。
3.2 富集分析的一般假設
H0: 已知生物學狀態下的研究樣本的n個過表達差異基因中富集個A通路基因的事件是隨機事件,說明A通路在該生物學狀態下的研究樣本中未發生紊亂。
H1: A通路在該生物學狀態下的研究樣本中發生了紊亂。
3.3 統計學顯著性的
值 計算
統計檢驗的值(
)是在原假設為真的前提下計算的比觀察事件更極端事件的發生概率。對應離散分布型中的單尾概率或雙尾概率。富集分析計算的是超幾何分布型的右尾概率。
關于值計算的理解:既然我們需要通過在已知生物學狀態下的研究樣本的
個DEGs中富集了A通路相關基因的數目來檢驗A通路在該樣本中是否發生紊亂。那么在假設H0為真的前提下,事件(隨機在研究樣本的基因集中抽取
個基因,其中富集有
個通路A相關基因)應該是大概率事件,事件的發生概率
。所以如果事件(隨機在研究樣本的基因集中抽取
個基因,其中富集有
個通路A相關基因)的發生概率
,就可以認為在統計假設為真的前提下發生了小概率事件,我們就有理由懷疑假設的真實性,從而拒絕接受該假設。
事件(隨機在研究樣本的基因集中抽取n個基因,其中富集有
個通路A相關基因) 的發生概率
可以由計算超幾何分布型的右尾概率得到,
。
超幾何分布右尾概率
參考材料
假設檢驗、P值、假設檢驗和置信區間的關系 - 知乎 (zhihu.com)
R-概率統計 | 概率分布與假設檢驗 - 知乎 (zhihu.com)
R統計學(03): 超幾何分布 - 知乎 (zhihu.com)
淺探富集分析中的超幾何分布 - 簡書 (jianshu.com)