差異基因通路富集分析的統計學假設和關于p值的理解

單細胞轉錄譜可以根據基因表達水平進行差異分析,通過差異分析,我們可以知道不同分群之間是否存在差異,以及存在顯著表達量差異的基因集(DEG,在單細胞Seurat分析流程中,通過Seurat::FindAllMarkers()方法計算得到簇間的過表達差異基因)。進一步,探究這些DEG是由哪些生物學過程介導的,我們的實驗處理影響了哪些生物學過程。理解這些DEG所代表的生物學意義的最佳途徑就是基因富集分析(Gene Set Enrichment Analysis, GSEA)

1、富集分析的原理

富集分析(Gene Set Enrichment Analysis, GSEA)的基本思想是,如果一個生物學過程在當前研究中發生異常,則共同發揮功能的基因被選擇出來作為與這一過程相關的基因集是大概率事件。分析比較一種生物學狀態的研究群體的【過表達差異基因集】在一通路的富集概率相比在總基因集中【隨機抽取的同數目基因集】在該通路的富集概率是否有顯著差異,如果有顯著差異,則認為該通路對于在當前研究群體是具有意義的。

生物學過程(通路)是受基因表達調控的,一條通路中富集的差異表達基因數目越多,這條通路整體的表達紊亂的可能性就越大。通過富集分析可以用來解讀一組基因背后所代表的生物學知識,揭示其在細胞內或細胞外扮演了什么樣的角色。

2、富集分析的統計模型-超幾何分布型

超幾何分布是統計學中的一種離散分布,它描述了由有限總體中抽出n個樣本,成功抽出指定種類的樣本的個數。 是生物信息學中常用的一種統計分布模型。基因的富集分析就采用這個模型來檢驗一組基因出現在某個通路的顯著性。

2.1超幾何分布與二項分布

在概率論中,超幾何分布是一個在產品檢驗和隨機抽樣中應用廣泛的離散概率分布模型。超幾何分布與二項分布均基于伯努利試驗

二項分布是建立在有放回抽樣的基礎上的,也就是抽出一個樣品測量或處理完后再放回去,然后抽下一個,所以二項分布每次試驗結果的發生概率是不變的(有放回抽樣,每次實驗相互獨立)。但在實際的工作中通常我們很少會這樣抽,一般都屬于無放回抽樣,這時候需要用超幾何分布來計算概率。在一般的教課書上都會要求,當總體的容量N不大時,要用超幾何分布來計算,如果N很大而n很小,則可以用二項分布來近似計算,也就是可以將無放回抽樣近似看出有放回抽樣。至于n要小到什么程度,有的書上說n/N小于0.1就可以了,有的書上則要求小于0.05。

總結:二項分布每次試驗結果的發生概率是不變的(有放回抽樣,每次實驗相互獨立),而超幾何分布試驗是在有限總體中進行無放回抽樣(總體數量不斷減少),所以每次試驗結果發生的概率將發生變化(不放回抽樣,每次實驗相互影響)。

2.2離散分布中的兩個重要函數:

概率質量函數(probability mass function,簡稱PMF):是離散隨機變量X在各特定取值上的概率P(x),其總和為1。與概率密度函數f(x)不同,概率質量函數是對離散隨機變量定義的,本身就代表該值的概率;而概率- - 密度函數是對連續隨機變量定義的,本身不是概率,它在某區間內的積分才是概率。

  • R語言的概率質量函數求算方法dhyper(k,M,N-M,n):返回一次抽樣的成功概率:

超幾何分布的概率質量函數:

累積分布函數(cumulative distribution function, 簡稱CDF):定義為F(x)=P(X≤x),是單調遞增的,且滿足:F(-∞)=0和F(+∞)=1。對離散分布而言,它是所有小于等于x的值出現的概率之和。

  • R語言的累積概率函數求算方法phyper(k,M,N-M,n):求解"至多"問題,返回相應的累計概率(超幾何分布左尾概率):

3、超幾何分布型的假設檢驗-Fisher's 精確檢驗

3.1 關于 Fisher's test:

Fisher's test 用來檢驗一次隨機實驗的結果是否支持對于某個隨機實驗的假設。具體如下:隨機事件發生的概率小于0.05則認定該事件為小概率事件。一般原則認為在某個假設前提下,一次隨機實驗的結果不會出現小概率事件。若一次隨機實驗的結果出現了小概率事件則認定該假設不被支持。

  • 在給定假設(如零假設:事件間無顯著相關性)的前提下,對假設事件的出現可能性做統計學檢驗,p-value越小,越能拒絕原假設。
  • p-value是一種概率:是在原假設為真的前提下,出現該樣本或比該樣本更極端的結果的概率之和。

3.2 富集分析的一般假設

H0: 已知生物學狀態下的研究樣本的n個過表達差異基因中富集m個A通路基因的事件是隨機事件,說明A通路在該生物學狀態下的研究樣本中未發生紊亂。
H1: A通路在該生物學狀態下的研究樣本中發生了紊亂。

3.3 統計學顯著性的 p值 計算

統計檢驗的p值(p-value)是在原假設為真的前提下計算的比觀察事件更極端事件的發生概率。對應離散分布型中的單尾概率或雙尾概率。富集分析計算的是超幾何分布型的右尾概率

關于p值計算的理解:既然我們需要通過在已知生物學狀態下的研究樣本的n個DEGs中富集了A通路相關基因的數目來檢驗A通路在該樣本中是否發生紊亂。那么在假設H0為真的前提下,事件(隨機在研究樣本的基因集中抽取n個基因,其中富集有\geq m個通路A相關基因)應該是大概率事件,事件的發生概率p \geq 95\%。所以如果事件(隨機在研究樣本的基因集中抽取n個基因,其中富集有\geq m個通路A相關基因)的發生概率p \leq 5\%,就可以認為在統計假設為真的前提下發生了小概率事件,我們就有理由懷疑假設的真實性,從而拒絕接受該假設。

事件(隨機在研究樣本的基因集中抽取n個基因,其中富集有\geq m個通路A相關基因) 的發生概率p可以由計算超幾何分布型的右尾概率得到,p=1- F_X(m)

超幾何分布右尾概率

參考材料
假設檢驗、P值、假設檢驗和置信區間的關系 - 知乎 (zhihu.com)
R-概率統計 | 概率分布與假設檢驗 - 知乎 (zhihu.com)
R統計學(03): 超幾何分布 - 知乎 (zhihu.com)
淺探富集分析中的超幾何分布 - 簡書 (jianshu.com)

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
禁止轉載,如需轉載請通過簡信或評論聯系作者。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,501評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,673評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,610評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,939評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,668評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,004評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,001評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,173評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,705評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,426評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,656評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,139評論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,833評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,247評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,580評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,371評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,621評論 2 380

推薦閱讀更多精彩內容