2019-10-02 R包第三天:有關通路富集的統計學基礎

本文轉載自:To_2020_1_4

當我們從測序數據中得到了一系列的基因后,我們需要研究這些基因都屬于那些通路,那些通路是跟我們研究課題相關的。為了解決這一問題,最常用的做法就是做通路注釋然后做通路富集分析,看看我們得到的基因都分布在哪些通路。
超幾何分布是富集分析的常用方法,常用的GO富集分析都是用超幾何分布計算的。下面將淺顯的探討一下超幾何分布的原理。

1、超幾何分布

超幾何分布是一種非常常見的分布,常用來表示在N個物品中有指定商品M個,不放回抽取n個,抽中指定商品的個數,即X~H(N,n,M),則抽中k件M商品的概率為:


超幾何分布公式

在這里我們做一個簡單的概念轉換即可知道軟件是如何做GO富集分析的:

1、N為GO注釋數據庫中的總基因數;
2、M為數據庫中屬于某個GO子類的基因數;
3、n為我們得到的需要進行GO富集分析的基因的總數目;
4、k為n中屬于M的數目。
因此我們就可以計算基因集n是否在M類中富集的概率。
但是知道這個概率后并不能直接用來作為富集分析的結果,必須要對其進行一個評估,因為我們必須要考慮到隨機情況,如果隨機從N中抽取n個基因,其中k個在M中的概率很高的話,那我們富集得到的通路意義就是極小的。這時候我們引入p值對富集分析的概率結果進行分析。

2、p-value檢驗(這里是fisher精確檢驗公式!!)

P值就是當原假設為真時所得到的樣本觀察結果或更極端結果出現的概率。如果P值很小,說明這種情況的發生的概率很小,而如果出現了,根據小概率原理,我們就有理由拒絕原假設,P值越小,我們拒絕原假設的理由越充分。通俗的講,p值就是指隨機出現的概率,p值越小說明越不可能隨機出現,也就是說我們得到的結果越具有顯著性。
總之,P值越小,表明結果越顯著。但是檢驗的結果究竟是“顯著的”、“中度顯著的”還是“高度顯著的”需要我們自己根據P值的大小和實際問題來解決。
在我們的富集分析中,p值是由下面這個式子計算得到的:


p值公式

上面式子的意思是: 從總N個基因抽n個基因, 作為分母,分子是M個基因有i個落在通路里,有n-i個不落在通路里。 p-value是指你觀察到m個基因落在通路里,比這還要更極端的概率之和,所以i是從m到M。 就是說看到更多的基因落在這個通路里的所有可能。所以超幾何檢驗很方便地 可以給你算一個p-value,最后得到p-value<0.01或者0.05,你的結果如果定義p-value<0.05 那就有5%的概率看到是一個假陽性,這里我們只是在談拿一個通路來做檢測, KEGG現在大概有360多個通路,每一個通路都做一個超幾何檢驗,每一次有5%的概率出錯,一共進行360次, 那出錯的概率就很會大很多, 所以怎么評估最終看到的結果是真的而不是被誤導的呢? 你就要算一個叫多假設檢驗的矯正,只要做了多次的statistical test, 就要做多假設矯正。矯正有多種方法,現在大家用的最多的是FDR校正。

3、FDR校正

FDR矯正的是false discovery rate, 也就是FP/(TP+FP)的期望值,看這個期望值是多少。 如果這個期望值小于0.05,大家就認為有可能是 一個真實的有生物學意義的結果。

FDR

參考:
北京大學公開課——生物信息學: 導論與方法
伯努利分布、二項分布、幾何分布、超幾何分布、泊松分布
說說大家經常見到的p值

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,527評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,687評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,640評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,957評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,682評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,011評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,009評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,183評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,714評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,435評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,665評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,148評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,838評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,251評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,588評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,379評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,627評論 2 380

推薦閱讀更多精彩內容