本文轉載自:To_2020_1_4
當我們從測序數據中得到了一系列的基因后,我們需要研究這些基因都屬于那些通路,那些通路是跟我們研究課題相關的。為了解決這一問題,最常用的做法就是做通路注釋然后做通路富集分析,看看我們得到的基因都分布在哪些通路。
超幾何分布是富集分析的常用方法,常用的GO富集分析都是用超幾何分布計算的。下面將淺顯的探討一下超幾何分布的原理。
1、超幾何分布
超幾何分布是一種非常常見的分布,常用來表示在N個物品中有指定商品M個,不放回抽取n個,抽中指定商品的個數,即X~H(N,n,M),則抽中k件M商品的概率為:
在這里我們做一個簡單的概念轉換即可知道軟件是如何做GO富集分析的:
1、N為GO注釋數據庫中的總基因數;
2、M為數據庫中屬于某個GO子類的基因數;
3、n為我們得到的需要進行GO富集分析的基因的總數目;
4、k為n中屬于M的數目。
因此我們就可以計算基因集n是否在M類中富集的概率。
但是知道這個概率后并不能直接用來作為富集分析的結果,必須要對其進行一個評估,因為我們必須要考慮到隨機情況,如果隨機從N中抽取n個基因,其中k個在M中的概率很高的話,那我們富集得到的通路意義就是極小的。這時候我們引入p值對富集分析的概率結果進行分析。
2、p-value檢驗(這里是fisher精確檢驗公式!!)
P值就是當原假設為真時所得到的樣本觀察結果或更極端結果出現的概率。如果P值很小,說明這種情況的發生的概率很小,而如果出現了,根據小概率原理,我們就有理由拒絕原假設,P值越小,我們拒絕原假設的理由越充分。通俗的講,p值就是指隨機出現的概率,p值越小說明越不可能隨機出現,也就是說我們得到的結果越具有顯著性。
總之,P值越小,表明結果越顯著。但是檢驗的結果究竟是“顯著的”、“中度顯著的”還是“高度顯著的”需要我們自己根據P值的大小和實際問題來解決。
在我們的富集分析中,p值是由下面這個式子計算得到的:
上面式子的意思是: 從總N個基因抽n個基因, 作為分母,分子是M個基因有i個落在通路里,有n-i個不落在通路里。 p-value是指你觀察到m個基因落在通路里,比這還要更極端的概率之和,所以i是從m到M。 就是說看到更多的基因落在這個通路里的所有可能。所以超幾何檢驗很方便地 可以給你算一個p-value,最后得到p-value<0.01或者0.05,你的結果如果定義p-value<0.05 那就有5%的概率看到是一個假陽性,這里我們只是在談拿一個通路來做檢測, KEGG現在大概有360多個通路,每一個通路都做一個超幾何檢驗,每一次有5%的概率出錯,一共進行360次, 那出錯的概率就很會大很多, 所以怎么評估最終看到的結果是真的而不是被誤導的呢? 你就要算一個叫多假設檢驗的矯正,只要做了多次的statistical test, 就要做多假設矯正。矯正有多種方法,現在大家用的最多的是FDR校正。
3、FDR校正
FDR矯正的是false discovery rate, 也就是FP/(TP+FP)的期望值,看這個期望值是多少。 如果這個期望值小于0.05,大家就認為有可能是 一個真實的有生物學意義的結果。
參考:
北京大學公開課——生物信息學: 導論與方法
伯努利分布、二項分布、幾何分布、超幾何分布、泊松分布
說說大家經常見到的p值