1.超幾何分布
超幾何分布是統(tǒng)計學上一種離散概率分布。它描述了從有限N個物件(其中包含M個指定種類的物件)中抽出n個物件,成功抽出該指定種類的物件的次數(shù)(不放回)。
需要注意的是:
(1)超幾何分布的模型是不放回抽樣。
(2)超幾何分布中的參數(shù)是M,N,n,超幾何分布記作X~H(n,M,N)。
生物學上的GO通路的富集,即差異基因顯著富集的通路是基于統(tǒng)計學上的超幾何分布的。
以cell cycle的基因為例,在GO中,如果總數(shù)為N的基因列表中中有M個基因和cell cycle相關,每次抽n個基因,其中所得和cell cycle相關基因的數(shù)量X=k,那么:
或者寫作:
即得到為隨機抽樣n個基因是否能在cell cycle相關的基因集中富集的概率。
2.計算p-value
但是用超幾何分布計算一次抽樣的概率的結果不能代表整個樣品的分布,所以我們要計算p值,即計算n個樣品中所有小于k個屬于M的概率,再用1減去這個概率和,得到p值。如果我們以p值小于0.05作為閾值,則認為p<0.05的結果為富集分析得到的顯著性結果:
3.多重假設檢驗
拿一個通路來做檢測,如果定義p-value<0.05,即取到大于等于k的幾率是0.05,那就有5%的概率看到是一個假陽性。當每個通路都進行超幾何分布計算時,每一次有5%的概率假陽性,當檢驗次數(shù)越多,假陽性的數(shù)量也會隨之增加。因此我們需要用多重假設檢驗對計算好的P值進行校正,可以使用Bonferroni法和FDR法。
(1)Bonferroni法
Bonferroni法得到的矯正P值=P×n
Bonferroni法簡單粗暴尤其當n很大時,易產(chǎn)生假陰性
如:如果總共檢驗次數(shù)為10000次,那么它會將原來的閾值0.05 乘10000倍,但是這樣可能會造成假陰性,造成富集結果的缺失。
(2)FDR法(Benjamini & Hochberg法)
簡稱BH法。首先將各P值從小到大排序,生成順序數(shù)
排第k的矯正P值=P×n/k
且要保證矯正后的各檢驗的P值大小順序不發(fā)生變化。
歡迎關注~
參考:
http://www.lxweimin.com/p/13f46bebebd4
https://zhuanlan.zhihu.com/p/50863682