概念
FDR,Q value,adjust p value
p-value:衡量一次檢驗假陽性率的指標(False positive rate) ;
q value:衡量錯誤發(fā)現(xiàn)率的指標(False discovery rate,簡稱FDR,所有檢驗中假陽性的概率)。即使用Q value的這個參 數(shù)預(yù)估FDR。Q value 需要利用公式從p value 校正計算后得到,所以Q value 通常又被稱為adjusted p value。所以一般情況下:我們可以認為Q value = FDR = adjusted p value,即三者是一個東西,雖然有些定義上的細微區(qū)別,但是問題也不大。
FDR
主要使用的校正辦法有兩種:Bonferroni 校正;FDR(FalseDiscovery Rate) 校正
1.Bonferroni 校正
Bonferroni 校正法可以稱作是“最簡單粗暴有效”的校正方法,它拒絕了所有的假陽性結(jié)果發(fā)生的可能性,通過對p值的閾值進行校正來實現(xiàn)消除假陽性結(jié)果。
Bonferroni 校正的公式為p*(1/n),其中p為原始閾值,n為總檢驗次數(shù)。
如果像我們舉的例子一樣,原始的P值為0.05,檢驗次數(shù)為10000次,那么在Bonferroni 校正中,校正的閾值就等于5%/ 10000 = 0.000005,所有P值超過0.00005的結(jié)果都被認為是不可靠的。這樣的話假陽性結(jié)果在10000次檢驗中出現(xiàn)的次數(shù)為 10000 * 0.000005 =0.5,還不到1次。
但是這也存在問題:Bonferroni 委實太過嚴格,被校正后的閾值拒絕的不只有假陽性結(jié)果,很多陽性結(jié)果也會被它拒絕。
2.FDR(FalseDiscovery Rate) 校正
相對Bonferroni 來說,F(xiàn)DR溫和得多,這種校正方法不追求完全沒有假陽性結(jié)果,而是將假陽性結(jié)果和真陽性的比例控制在一定范圍內(nèi)。
舉個例子,我們最開始設(shè)定的情況中進行了10000次檢驗,這次我們設(shè)定FDR<0.05,如果我們的檢驗對象為差異表達的基因,那么在10000次檢驗中假如得到了500個基因,那么這500個基因中的假陽性結(jié)果小于 500*5% = 25 個。
FDR的計算方法有很多種,這里介紹一個比較常用的:
BH(Benjaminiand Hochberg)法:
BH 法需要將總計m次檢驗的結(jié)果按由小到大進行排序,k為其中一次檢驗結(jié)果的P值所對應(yīng)的排名。
找到符合原始閾值α的最大的k值,滿足P(k)<=α*k/m,認為排名從1到k的所有檢驗存在顯著差異,并計算對應(yīng)的q值公式為q = p*(m/k)。
舉個例子,如果我們有總共六個結(jié)果進行FDR校正:
image
按α=0.05進行計算:
排名第四的 P (4) = 0.03 < 0.05*4/6 = 0.033,符合要求
排名第五的 P (5)= 0.045 > 0.05*5/6 = 0.041,不滿足P(k)<=α*k/m,因此在這個列表里排名前四的G2,G6,G5,G4 為具有顯著差異的基因。
我們也可以用q值進行FDR校正:
image
G3的q值大于0.05,故G2,G6,G5,G4 為具有顯著差異的基因。
參考:
中科院生物信息學(xué)復(fù)習題圖文百度文庫
多重檢驗校正
多重假設(shè)檢驗:Bonferroni 和 FDR