上一篇GSEA可以做什么之后,繼續進行結果解讀
1 Enrichment score(ES)
ES是GSEA最初的結果,反應全部雜交data排序后,在此序列top或bottom富集的程度。
ES原理:掃描排序序列,當出現一個功能集中的gene時,增加ES值,反之減少ES值,所以ES是個動態值。最終ES的確定是講雜交數據排序序列所在位置定義為0,ES值定義為距離排序序列的最大偏差.
ES為正,表示某一功能gene集富集在排序序列前方
ES為負,表示某一功能gene集富集在排序序列后方。
圖中的最高點為此通路的ES值,中間表示雜交數據的排序序列。豎線表示此通路中出現的芯片數據集中的gene。
2 NES
由于ES是根據分析的數據集中的gene是否在一個功能gene set中出現來計算的,但各個功能gene set中包含的gene數目不同,且不同功能gene set與data之間的相關性也不同,因此,比較data set在不同功能gene set中的富集程度要對ES進行標準化處理,,也就是NES
NES=某一功能gene set的ES/數據集所有隨機組合得到的ES平均值
NES是主要的統計量。
3 FDR
NES確定后,判斷其中可能包含的錯誤陽性發現率。FDR=25%意味著對此NES的確定,4次可能錯 1次。GSEA結果中,高亮顯示FDR<25%的富集set。因為從這些功能gene中最可能產生有意義的假設,促進進一步研究。大多數情況下,選FDR<25%是合適的,但是,假如分析的芯片data set較少,選擇的是探針隨機組合而不是表型組合,若p不嚴格,那么應該選FDR<5%。
一般而言,NES絕對值越大,FDR值就越小,說明富集程度高,結果可靠。
4 名義p值 nominal p-value
描述的是針對某一功能gene子集得到的富集得分的統計顯著性,顯然,p越小,富集性越好。
以上4個參數中,只有FDR進行了功能gene子集大小和多重假設檢驗矯正,而p值沒有,因此,如果結果中有一個高度富集的功能gene子集,而其有很小的名義p-value和大的FDR意味著富集并不顯著。
我的一個具體結果解讀:
92/681 gene sets are upregulated in PH
0 gene sets are significantly enriched at FDR<25%
1 gene sets are significantly enriched at n p-value <1%
1 gene sets are significantly enriched at n p-value <5%
在選擇的BP中,有681個gene sets,92個PH中上調,其中75%的正確率支持0條子集上調,1個BP的gene表達上調名義p值<0.01。總體結果并不理想。
備注
GSEA富集結果太少說明:
無gene set被富集。
可能是因為分析的樣本太少,關注的生物信息太微弱,或正在分析的功能集不能很好代表你所關心的生物過程,但仍然可以看下top ranked gene sets,這些信息可能會為你的假說提供微弱的證據。當然也可以嘗試考慮分析其他gene sets,或增加samples
GSEA富集結果太多說明:
太多的功能子集被富集了。
可能是因為很多的gene sets代表同一生物信號,這可以在gene sets中查看leading edge sbusets來查看。或者也可以查看具體區別進行加工,比如samples來自不同labs,操作者不一樣等。