什么是GSEA?
Gene Set Enrichment Analysis (基因集富集分析)用來評估一個預先定義的基因集的基因在與表型相關度排序的基因表中的分布趨勢,從而判斷其對表型的貢獻。其輸入數據包含兩部分,一是已知功能的基因集 (可以是GO注釋、MsigDB的注釋或其它符合格式的基因集定義),一是表達矩陣 (也可以是排序好的列表),軟件會對基因根據其與表型的關聯度(可以理解為表達值的變化)從大到小排序,然后判斷基因集內每條注釋下的基因是否富集于表型相關度排序后基因表的上部或下部,從而判斷此基因集內基因的協同變化對表型變化的影響。
分析結果如下:
GS:基因集的名字,GO條目的名字
SIZE:GO條目中包含表達數據集文中的基因數目(經過條件篩選后的值);
ES:富集評分;
NES:校正后的歸一化的ES值。由于不同用戶輸入的基因數據庫文件中的基因集數目可能不同,富集評分的標準化考慮了基因集個數和大小。其絕對值大于1為一條富集標準。
NOM p-val:即p-value,是對富集得分ES的統計學分析,用來表征富集結果的可信度;
FDR q-val:即q-value,是多重假設檢驗校正之后的p-value,即對NES可能存在的假陽性結果的概率估計,因此FDR越小說明富集越顯著;
RANK AT MAX:當ES值**時,對應基因所在排序好的基因列表中所處的位置;
(注:GSEA采用p-value<5%,q-value<25%進行數據過濾)
LEADING EDGE:該處有3個統計值,tags=59%表示核心基因占該基因集中基因總數的百分比;list=21%表示核心基因占所有基因的百分比;
對于分析結果中,我們一般認為|NES|>1,NOM p-val<0.05,FDR q-val<0.25的通路是顯著富集的。
最后還有一個該KEGG基因集下每個基因的詳細統計信息表,RANK IN GENE LIST表示在排序好的基因集中所處的位置;RANK METRIC SCORE是基因排序評分,我們這里是Signal2noise;RUNNING ES是分析過程中動態的ES值;CORE ENRICHMENT是對ES值有主要貢獻的基因,即Leading edge subset,在表中以綠色標記。
轉自R語言分析