GSEA-基因集富集分析

1.為什么寫?

網上教程一抓一大把,有的能重復,有的不能重復不了,很多原因。別人能做的不代表你能復制,實踐出真知。

不做搬運工,只寫有用的,防止以后忘記。每個人理解不同,記錄下來,供自己今后參考,順便分享他人。

2.GSEA基本概念

Gene Set Enrichment Analysis

思路:

使用預定義的基因集(通常來自功能注釋或先前實驗的結果),將基因按照在兩類樣本中的差異表達程度排序,然后檢驗預先設定的基因集合是否在這個排序表的頂端或者底端富集。

基因集富集分析檢測基因集合而不是單個基因的表達變化,因此可以包含這些細微的表達變化,預期得到更為理想的結果。

比較GO/KEGG等富集分析:

GO/KEGG差異基因的一刀切法——僅關注少數幾個顯著上調或下調的基因,容易遺漏部分差異表達不顯著卻有重要生物學意義的基因,忽略一些基因的生物特性、基因調控網絡之間的關系及基因功能和意義等有價值的信息。

GSEA不需要指定明確的差異基因閾值,算法根據實際整體趨勢分析。

3.MSigDB數據庫

http://software.broadinstitute.org/gsea/msigdb

定義了已知基因集,包括H和C1-C7八個系列(Collection/cluster),每個系列內容為:

H: hallmark gene sets (效應)特征基因集合,共50組;

C1: positional gene sets 位置基因集合,根據染色體位置,共326個;

C2: curated gene sets:(專家)共識基因集合,基于通路、文獻等(包括KEGG);

C3: motif gene sets:模式基因集合,主要包括microRNA和轉錄因子靶基因兩部分;

C4: computational gene sets:計算基因集合,通過挖掘癌癥相關芯片數據定義的基因集合;

C5: GO gene sets:Gene Ontology 基因本體論(包括BP/CC/MF);

C6: oncogenic signatures:癌癥特征基因集合,大部分來源于NCBI GEO 未發表芯片數據;

C7: immunologic signatures: 免疫相關基因集合。

后續做分析時需要從中選擇感興趣的基因集。

4.分析過程

1)軟件下載(需java環境)

http://software.broadinstitute.org/gsea/downloads.jsp

2)設置

a. 準備基因表達量矩陣文件:txt或gct(最好將基因名轉換為symbol,后續參數不用chip來轉化ID)

image

數據格式可參考:

http://www.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats

測試數據:

http://software.broadinstitute.org/gsea/datasets.jsp

b. 準備說明文件:cls

image

第一行:樣本數/分組數/always1

第二行:分組名

第三行:分組信息(我這里28個上部位,21個下部位)

load data,成功會顯示

c. 選擇已知基因集(即以上8個cluster)

run GSEA,設置參數

Gene sets database:8個cluster及其分支,可多選

image

我這里選擇kegg和all GO,若是想研究更多,可8個cluster全部選擇all。

d. 設置參數

Required fields

expression dataset:選擇表達量文件

number of permutations:置換次數,越大越好,但對計算有要求,我選擇500

phenotype labels:選擇表型說明文件cls

collapse dataset to gene symbols:若是gene symbols編號,選擇false(我這里已經提前轉換),否則選擇true,即用chip來對ID轉換

permutation type:置換類型,#一般每組樣本數目大于7個時,建議選擇phenotype,否則選擇gene sets,官方文檔有說明#,我這里還是選擇gene_set

chip platform:和上面gene symbols參數對應,不需轉換不用選擇,否則選擇對應的芯片

Basic fields

analysis name:項目名

save results in this folder:結果保存路徑

image

其他我都設置為默認,沒有深加探索,可看官網,最后點run

GSEA運行的原理可分為三步:1) 計算富集分數(Enrichment Score,ES);2) 估計富集分數的顯著性水平;3) 矯正多重假設檢驗。

完成后顯示:

image

5.結果解讀

保存文件路徑中生成一堆文件:

image

最常看的是這種圖:

image
image

** 原理:**

根據所有基因在兩組樣本(case-control,我這里是upper-lower)的差異度量不同(共有六種差異度量,默認是signal 2 noise,GSEA官網有提供公式,也可以選擇大家熟悉的foldchange),根據差異度量大小排序,并且Z-score標準化。圖中間的豎杠,就是每個gene set里的基因在所有排序好基因的位置,如果gene set里的基因集中在所有基因的前部分,就是在case里面富集,如果集中在后面部分,就是在control里面富集著(結果中的熱圖就是豎杠的具象)。

我們一般關注ES值,峰出現在前端還是后端(ES值大于0在前端,小于0在后端)以及Leading-edge subset(即對富集貢獻最大的部分,領頭亞集);在ES圖中出現領頭亞集的形狀,表明這個功能基因集在某處理條件下具有更顯著的生物學意義。

ES算法:

image

每個基因在gene set里的ES score取決于這個基因是否屬于該gene set及其差異度量,上圖的差異度量就是FC(foldchange),將每個gene set里的所有基因的ES score一個個加起來,叫running ES score,直到ES score達到最大值,就是這個gene set最終的ES score。

可以一一查看每個圖,也可點擊上面的GSEA reports查看success的網頁報告:

image

gsea_report報告結果中會有一個類似下圖的表格,主要關注這三個部分:

  1. 標準化富集分數(NES);

  2. 標準化顯著性水平(NOM p-val);

  3. 矯正多重假設檢驗(FDR q-val);

一般認為NES絕對值≧ 1.0,NOM p-val ≦ 0.05,FDR q-val ≦ 0.25是有意義的基因集合,當然也要結合具體情況具體分析。

image

如果英語好,直接看官方文檔,很詳細:http://www.gsea-msigdb.org/gsea/doc/GSEAUserGuideFrame.html?_Interpreting_GSEA_Results

References:

https://mp.weixin.qq.com/s/NnRfeTLDb-42a8CV3kymZQ

http://www.bio-info-trainee.com/1282.html

http://www.bioinfo-scrounger.com/archives/557

https://mp.weixin.qq.com/s?src=11&timestamp=1535510844&ver=1089&signature=2333yjeN-l1IB5KVYybBbDKOujytHQe8id7ztWsR0aSthe-uW2tNRlCloBh4TGFffss0ky9UrcuqEkmLBug2PC*LQN79FaHzZEe-c5eGtBQ-8UacB1NqZHTQcw0BuZIX&new=1

https://mp.weixin.qq.com/s?__biz=MzAwMzY4MTYxNw==&mid=2655754973&idx=1&sn=3b87d5cb8ddd2d5d77e413e9a87342da&chksm=808846e3b7ffcff5a6b41985b707f52170f20eabe15fc43264b3d14a3ccf4100263789eab856&mpshare=1&scene=21&srcid=1209nycSnM84dUY4eRL3cWBP#wechat_redirect

https://mp.weixin.qq.com/s?__biz=MzAwMzY4MTYxNw==&mid=2655753566&idx=2&sn=5b5b2c93a7618a69da2cbc6638f03da0&chksm=80884960b7ffc076af53ae74caadb5dbb25d240c31660792e8727964d0177d6a17af7ca5fc5c&mpshare=1&scene=21&srcid=1209df2mYAyd4WSClBsfwGwb#wechat_redirect

ES算法:http://www.baderlab.org/CancerStemCellProject/VeroniqueVoisin/AdditionalResources/GSEA

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,622評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,716評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,746評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,991評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,706評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,036評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,029評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,203評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,725評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,451評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,677評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,161評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,857評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,266評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,606評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,407評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,643評論 2 380

推薦閱讀更多精彩內容