今天經(jīng)人提醒才發(fā)現(xiàn)自己對(duì)GSEA的理解完全錯(cuò)誤,也怪自己沒認(rèn)真看文獻(xiàn)和資料。重點(diǎn)理解:
一般的差異分析(GO和Pathway)往往側(cè)重于比較兩組間的基因表達(dá)差異,集中關(guān)注少數(shù)幾個(gè)顯著上調(diào)或下調(diào)的基因,這容易遺漏部分差異表達(dá)不顯著卻有重要生物學(xué)意義的基因,忽略一些基因的生物特性、基因調(diào)控網(wǎng)絡(luò)之間的關(guān)系及基因功能和意義等有價(jià)值的信息。而GSEA不需要指定明確的差異基因閾值,算法會(huì)根據(jù)實(shí)際數(shù)據(jù)的整體趨勢(shì), 為研究者們提供了一種合理地解決目前芯片分析瓶頸問題的方法,即使在沒有先驗(yàn)經(jīng)驗(yàn)存在的情況下也能在表達(dá)譜整體層次上對(duì)數(shù)條基因進(jìn)行分析,從而從數(shù)理統(tǒng)計(jì)上把表達(dá)譜芯片數(shù)據(jù)與生物學(xué)意義很好地銜接起來(lái),使得研究者們能夠更輕松、更合理地解讀芯片結(jié)果。
目前,市面上絕大多數(shù)公司在求得差異基因列表后,都會(huì)在此之上提供給客戶Pathway 以及GO 富集分析,畢竟給予成百上千的差異表達(dá)基因以簡(jiǎn)潔、明晰的生物學(xué)功能的概括,才是進(jìn)行高通量生物學(xué)表達(dá)譜實(shí)驗(yàn)的主要目的。然而,在實(shí)際應(yīng)用于生物學(xué)高通量數(shù)據(jù)時(shí),它們都有一個(gè)重大的缺陷:對(duì)于差異基因檢出的閾值,異常的敏感,客戶需要給出差異基因的一個(gè)明確的定義(閾值),例如abs(FC) ≧2.0 & p ≦ 0.05。這種一刀切的閾值,對(duì)于發(fā)現(xiàn)真正的生物學(xué)效應(yīng),許多時(shí)候是一種障礙,因?yàn)閷?shí)際通過芯片觀測(cè)到的RNA 表達(dá)變化,往往是層層的負(fù)反饋調(diào)控后的結(jié)果,并且不同組織對(duì)于表達(dá)差異的敏感度是不同的:在神經(jīng)遞質(zhì)系統(tǒng)內(nèi),一個(gè)1.2 倍的表達(dá)差異即可能產(chǎn)生及其顯著的效應(yīng)。
GSEA與其他下游分析的重要區(qū)別在于它使用的不是差異基因集而是經(jīng)排序(p值或者logFC)的全部基因列表。
全文鏈接:GSEA分析是什么鬼
我果然還是太菜~