跟著Cell學(xué)作圖|7.富集分析(Metascape數(shù)據(jù)庫)
“實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)。”
“復(fù)現(xiàn)是學(xué)習(xí)R語言的最好辦法。”
這篇2020年發(fā)表在cell
上關(guān)于新冠的組學(xué)文章里面有大量的生信內(nèi)容。今天帶大家復(fù)現(xiàn)其中的一個Supplemental Figure
:富集分析
。
22
本文示例數(shù)據(jù)領(lǐng)取:后臺回復(fù)“20210430”
富集分析
基因功能富集分析,是指借助各類數(shù)據(jù)庫和分析工具進(jìn)行統(tǒng)計(jì)分析,挖掘在數(shù)據(jù)庫中與我們要研究的生物學(xué)問題具有顯著相關(guān)性的基因功能類別。它的統(tǒng)計(jì)原理是用超幾何分布型來檢驗(yàn)一組基因(共表達(dá)或差異表達(dá))中某個功能類的顯著性,通過離散分布的顯著性分析、富集度分析和假陽性分析, 得出與實(shí)驗(yàn)?zāi)康挠酗@著關(guān)聯(lián)的、低假陽性率的及靶向性的基因功能類別。
Metascape數(shù)據(jù)庫
Metascape
將40多種生物信息學(xué)知識庫整合到一個單一的用戶界面中。數(shù)據(jù)庫更新更快,效果更好。輸出結(jié)果容易理解,圖表質(zhì)量較高。整合了GO
、KEGG
、UniProt
和DrugBank
等多個權(quán)威的數(shù)據(jù)資源,使其不僅能完成通路富集和生物過程注釋,還能做基因相關(guān)的蛋白質(zhì)網(wǎng)絡(luò)分析和涉及到的藥物分析。
繪制
1. 打開數(shù)據(jù)庫
2. 輸入文件格式
其他格式可點(diǎn)擊示例數(shù)據(jù)查看:
3. 粘貼基因列表或者上傳基因文件
點(diǎn)擊Submit
提交。
4.設(shè)置物種
5. 開始富集
-
可以直接點(diǎn)擊
Express Analysis
。默認(rèn)的
Express Analysis
會把許多個數(shù)據(jù)庫,如Reactome、KEGG、Hallmark和GO數(shù)據(jù)庫全部一起展示。 點(diǎn)擊
custome Analysis
進(jìn)行設(shè)置。
我們以GO富集
為例:
選好后,點(diǎn)擊左上角enrichment analysis
。
分析時,基因組中的所有基因都被用作富集背景基因。默認(rèn)閾值為,p< 0.01
、最小計(jì)數(shù)為3
、富集因子> 1.5
(富集因子是觀察到的計(jì)數(shù)和偶然期望的計(jì)數(shù)之間的比率)的條目被收集,并根據(jù)它們的隸屬關(guān)系相似性分組到集群中。
6. 結(jié)果
打開圖片,可保存為PDF.
其他數(shù)據(jù)庫,如KEGG
,步驟類似。
寫在后面:
本系列重在復(fù)現(xiàn),所以有些細(xì)節(jié)可能講的不是很詳細(xì)。大家有問題可以后臺私信,或者在我的B站:
木舟筆記
進(jìn)行互動!制作不易,謝謝大家多多支持!
往期內(nèi)容:
跟著Cell學(xué)作圖 | 2.柱狀圖+誤差棒+散點(diǎn)+差異顯著性檢驗(yàn)