MetaboAnalyst是做代謝的R包,功能十分強(qiáng)大。也開(kāi)發(fā)了web版本,代謝組學(xué)的分析這里不介紹,主要講講它開(kāi)發(fā)的多組學(xué)分析的相關(guān)內(nèi)容。
既然是做代謝的工具,即使是增加了多組學(xué)內(nèi)容,肯定也是以代謝為核心。以代謝組為中心的多組學(xué)分析想想無(wú)非就是以下幾點(diǎn):多元變量統(tǒng)計(jì)分析、網(wǎng)絡(luò)分析、pathway分析以及mGWAS或宏組學(xué)等,這個(gè)工具就有網(wǎng)絡(luò)分析和pathway分析。下面我們一起來(lái)試試。
網(wǎng)絡(luò)分析
我們先看看網(wǎng)絡(luò)分析。我這里使用軟件提供的demo數(shù)據(jù),點(diǎn)擊進(jìn)去后,會(huì)有兩種ID類(lèi)型供選擇。第一種是代謝物和基因,示例數(shù)據(jù)來(lái)自轉(zhuǎn)錄組和代謝組的關(guān)聯(lián)分析;第二種是代謝物和KO的關(guān)聯(lián),示例數(shù)據(jù)來(lái)自mGWAS。
我們先用第一種試下。導(dǎo)入后,數(shù)據(jù)格式應(yīng)該是這樣:
提交后,數(shù)據(jù)list會(huì)和數(shù)據(jù)庫(kù)中的ID進(jìn)行匹配,如代謝物會(huì)和HMDB和KEGG中匹配(這就需要我們輸入時(shí)提供這兩種標(biāo)準(zhǔn)的代謝物ID)。
輸入的基因ID可以是Symbol,ENTREZID和EnsembleID,同樣地和KEGG數(shù)據(jù)庫(kù)中K編號(hào)進(jìn)行匹配。
輸入的數(shù)據(jù)如果在數(shù)據(jù)庫(kù)中信息缺失,會(huì)以灰色陰影顯示;如果數(shù)據(jù)庫(kù)中沒(méi)有匹配,則以紅色陰影顯示。
再試下第二種,默認(rèn)基因組是K編號(hào),代謝組是HMDB號(hào)。
同樣輸入ID也要匹配到數(shù)據(jù)庫(kù)中。因此兩種輸入方法殊途同歸。
提交后,會(huì)有五種網(wǎng)絡(luò)分析供選擇。
1.KEGG Global Metabolic Network
這是啥子意思呢?其實(shí)就是映射到了ko01100(Metabolic pathway)這條基礎(chǔ)通路中。
映射的圖比較亂,因?yàn)檫@個(gè)通路太大了:
最上邊調(diào)整圖形,左上角列表是子通路及其對(duì)應(yīng)的信息,左下角是選中的子通路的化合物,右邊我圈出的是化合物映射在pathway中的位置。
這個(gè)圖我覺(jué)得沒(méi)什么太大用,看個(gè)人需求吧。
2. Metabolite-Disease Interaction Network
這個(gè)網(wǎng)絡(luò)是研究代謝物和人類(lèi)疾病的關(guān)聯(lián),關(guān)聯(lián)數(shù)據(jù)是從HMDB獲得的。
可以在這里下載相應(yīng)的相互作用文件(.SIF),導(dǎo)入到Cytoscape中調(diào)節(jié)。我下載看了下,SIF文件格式是這樣的:
沒(méi)搞清楚pp指的是什么。繼續(xù)點(diǎn)“Proceed”,查看下軟件給我們做出的網(wǎng)絡(luò)圖。
我圈出了幾塊內(nèi)容。界面和上面類(lèi)似。化合物列表關(guān)系增加了點(diǎn)度中心性(degree)和中介中心性(betweenness)。從圖我們可以看出,這種網(wǎng)絡(luò)就是闡釋化合物和疾病之間關(guān)系的。右邊增加了一些功能探索按鍵,可分為上下調(diào)。
3. Gene-Metabolite Interaction Network
基因和代謝物互作網(wǎng)絡(luò),這是基于STITCH數(shù)據(jù)庫(kù)的(專(zhuān)門(mén)做小分子互作網(wǎng)絡(luò)的數(shù)據(jù)庫(kù),主要來(lái)自Pubmed)。結(jié)果和第二種網(wǎng)絡(luò)一樣,不再解釋了。也有SIF文件可供下載。
4. Metabolite-Metabolite Interaction Network
代謝物和代謝物互作網(wǎng)絡(luò),也是基于STITCH數(shù)據(jù)庫(kù)。略
5. Metabolite-Gene-Disease Interaction Network
代謝物和基因和疾病的互作網(wǎng)絡(luò),就是將上面的網(wǎng)絡(luò)結(jié)合起來(lái)了。
總結(jié):MetaboAnalyst的網(wǎng)絡(luò)分析主要是基于已有數(shù)據(jù)庫(kù)中的信息,包括和疾病以及小分子互作。沒(méi)有相關(guān)性(spearman)網(wǎng)絡(luò)分析,從輸入的文件沒(méi)有樣本信息就可看出。不過(guò)這種網(wǎng)絡(luò)分析比相關(guān)性網(wǎng)絡(luò)更有生物學(xué)含義。
Pathway關(guān)聯(lián)分析
下面我們看看Pathway的關(guān)聯(lián)。還是使用軟件提供的示例數(shù)據(jù)。可以提供多種基因ID輸入,化合物仍只支持KEGG和HMDB。
檢查輸入ID。
參數(shù)設(shè)置如下:
- 富集分析的方法,超幾何檢驗(yàn)和fisher精確檢驗(yàn)都可;
- 拓?fù)浞治鲆灿腥N選項(xiàng)(點(diǎn)度中心性degree、接近中心性closeness和中介中心性betweenness),代謝組的富集分析要用到拓?fù)浞治觯負(fù)浞治鲋荚诟鶕?jù)給定基因或代謝物在途徑中的位置來(lái)評(píng)估其是否在生物學(xué)反應(yīng)中起重要作用;
- Pathway數(shù)據(jù)庫(kù)既然是關(guān)聯(lián),我們肯定選擇全部(all);
- 整合的方法有兩種:combine queries將基因和代謝物合并到一個(gè)查詢(xún)列表中,以針對(duì)組合的pathway集進(jìn)行富集分析(即經(jīng)典富集分析)。combine p values的方法首先分別對(duì)基因和代謝物進(jìn)行富集分析,然后使用Stouffer方法對(duì)各個(gè)p值進(jìn)行加權(quán)合并。權(quán)重基于映射到該組學(xué)數(shù)據(jù)類(lèi)型中所有路徑的特征的百分比(即基于路徑空間覆蓋率的權(quán)重),這種方法僅適用于基因和代謝物均命中的那些pathway。所以我們最好用第一種。
綜上,我們都用默認(rèn)的參數(shù)就好了。提交后,得到如下結(jié)果:
上面是圖,下面是表。
首先看第一個(gè)圖。典型的KEGG pathway富集氣泡圖。縱軸好理解,P<0.01是閾值,橫軸的Pathway Impact是什么意思呢?這里代謝組的富集分析基于拓?fù)浞治觯▍⒖糓etPA),我特意查了下,Wiki中的解釋是這樣的https://en.wikipedia.org/wiki/Metabolomic_Pathway_Analysis:
MetPA employs a number of topological assessment tools to measure centrality or “hubness” in an objective manner (called Pathway Impact). Pathway impact is a combination of the centrality and pathway enrichment results. It is calculated adding up the importance measures of each of the matched metabolites and then dividing by the sum of the importance measures of all metabolites in each pathway.
可知這里富集是按權(quán)重來(lái)分析的,雖然沒(méi)有富集因子那么簡(jiǎn)單粗暴,但含義是大致一樣的,值越大越好。所以這個(gè)圖看來(lái),處于右上角的pathway是最可信的。
點(diǎn)擊圖中的點(diǎn)或列表中的名稱(chēng)是可以點(diǎn)擊進(jìn)入相應(yīng)的pathway,右圖。不過(guò)右圖顯示的不是完整的pathway,而是一部分(看了幾個(gè)通路,也不知具體為什么這么顯示),點(diǎn)擊圖上pathway或表中KEGG,能鏈接到KEGG官網(wǎng)中。
左邊是每一步過(guò)程,標(biāo)色表明運(yùn)行完成。中間是結(jié)果,可供下載,但生成報(bào)告貌似生成不了,可能有bug吧。右邊是過(guò)程代碼,有R基礎(chǔ)的童鞋可試試。
總結(jié):pathway的聯(lián)合分析以代謝為主,富集分析方法和傳統(tǒng)方法不同。分析還是有限的,比如表達(dá)豐度信息沒(méi)有包含進(jìn)去。簡(jiǎn)單使用,供參考吧。