GOplot包介紹
GOplot包用于生物數據的可視化。更確切地說,該包將表達數據與功能分析的結果整合并進行可視化。但是要注意該包不能用于執行這些分析,只能把分析結果進行可視化。在所有科學領域,由于空間限制和結果所需的簡潔性,切實地去描述事物很難,所以需要將信息進行可視化,使用圖片來傳達信息。精心設計的圖形能在更小的空間提供更多的信息。該包的設想就是能讓用戶快速檢查大量數據,揭示數據的趨勢和找出數據中的模式和相關性。
數據可視化可以幫助我們去尋找生物問題的答案,也可以對某一假設進行判斷,甚至可能發現不同的角度來調查不同的問題。并且該包的畫圖函數是以數據的層次結構為基礎進行開發的,從整體數據開始,以所選基因和對應通路的子集結束。
讓我們用例子來具體解釋。
舉例說明
我們調用GOplot自帶的數據,該數據來自于GEO的GSE47067
,包含來自兩個組織(腦和心臟)的內皮細胞的轉錄組信息,更多信息詳見Nolan等人的論文https://www.ncbi.nlm.nih.gov/pubmed/23871589,然后將數據進行標準化處理并尋找差異表達的基因,再使用DAVID功能注釋工具(DAVID注釋數據更新比較慢,現在已經不太推薦,建議用去東方,最好用的在線GO富集分析工具和這個只需一步就可做富集分析的網站還未發表就被CNS等引用超過350次進行富集分析, 一文掌握GSEA,超詳細教程)對差異表達基因進行基因注釋(adjusted p-value < 0.05
)和功能富集分析。該數據集包含以下五類數據:
名稱 | 描述 | 數據集大小 |
---|---|---|
EC$eset | 進行標準化后的腦和心臟內皮細胞(3次重復)基因表達量 | 20644 x 7 |
EC$genelist | 差異表達基因(adjusted p-value < 0.05) | 2039 x 7 |
EC$david | 用DAVID對差異基因進行功能富集分析的結果 | 174 x 5 |
EC$gene | 基因和logFC | 37 x 2 |
EC$process | 選擇的富集生物過程的特征向量 | 7 |
了解數據格式
我們希望查看差異表達基因的GO富集通路,但在我們開始畫圖之前我們需要提供符合格式需求的數據。通常來說,畫圖所需的數據是自己提供,但該包內有一個函數circle_dat
可以幫我們處理數據格式。circle_dat
能合并所選擇的基因的功能富集分析結果及其logFC值,主要是用于差異表達基因。circle_dat
的使用很簡單,只要讀入兩個數據即可。第一個數據包含功能富集分析結果,至少有四列(功能富集分析類別、通路、基因、adjusted p-value)。第二個數據是所選基因的及其logFC,該數據可以是來源limma
統計分析的結果 (生信寶典注:一定注意兩個文件基因的命名方式要一致,比如都是Gene symbol
)。我們用實例來看以上提到的數據格式。
#安裝已發布的穩定版本
#install.packages('GOplot')
#安裝github上的開發版本
#install_github('wencke/wencke.github.io')
#載入包
library(GOplot)
#讀入包內自帶的數據
data(EC)
#查看功能富集分析結果的數據格式
head(EC$david)
## Category ID Term
## 1 BP GO:0007507 heart development
## 2 BP GO:0001944 vasculature development
## 3 BP GO:0001568 blood vessel development
## 4 BP GO:0048729 tissue morphogenesis
## 5 BP GO:0048514 blood vessel morphogenesis
## 6 BP GO:0051336 regulation of hydrolase activity
## Genes
## 1 DLC1, NRP2, NRP1, EDN1, PDLIM3, GJA1, TTN, GJA5, ZIC3, TGFB2, CERKL, GATA6, COL4A3BP, GAB1, SEMA3C, MKL2, SLC22A5, MB, PTPRJ, RXRA, VANGL2, MYH6, TNNT2, HHEX, MURC, MIB1, FOXC2, FOXC1, ADAM19, MYL2, TCAP, EGLN1, SOX9, ITGB1, CHD7, HEXIM1, PKD2, NFATC4, PCSK5, ACTC1, TGFBR2, NF1, HSPG2, SMAD3, TBX1, TNNI3, CSRP3, FOXP1, KCNJ8, PLN, TSC2, ATP6V0A1, TGFBR3, HDAC9
## 2 GNA13, ACVRL1, NRP1, PGF, IL18, LEPR, EDN1, GJA1, FOXO1, GJA5, TGFB2, WARS, CERKL, APOE, CXCR4, ANG, SEMA3C, NOS2, MKL2, FGF2, RAPGEF1, PTPRJ, RECK, EFNB2, VASH1, PNPLA6, THY1, MIB1, NUS1, FOXC2, FOXC1, CAV1, CDH2, MEIS1, WT1, CDH5, PTK2, FBXW8, CHD7, PLCD1, PLXND1, FIGF, PPAP2B, MAP2K1, TBX4, TGFBR2, NF1, TBX1, TNNI3, LAMA4, MEOX2, ECSCR, HBEGF, AMOT, TGFBR3, HDAC7
## 3 GNA13, ACVRL1, NRP1, PGF, IL18, LEPR, EDN1, GJA1, FOXO1, GJA5, TGFB2, WARS, CERKL, APOE, CXCR4, ANG, SEMA3C, NOS2, MKL2, FGF2, RAPGEF1, PTPRJ, RECK, VASH1, PNPLA6, THY1, MIB1, NUS1, FOXC2, FOXC1, CAV1, CDH2, MEIS1, WT1, CDH5, PTK2, FBXW8, CHD7, PLCD1, PLXND1, FIGF, PPAP2B, MAP2K1, TBX4, TGFBR2, NF1, TBX1, TNNI3, LAMA4, MEOX2, ECSCR, HBEGF, AMOT, TGFBR3, HDAC7
## 4 DLC1, ENAH, NRP1, PGF, ZIC2, TGFB2, CD44, ILK, SEMA3C, RET, AR, RXRA, VANGL2, LEF1, TNNT2, HHEX, MIB1, NCOA3, FOXC2, FOXC1, TGFB1I1, WNT5A, COBL, BBS4, FGFR3, TNC, BMPR2, CTNND1, EGLN1, NR3C1, SOX9, TCF7L1, IGF1R, FOXQ1, MACF1, HOXA5, BCL2, PLXND1, CAR2, ACTC1, TBX4, SMAD3, FZD3, SHANK3, FZD6, HOXB4, FREM2, TSC2, ZIC5, TGFBR3, APAF1
## 5 GNA13, CAV1, ACVRL1, NRP1, PGF, IL18, LEPR, EDN1, GJA1, CDH2, MEIS1, WT1, TGFB2, WARS, PTK2, CERKL, APOE, CXCR4, ANG, SEMA3C, PLCD1, NOS2, MKL2, PLXND1, FIGF, FGF2, PTPRJ, TGFBR2, TBX4, NF1, TBX1, TNNI3, PNPLA6, VASH1, THY1, NUS1, MEOX2, ECSCR, AMOT, HBEGF, FOXC2, FOXC1, HDAC7
## 6 CAV1, XIAP, AGFG1, ADORA2A, TNNC1, TBC1D9, LEPR, ABHD5, EDN1, ASAP2, ASAP3, SMAP1, TBC1D12, ANG, TBC1D14, MTCH1, TBC1D13, TBC1D4, TBC1D30, DHCR24, HIP1, VAV3, NOS1, NF1, MYH6, RICTOR, TBC1D22A, THY1, PLCE1, RNF7, NDEL1, CHML, IFT57, ACAP2, TSC2, ERN1, APAF1, ARAP3, ARAP2, ARAP1, HTR2A, F2R
## adj_pval
## 1 0.000002170
## 2 0.000010400
## 3 0.000007620
## 4 0.000119000
## 5 0.000720000
## 6 0.001171166
#查看基因的數據格式
head(EC$genelist)
## ID logFC AveExpr t P.Value adj.P.Val B
## 1 Slco1a4 6.645388 1.2168670 88.65515 1.32e-18 2.73e-14 29.02715
## 2 Slc19a3 6.281525 1.1600468 69.95094 2.41e-17 2.49e-13 27.62917
## 3 Ddc 4.483338 0.8365231 65.57836 5.31e-17 3.65e-13 27.18476
## 4 Slco1c1 6.469384 1.3558865 59.87613 1.62e-16 8.34e-13 26.51242
## 5 Sema3c 5.515630 2.3252117 58.53141 2.14e-16 8.81e-13 26.33626
## 6 Slc38a3 4.761755 0.9218670 54.11559 5.58e-16 1.76e-12 25.70308
了解了兩個輸入數據格式后,就可以用cirlce_dat
函數來生成畫圖數據了。
# 生成畫圖所需的數據格式
circ <- circle_dat(EC$david, EC$genelist)
head(circ)
## category ID term count genes logFC adj_pval
## 1 BP GO:0007507 heart development 54 DLC1 -0.9707875 2.17e-06
## 2 BP GO:0007507 heart development 54 NRP2 -1.5153173 2.17e-06
## 3 BP GO:0007507 heart development 54 NRP1 -1.1412315 2.17e-06
## 4 BP GO:0007507 heart development 54 EDN1 1.3813006 2.17e-06
## 5 BP GO:0007507 heart development 54 PDLIM3 -0.8876939 2.17e-06
## 6 BP GO:0007507 heart development 54 GJA1 -0.8179480 2.17e-06
## zscore
## 1 -0.8164966
## 2 -0.8164966
## 3 -0.8164966
## 4 -0.8164966
## 5 -0.8164966
## 6 -0.8164966
circ
對象有八列數據,分別是
category:BP(生物過程),CC(細胞組分)或 MF(分子功能)
ID: GO id(可選列, 想使用不基于GO id的功能分析工具,可以不選ID列;這里的ID也可以是KEGG ID)
term:GO通路
count:每個通路的基因個數
gene:基因名 - logFC:每個基因的logFC值
adj_pval:adjusted p值,adj_pval<0.05的通路被認為是顯著富集的
zscore:zscore不是指統計學的標準化方式,而是一個很容易計算的值,來估計生物過程(/分子功能/細胞成分)更可能降低(負值)或增加(正值)。計算方法就是上調基因的數量減去下調基因的數量再除以每個通路基因數目的平方根
畫圖
GOBar–條形圖
最開始查看數據時,我們希望能從圖中展示盡可能多的通路,并且也希望能找到有價值的通路,因此需要一些參數來評估重要性。條形圖經常用于描述樣本數據,故而我們可以用GOBar函數能快速創建一個好看的的條形圖。
首先直接生成一個簡單的條形圖,橫軸是GO Terms
,根據它們的zscore
對條進行排序;縱軸是 -log(adj p-value)
;顏色表示的是zscore
,藍色表示z-score
是負值,在對應通路基因表達更可能下降,紅色表示z-score
是正值,在對應通路基因表達更可能升高。如果需要,可以通過將參數order.by.zscore設置為FALSE來更改順序,在這種情況下條形圖基于它們的顯著性進行排序。
# 生成簡單的條形圖
GOBar(subset(circ, category == 'BP'))
#GOBar(subset(circ, category == 'BP',order.by.zscore=FALSE))
另外,通過更改display參數來根據通路的類別來繪制條形圖。
#根據通路的類別來繪制條形圖
GOBar(circ, display = 'multiple')
添加標題,并使用參數zsc.col
更改zscore
的顏色。
# Facet the barplot, add a title and change the colour scale for the z-score
GOBar(circ, display = 'multiple', title = 'Z-score coloured barplot', zsc.col = c('yellow', 'black', 'cyan'))
條形圖是很常見的,也很容易理解,但我們可以使用氣泡圖來顯示數據更多信息。
GOBubble–泡泡圖
橫軸是zscore
;縱軸是-log(adj p-value)
,類似于條形圖,越高表示富集越顯著;圓的面積與對應通路的的基因數(circ$count
)成正比;顏色對應于該通路所對應的類別,綠色生物過程,紅色是細胞組分,藍色是分子功能。可通過輸入?GOBubble
查看GOBubble函數的幫助頁面來更改圖片的所有參數。在默認情況下,每個圓標有對應的GO ID,右側也會隨之顯示GO ID和GO term對應關系的表。可通過設置參數table.legend
為FALSE
來隱藏它。如果要顯示通路描述,請設置參數ID為FALSE。不過由于空間有限和圓重疊,并非所有圓都被標記,只顯示了-log(adj p-value) > 3
(默認是5)的通路。
# 生成泡泡圖,并展示-log(adj p-value) > 3 的通路的
GO IDGOBubble(circ, labels = 3)
若給泡泡圖要添加標題,或指定圓圈的顏色并單獨展示各類別的通路并更改展示的GO ID閾值,可添加以下參數:
GOBubble(circ, title = 'Bubble plot', colour = c('orange',
'darkred', 'gold'), display = 'multiple', labels = 3)
通過將參數bg.col設置為TRUE,為通路的類別的背景著色。
GOBubble(circ, title = 'Bubble plot with background colour', display = 'multiple', bg.col = T, labels = 3)
新版本的包中包含一個新函數reduce_overlap
,該函數可以減少冗余項的數量,即能刪除基因重疊大于或等于設定閾值的所有通路,只將每組的一個通路作為代表保留,而不考慮GO所有通路的展示。通過減少冗余項的數量,圖的可讀性(如氣泡圖)顯著改善。
# reduce_overlap,參數設置為0.75
reduced_circ <- reduce_overlap(circ, overlap = 0.75)
GOBubble(reduced_circ, labels = 2.8)
GOCircle–圈圖展示基因功能富集分析結果
雖然展示所有信息的圖有助于我們發現哪些通路最有意義,不過實際情況還是取決于你想要用數據確認的假設和想法,最重要的通路也不一定是你感興趣的。因此,在手動選擇一組有價值的通路(EC$process
)后,我們需要一張圖為我們展示此組特定通路的更詳細的信息。不過通過呈現這些圖能得出一個問題:有時很難解釋zscore
提供的信息。畢竟這個計算方法并不通用,如上所示,它僅僅是上調基因的數量減去下調基因的數量除以每個通路基因數目的平方根,用GOCircle
得出的圖也強調了這一事實。
圈圖外圈的圓用散點展示了每個通路的基因的logFC值。紅色圓圈表示上調和藍色表示下調。可以使用參數lfc.col
更改顏色。這也解釋了為什么在某些情況下,非常重要的通路具有接近零的zscore。zscore為零并不意味著該通路不重要。它只是表明zscore是粗略的衡量標準,因為顯然zscore也沒有考慮生物過程中單個基因的功能水平和激活依賴性。
GOCircle(circ)
nsub
參數可是設置數字或字符向量。如果它是字符向量,則它包含要顯示的GO ID或通路;
# 生成特定通路的圈圖
IDs <- c('GO:0007507', 'GO:0001568', 'GO:0001944', 'GO:0048729', 'GO:0048514', 'GO:0005886', 'GO:0008092', 'GO:0008047')
GOCircle(circ, nsub = IDs)
如果nsub是數字向量,則該數字定義顯示的個數。它從輸入數據幀的第一行開始。這種可視化僅適用于較小的數據。最大通路數默認為12。雖然通路數量減少,但顯示的信息量會增加。
# 圈圖展示數據前十個通路
GOCircle(circ, nsub = 10)
GOChord–圈圖展示基因和通路之間的關系
GOChord能展示了所選基因和通路之間的關系和基因的logFC。首先需要輸入一個矩陣,可以自己構建0-1
矩陣,也可以使用函數chord_dat
構建。該函數有三個參數:data,genes和process,其中最后兩個參數至少要有一個參數。然后函數circle_dat
將表達數據與功能分析的結果相結合。
條形圖和氣泡圖可以讓您對數據有第一印象,現在,可以選擇了一些我們認為有價值的基因和通路,盡管GOCircle添加了一個層來顯示基因在通路的表達值,但它缺乏單個基因和多個通路之間關系的信息。要弄清楚某些基因是否與多個過程相關聯并不容易。GOChord就彌補了GOCircle的缺陷。生成的數據行是基因,列是通路,“0”表示該基因未被分配到該通路,“1”正相反。
# 找到感興趣的的基因,這里我們以EC$genes為例
head(EC$genes)
## ID logFC
## 1 PTK2 -0.6527904
## 2 GNA13 0.3711599
## 3 LEPR 2.6539788
## 4 APOE 0.8698346
## 5 CXCR4 -2.5647537
## 6 RECK 3.6926860
# 獲得感興趣基因的通路
EC$process
## [1] "heart development" "phosphorylation"
## [3] "vasculature development" "blood vessel development"
## [5] "tissue morphogenesis" "cell adhesion"
## [7] "plasma membrane"
# 使用chord_dat構建矩陣
chord <- chord_dat(circ, EC$genes, EC$process)
head(chord)
## heart development phosphorylation vasculature development
## PTK2 0 1 1
## GNA13 0 0 1
## LEPR 0 0 1
## APOE 0 0 1
## CXCR4 0 0 1
## RECK 0 0 1
## blood vessel development tissue morphogenesis cell adhesion
## PTK2 1 0 0
## GNA13 1 0 0
## LEPR 1 0 0
## APOE 1 0 0
## CXCR4 1 0 0
## RECK 1 0 0
## plasma membrane logFC
## PTK2 1 -0.6527904
## GNA13 1 0.3711599
## LEPR 1 2.6539788
## APOE 1 0.8698346
## CXCR4 1 -2.5647537
## RECK 1 3.6926860
示例中我們傳遞了兩個參數,若只指定genes參數,則結果是所選基因列表和具有至少一個指定基因的所有過程構建0-1
矩陣;若只指定了process
參數,則結果是所有基因生成0-1
矩陣,這些基因分配給列表中的至少一個過程。要注意只指定genes和process參數可能會導致0-1矩陣很大,從而導致可視化結果混亂。
head(circ)
## category ID term count genes logFC adj_pval
## 1 BP GO:0007507 heart development 54 DLC1 -0.9707875 2.17e-06
## 2 BP GO:0007507 heart development 54 NRP2 -1.5153173 2.17e-06
## 3 BP GO:0007507 heart development 54 NRP1 -1.1412315 2.17e-06
## 4 BP GO:0007507 heart development 54 EDN1 1.3813006 2.17e-06
## 5 BP GO:0007507 heart development 54 PDLIM3 -0.8876939 2.17e-06
## 6 BP GO:0007507 heart development 54 GJA1 -0.8179480 2.17e-06
## zscore
## 1 -0.8164966
## 2 -0.8164966
## 3 -0.8164966
## 4 -0.8164966
## 5 -0.8164966
## 6 -0.8164966
# Generate the matrix with a list of selected genes
chord_genes <- chord_dat(data = circ, genes = EC$genes)
head(chord_genes)
## heart development vasculature development blood vessel development
## PTK2 0 1 1
## GNA13 0 1 1
## LEPR 0 1 1
## APOE 0 1 1
## CXCR4 0 1 1
該圖表是為了展示較小的高維數據的子集。主要可以調整兩個參數:gene.order
和nlfc
。genes參數可指定為’logFC’,‘alphabetical’,‘none’。實際上,我們一般指定genes參數為logFC;nlfc參數是這個函數最重要的參數之一,因為它能處理每個基因有0個或多個logFC值怎么在矩陣呈現。故而我們應該指定參數來避免錯誤。
例如,如果有一個沒logFC值的矩陣,則必須設置nlfc=0
;或者在多個條件或批次對基因進行差異表達分析,這時每個基因包含多個logFC值,需要設置nlfc=logFC列數。默認值為“1”,因為認為大多數時候每個基因只有一個logFC值。用space參數定義表示logFC的彩色矩形之間的空間。gene.size參數規定基因名字字體大小,gene.space規定基因名字間的空間大小。
chord <- chord_dat(data = circ, genes = EC$genes, process = EC$process)
GOChord(chord, space = 0.02, gene.order = 'logFC', gene.space = 0.25, gene.size = 5)
## Warning: Using size for a discrete variable is not advised.
## Warning: Removed 7 rows containing missing values (geom_point).
可根據logFC值設定gene.order=‘logFC’
,對基因按照logFC值進行排序。有時圖片會變得有點擁擠,可以通過使用limit參數自動執行減少顯示的基因或通路的數量。Limit是具有兩個截止值的向量(默認值是c(0,0))。第一個值規定了基因必須分配的最少通路個數。第二個值確定分配給通路的基因個數。
# 僅顯示分配給至少三個通路的基因
GOChord(chord, limit = c(3, 0), gene.order = 'logFC')
## Warning: Using size for a discrete variable is not advised.
## Warning: Removed 7 rows containing missing values (geom_point).
GOHeat–熱圖展示基因和通路
GOHeat函數能用熱圖展示基因和通路之間的關系,類似于GOChord。橫向展示生物過程,縱向展示基因。每列被分成小的矩形,顏色一般取決于logFC值。另外具有富集到相似功能通路的基因被聚類。熱圖顏色選擇有兩種模式,具體取決于nlfc參數。如果nlfc = 0,則顏色為每個基因所富集到的通路個數。詳見例子:
# First, we use the chord object without logFC column to create the heatmap
GOHeat(chord[,-8], nlfc = 0)
GOHeat(chord[,-8])
在nlfc = 1的情況下,顏色對應于基因的logFC
GOHeat(chord, nlfc = 1, fill.col = c('red', 'yellow', 'green'))
GOCluster–Golden eye
GOCluster功能背后的想法是盡可能多地顯示信息。這是一個例子:
GOCluster(circ, EC$process, clust.by = 'logFC', term.width = 2)
## Warning: Using size for a discrete variable is not advised.
## Warning: Removed 7 rows containing missing values (geom_point).
層級聚類是一種流行的基因表達無監督聚類分析方法,可確保無偏差的將基因按表達模式組合在一起,因此聚在一起的類可能包含多組共調節或功能相關的基因。GOCluster使用核心R中的hclust
方法執行基因表達譜的層級聚類。如果要更改距離度量或聚類算法,請分別使用參數metric和clust,得到的樹形圖可在ggdendro的幫助下進行轉換,并能用ggplot2進行可視化。選擇圓形布局,因為它不僅有效而且視覺上吸引人。樹形圖旁邊的第一個圓環代表基因的logFC,它實際上是聚類樹的葉子。如果您對多個對比感興趣,可以修改nlfc參數,默認情況下,它設置為“1”,因此只繪制一個環。logFC值使用用戶可定義的色標(lfc.col)進行顏色編碼;下一個圓環表示分配給基因的通路。為了好看,對通路數目進行了削減,通路的顏色可以使用參數term.col來。依然可以使用?GOCluster
來查看如何更改參數。這個函數最重要的參數是clust.by,可以指定它用基因表達模式(‘logFC’,如上圖)或功能類別(‘terms’)進行聚類。
GOCluster(circ, EC$process, clust.by = 'term', lfc.col = c('darkgoldenrod1', 'black', 'cyan1'))
## Warning: Using size for a discrete variable is not advised.
## Warning: Removed 7 rows containing missing values (geom_point).
GOVenn–維恩圖
維恩圖可用于檢測各種差異表達基因列表之間的關系,或探索功能分析中多個通路基因的交集。維恩圖不僅顯示重疊基因的數量,還顯示有關基因表達模式的信息(通常是上調,通常是下調或反調節)。目前,最多三個數據集作為輸入。輸入數據至少包含兩列:一列用于基因名稱,一列用于logFC值。
l1 <- subset(circ, term == 'heart development', c(genes,logFC))
l2 <- subset(circ, term == 'plasma membrane', c(genes,logFC))
l3 <- subset(circ, term == 'tissue morphogenesis', c(genes,logFC))
GOVenn(l1,l2,l3, label = c('heart development', 'plasma membrane', 'tissue morphogenesis'))
例如,心臟發育和組織形態發生有22個基因,12個是上調的,10個是下調的。需要注意的重要一點是,餅圖不顯示冗余信息。因此,如果比較三個數據集,則所有數據集共有的基因(中間的餅圖)不包含在其他餅圖中。可使用此工具的shinyapp https://wwalter.shinyapps.io/Venn/, Web工具更具交互性,圓與數據集的基因數量成面積比例,并且可以使用滑塊移動小餅圖,并且具有GOVenn功能的所有選項來改變圖的布局,也可以下載圖片和基因列表。