R語言散點圖-- ggplot2: scatterplot()

R語言作圖點滴積累,今天要記錄ggplot2中散點圖的做法。散點圖算是數據展示中非常基礎的一種方法了吧,一般用于展示兩個變量之間的關系(比如線性相關)。按照慣例,我每次講一個新的圖都會用一個我實際使用的例子,先來說說今天做這個散點圖的例子吧:

問題描述:
我有兩個變量,一個變量是蛋白相互作用網絡中節點的度(degree),另一個變量是這些蛋白參與形成的復合物的個數;現在我想看看,一個蛋白參與形成的復合物個數(Number of complexes)是否跟它的度(degree)相關。
上面描述的這個問題,就是一個很典型的可以通過散點圖來展示的例子。先來個數據快照(顯示前10個數據點):

ProteinID No. complex Degree
P1 188 125
P2 128 76
P3 119 102
p4 95 66
P5 95 110
P6 80 68
P7 66 61
P8 57 84
P9 46 40
P10 46 45

漂亮的散點圖要一步一步來

1. 首先來個簡單的散點圖

#Import data
> dat <- read.table("ProteinDegree_complex.txt",header = TRUE)

#plot a simple scatter plot
> library(ggplot2)
> p <- ggplot(dat,aes(x=degree,y=complex)) + geom_point(shape=19)) +
    xlab("Degree") + ylab("Number of complexes")
> p

note:

  • geom_point(): 是畫散點圖的函數,里面可以添加各種參數,用于設置散點圖的形狀、大小、顏色等,比如形狀shape = 19, 表示的是較大的實心原點
  • xlab和ylab:兩個函數分別設置x和y坐標軸的標題
    這個簡單的散點圖看起來是這樣滴:


    簡單的散點圖

2. 如果想要擬合一條直線呢

#Import data
> dat <- read.table("ProteinDegree_complex.txt",header = TRUE)

#plot a simple scatter plot
> library(ggplot2)
> p <- ggplot(dat,aes(x=degree,y=complex)) + geom_point(shape=19)) +
    xlab("Degree") + ylab("Number of complexes") + 
    geom_smooth(method = lm)
> p

ggplot2 提供一個函數自動添加擬合的曲線(包括直線),當然該函數底層肯定是做了擬合分析的,比如線性回歸分析等。

  • geom_smooth():這個函數就是為散點圖添加一條平滑的曲線(包含直線),它有個參數method, 指定曲線平滑方法,可選"lm", "glm", "gam", "loess", "rlm",這幾個具體表示什么意思,大家動動手,自己谷歌之,默認會使用"loess"。

下面兩個圖分別是使用了"lm"和"loess":

擬合直線
擬合曲線

給散點圖加了直線,可是這個直線擬合得怎么樣,以及擬合的直線的參數ggplot2并沒有提供,為了圖的信息更完整,我們應當考慮給這個擬合的直線加上公式,以及擬合的R2值。這樣之后,我們從圖上可以得到些什么信息呢?
首先,我們可以很容易知道degree和complex數目是呈正相關關系的,通過擬合直線和公式可以知道兩個變量的線性關系強弱;然后,然后就是一堆不知道是啥的黑點...

總感覺還是缺少些什么,仔細看看這個散點圖,你會不會想知道圖中degree很高且參與很多復合物的這幾個蛋白是什么?這樣的蛋白一定是生物細胞中十分重要的蛋白。所以呢,我們可以把最靠近右上角的前10個點給高亮出來,甚至給這些點表示label(基因名)。說干就干,看代碼:

#Import data
> dat <- read.table("WD40_complex_degree.out",header = TRUE)


#edit the formula for the fitted line
> formula <- sprintf("italic(y) == %.2f %+.2f * italic(x)",
                   round(coef(dat.lm)[1],2),round(coef(dat.lm)[2],2))
r2 <- sprintf("italic(R^2) == %.2f",summary(dat.lm)$r.squared)
labels <- data.frame(formula=formula,r2=r2,stringsAsFactors = FALSE)

#plot the simple scatterplot
> p <- ggplot(dat,aes(x=degree,y=complex,colour=degree>=63)) + geom_point(shape=19) +
  xlab("Degree of WD40 proteins") + ylab("Number of complexes")

#linear regression analysis
> dat.lm <- lm(complex ~ degree, data = dat)

#add a line and labels for the formula 
> p <- p + geom_abline(intercept = coef(dat.lm)[1],slope = coef(dat.lm)[2]) + 
  geom_text(data=labels,mapping=aes(x = 15,y=175,label=formula),parse = TRUE,inherit.aes = FALSE,
            size = 6) + 
  geom_text(data=labels,mapping=aes(x = 15,y=165,label=r2),parse = TRUE,inherit.aes = FALSE,
            size = 6) +
 #add labels(gene name) for top 10 degree-ranked proteins
  annotate(geom = "text",x=annoText$degree-1,y=annoText$complex-2,label=annoText$WD40id, size=4.0)
> p + theme(legend.position = "none") + theme(axis.title = element_text(size = 16),
                                            axis.text = element_text(size = 12,colour="black"))

代碼一下子長了好多(囧),我們可以與前面的比較下,

  • 首先畫簡單散點圖的那部分代碼(間代碼注釋)添加了"colour = degree>=63",這句的目的其實是對所有點根據條件“degree>=63”進行了分組,不同顏色表示;
  • 其次,發現這里少了一句代碼,對了,就是geom_smooth(method=lm),因為前面加了分組信息,geom_smooth會在不同組里分別擬合曲線,這并不是我們想要的,我們只是想高亮出一些點而已。所以,這里先不直接擬合了, 后面再手動擬合并添加直線;
  • lm(complex ~ degree, data = dat):這個是手動做線性回歸分析
  • geom_abline():根據上面回歸分析,畫擬合的直線,從上面的分析中提取出 截距 coef(dat.lm)[1]和 斜率 coef(dat.lm)[2])即可;
  • geom_text():這個函數給圖中添加了擬合直線的公式和R2;這里我們提供了新的data,所以,要注意的是后面inherit.aes = FALSE這個設置很重要,表示我們不繼承ggplot函數中使用的data,不然會報錯。
  • annotate():這個函數通過制定geom="text",在圖中指定的地方畫上標簽,可以提供坐標
  • theme(legend.position = "none"):去除legend,這里我做的時候也出現一個問題,去除legend的另一種方法是p + guides(fill = FALSE),但是,我最新使用這個代碼的時候,并沒有起作用,不知道是不是我的Rstudio沒有反應還是出現bug了,大家可以自己試試;
  • theme(axis.title...):這些都是對圖中的文字進行美化一下,加大坐標軸標題的文字啊之類的。

最后的圖是這個樣子的:

最后的樣子
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 簡介 文章較長,點擊直達我的博客,瀏覽效果更好。本文內容基本是來源于STHDA,這是一份十分詳細的ggplot2使...
    taoyan閱讀 51,429評論 7 159
  • 老濰坊,解放前稱為濰縣,歷史悠久,人杰地靈,經濟文化發達,一向是膠東交通軍事重鎮。現在,當你漫步街頭,仍可...
    鴻鵠學院閱讀 1,141評論 6 3
  • 以前總覺得生老病死人生常態,當人家訴說自己遭遇病痛、離別、困苦時常常安慰說:我能明白。其實這不過是一種隨口漫...
    螢光子閱讀 172評論 0 0