R語言散點圖-- ggplot2: scatterplot()

R語言作圖點滴積累,今天要記錄ggplot2中散點圖的做法。散點圖算是數(shù)據(jù)展示中非常基礎(chǔ)的一種方法了吧,一般用于展示兩個變量之間的關(guān)系(比如線性相關(guān))。按照慣例,我每次講一個新的圖都會用一個我實際使用的例子,先來說說今天做這個散點圖的例子吧:

問題描述:
我有兩個變量,一個變量是蛋白相互作用網(wǎng)絡(luò)中節(jié)點的度(degree),另一個變量是這些蛋白參與形成的復合物的個數(shù);現(xiàn)在我想看看,一個蛋白參與形成的復合物個數(shù)(Number of complexes)是否跟它的度(degree)相關(guān)。
上面描述的這個問題,就是一個很典型的可以通過散點圖來展示的例子。先來個數(shù)據(jù)快照(顯示前10個數(shù)據(jù)點):

ProteinID No. complex Degree
P1 188 125
P2 128 76
P3 119 102
p4 95 66
P5 95 110
P6 80 68
P7 66 61
P8 57 84
P9 46 40
P10 46 45

漂亮的散點圖要一步一步來

1. 首先來個簡單的散點圖

#Import data
> dat <- read.table("ProteinDegree_complex.txt",header = TRUE)

#plot a simple scatter plot
> library(ggplot2)
> p <- ggplot(dat,aes(x=degree,y=complex)) + geom_point(shape=19)) +
    xlab("Degree") + ylab("Number of complexes")
> p

note:

  • geom_point(): 是畫散點圖的函數(shù),里面可以添加各種參數(shù),用于設(shè)置散點圖的形狀、大小、顏色等,比如形狀shape = 19, 表示的是較大的實心原點
  • xlab和ylab:兩個函數(shù)分別設(shè)置x和y坐標軸的標題
    這個簡單的散點圖看起來是這樣滴:


    簡單的散點圖

2. 如果想要擬合一條直線呢

#Import data
> dat <- read.table("ProteinDegree_complex.txt",header = TRUE)

#plot a simple scatter plot
> library(ggplot2)
> p <- ggplot(dat,aes(x=degree,y=complex)) + geom_point(shape=19)) +
    xlab("Degree") + ylab("Number of complexes") + 
    geom_smooth(method = lm)
> p

ggplot2 提供一個函數(shù)自動添加擬合的曲線(包括直線),當然該函數(shù)底層肯定是做了擬合分析的,比如線性回歸分析等。

  • geom_smooth():這個函數(shù)就是為散點圖添加一條平滑的曲線(包含直線),它有個參數(shù)method, 指定曲線平滑方法,可選"lm", "glm", "gam", "loess", "rlm",這幾個具體表示什么意思,大家動動手,自己谷歌之,默認會使用"loess"。

下面兩個圖分別是使用了"lm"和"loess":

擬合直線
擬合曲線

給散點圖加了直線,可是這個直線擬合得怎么樣,以及擬合的直線的參數(shù)ggplot2并沒有提供,為了圖的信息更完整,我們應當考慮給這個擬合的直線加上公式,以及擬合的R2值。這樣之后,我們從圖上可以得到些什么信息呢?
首先,我們可以很容易知道degree和complex數(shù)目是呈正相關(guān)關(guān)系的,通過擬合直線和公式可以知道兩個變量的線性關(guān)系強弱;然后,然后就是一堆不知道是啥的黑點...

總感覺還是缺少些什么,仔細看看這個散點圖,你會不會想知道圖中degree很高且參與很多復合物的這幾個蛋白是什么?這樣的蛋白一定是生物細胞中十分重要的蛋白。所以呢,我們可以把最靠近右上角的前10個點給高亮出來,甚至給這些點表示label(基因名)。說干就干,看代碼:

#Import data
> dat <- read.table("WD40_complex_degree.out",header = TRUE)


#edit the formula for the fitted line
> formula <- sprintf("italic(y) == %.2f %+.2f * italic(x)",
                   round(coef(dat.lm)[1],2),round(coef(dat.lm)[2],2))
r2 <- sprintf("italic(R^2) == %.2f",summary(dat.lm)$r.squared)
labels <- data.frame(formula=formula,r2=r2,stringsAsFactors = FALSE)

#plot the simple scatterplot
> p <- ggplot(dat,aes(x=degree,y=complex,colour=degree>=63)) + geom_point(shape=19) +
  xlab("Degree of WD40 proteins") + ylab("Number of complexes")

#linear regression analysis
> dat.lm <- lm(complex ~ degree, data = dat)

#add a line and labels for the formula 
> p <- p + geom_abline(intercept = coef(dat.lm)[1],slope = coef(dat.lm)[2]) + 
  geom_text(data=labels,mapping=aes(x = 15,y=175,label=formula),parse = TRUE,inherit.aes = FALSE,
            size = 6) + 
  geom_text(data=labels,mapping=aes(x = 15,y=165,label=r2),parse = TRUE,inherit.aes = FALSE,
            size = 6) +
 #add labels(gene name) for top 10 degree-ranked proteins
  annotate(geom = "text",x=annoText$degree-1,y=annoText$complex-2,label=annoText$WD40id, size=4.0)
> p + theme(legend.position = "none") + theme(axis.title = element_text(size = 16),
                                            axis.text = element_text(size = 12,colour="black"))

代碼一下子長了好多(囧),我們可以與前面的比較下,

  • 首先畫簡單散點圖的那部分代碼(間代碼注釋)添加了"colour = degree>=63",這句的目的其實是對所有點根據(jù)條件“degree>=63”進行了分組,不同顏色表示;
  • 其次,發(fā)現(xiàn)這里少了一句代碼,對了,就是geom_smooth(method=lm),因為前面加了分組信息,geom_smooth會在不同組里分別擬合曲線,這并不是我們想要的,我們只是想高亮出一些點而已。所以,這里先不直接擬合了, 后面再手動擬合并添加直線;
  • lm(complex ~ degree, data = dat):這個是手動做線性回歸分析
  • geom_abline():根據(jù)上面回歸分析,畫擬合的直線,從上面的分析中提取出 截距 coef(dat.lm)[1]和 斜率 coef(dat.lm)[2])即可;
  • geom_text():這個函數(shù)給圖中添加了擬合直線的公式和R2;這里我們提供了新的data,所以,要注意的是后面inherit.aes = FALSE這個設(shè)置很重要,表示我們不繼承g(shù)gplot函數(shù)中使用的data,不然會報錯。
  • annotate():這個函數(shù)通過制定geom="text",在圖中指定的地方畫上標簽,可以提供坐標
  • theme(legend.position = "none"):去除legend,這里我做的時候也出現(xiàn)一個問題,去除legend的另一種方法是p + guides(fill = FALSE),但是,我最新使用這個代碼的時候,并沒有起作用,不知道是不是我的Rstudio沒有反應還是出現(xiàn)bug了,大家可以自己試試;
  • theme(axis.title...):這些都是對圖中的文字進行美化一下,加大坐標軸標題的文字啊之類的。

最后的圖是這個樣子的:

最后的樣子
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,835評論 6 534
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,676評論 3 419
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,730評論 0 380
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,118評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,873評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,266評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,330評論 3 443
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,482評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,036評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,846評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,025評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,575評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,279評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,684評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,953評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,751評論 3 394
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,016評論 2 375

推薦閱讀更多精彩內(nèi)容

  • 簡介 文章較長,點擊直達我的博客,瀏覽效果更好。本文內(nèi)容基本是來源于STHDA,這是一份十分詳細的ggplot2使...
    taoyan閱讀 51,323評論 7 159
  • 老濰坊,解放前稱為濰縣,歷史悠久,人杰地靈,經(jīng)濟文化發(fā)達,一向是膠東交通軍事重鎮(zhèn)。現(xiàn)在,當你漫步街頭,仍可...
    鴻鵠學院閱讀 1,135評論 6 3
  • 以前總覺得生老病死人生常態(tài),當人家訴說自己遭遇病痛、離別、困苦時常常安慰說:我能明白。其實這不過是一種隨口漫...
    螢光子閱讀 166評論 0 0