R數據可視化3: 直方/條形圖

什么是直方/條形圖?

直方圖(Histograms)和條形圖(Barchart)看起來沒有什么區別,長得很像,但是這兩個并不同一種統計圖像。具體地,通常直方圖用來描述連續型數據,比如年齡、身高、體重等。而條形圖通常用來描述分類型數據,比如性別、國家等。
對于直方圖,我們要做的第一步就是把連續性的數據分箱(bin),所謂的分箱實際上就是將數據按照一定的間隔進行分組。比如我們現在手上有100個人的年齡的數據,從20歲到60歲,然后我們以10歲為間隔,分別統計20-30、30-40、40-50、50-60歲這四組的人數,再進行繪圖。因此不同組之間通常是連續的,且間隔一致。數據的連續性體現在圖像上就是柱子之間并沒有間隔。因此,直方圖可以粗略地表示出數據分布密度,被用于密度估計。

直方圖例子

而條形圖如下列例子統計了不同國家的樣本數量。可以看到下圖的柱子之間有間隔,體現出國家并非一個連續變量而是一個分類變量。

條形圖例子

直方圖/條形圖怎么畫?

ggplot2提供了繪制直方圖和條形圖的功能,分別為geom_bar()geom_histogram()。具體如下:

geom_histogram(mapping = NULL, data = NULL, stat = "bin",
    position = "stack", ...)
geom_bar(mapping = NULL, data = NULL, stat = "count",
  position = "stack", ...,)

那么這兩個函數是否有區別嗎?實際上并沒有太大的區別,geom_histogram()等同于geom_bar()+stat_bin()

進一步那么我們來研究如何繪制直方圖/條形圖。

1)需要什么格式的數據
本次我們來看一個新的R提供的數據,就是閃閃發光的鉆石??Diamonds。

數據集Diamonds

price:鉆石的價格,單位美元
carat:鉆石的重量,單位克拉
cut:鉆石切割的質量水平,Fair, Good, Very Good, Premium, Ideal
color:鉆石的顏色,從J(最差)到D(最好)
clarity:鉆石的凈度,I1(最差)SI2, SI1, VS2, VS1, VVS2, VVS1, IF (最好)
x:長度,單位mm
y:寬度,單位mm
z:深度,單位mm
我們探討兩個問題——統計表中所有的鉆石(大約 50,000個)的重量分布以及凈度。
可以看到重量是一個連續型變量,而凈度是一個分類型變量。所以前者我們做直方圖,后者我們做條形圖。

2)如何使用ggplot2做直方圖

首先我們來看看鉆石重量的直方圖。

#加載包
library(ggplot2)
#作圖
ggplot(diamonds, aes(carat)) +
  geom_histogram()

輸入上述命令后我們會得到一條提示stat_bin() using “bins = 30”. Pick better value with “binwidth”.什么意思呢?就是把所有的數據按照相同間隔分成了30組,圖上有30個柱子。(如圖)

從圖上我們可以看到大部分的鉆石都是1克拉以下,較少的鉆石是2克拉以上。
那用geom_bar()會怎么樣呢?我們來看一看。

ggplot(diamonds, aes(carat)) +
  geom_bar()

可以看到如果使用上述命令,每一個重量對應的都有一個柱子,顯示了不同重量而非某個范圍的重量所對應的鉆石數量。剛剛我們說了geom_bar()+stat_bin()才是等同于geom_histogram()。所以我們來看一下如果命令變成下述是怎么樣的?

ggplot(diamonds, aes(carat)) +
  geom_bar(stat='bin')

看,就和剛才一模一樣了!

3)如何使用ggplot2做條形圖
然后我們來瞧瞧條形圖。

#加載包
library(ggplot2)
#作圖
ggplot(diamonds, aes(clarity)) +
  geom_bar()

從圖中我們可以看到不同等級凈度的鉆石情況。

4)如何做好看的直方/條形圖

利用下述代碼我們可以得到不同重量的鉆石切割水平的情況。

ggplot(diamonds, aes(carat,fill=cut)) +
  geom_histogram(bins = 20,color='black')+#分為20個組,添加邊框
  theme_bw()+
  theme(
    panel.grid = element_blank()#去除背景的分割線
  )+
  scale_fill_manual(values=brewer.pal(5,'Blues'))

利用下述代碼我們可以得到橫向的條形圖。

ggplot(diamonds, aes(clarity,fill=clarity)) +
  geom_bar()+
  theme_bw()+
  theme(
    panel.grid = element_blank()
  )+
  coord_flip()#轉為橫向

關于直方/條形圖的介紹就到這里啦。大家還可以更進一步的看一看這兩個繪圖函數的功能,讓圖像變得更好看。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容