什么是直方/條形圖?
直方圖(Histograms)和條形圖(Barchart)看起來沒有什么區別,長得很像,但是這兩個并不同一種統計圖像。具體地,通常直方圖用來描述連續型數據,比如年齡、身高、體重等。而條形圖通常用來描述分類型數據,比如性別、國家等。
對于直方圖,我們要做的第一步就是把連續性的數據分箱(bin),所謂的分箱實際上就是將數據按照一定的間隔進行分組。比如我們現在手上有100個人的年齡的數據,從20歲到60歲,然后我們以10歲為間隔,分別統計20-30、30-40、40-50、50-60歲這四組的人數,再進行繪圖。因此不同組之間通常是連續的,且間隔一致。數據的連續性體現在圖像上就是柱子之間并沒有間隔。因此,直方圖可以粗略地表示出數據分布密度,被用于密度估計。
而條形圖如下列例子統計了不同國家的樣本數量。可以看到下圖的柱子之間有間隔,體現出國家并非一個連續變量而是一個分類變量。
直方圖/條形圖怎么畫?
ggplot2提供了繪制直方圖和條形圖的功能,分別為geom_bar()
和geom_histogram()
。具體如下:
geom_histogram(mapping = NULL, data = NULL, stat = "bin",
position = "stack", ...)
geom_bar(mapping = NULL, data = NULL, stat = "count",
position = "stack", ...,)
那么這兩個函數是否有區別嗎?實際上并沒有太大的區別,geom_histogram()
等同于geom_bar()
+stat_bin()
。
進一步那么我們來研究如何繪制直方圖/條形圖。
1)需要什么格式的數據
本次我們來看一個新的R提供的數據,就是閃閃發光的鉆石??Diamonds。
price:鉆石的價格,單位美元
carat:鉆石的重量,單位克拉
cut:鉆石切割的質量水平,Fair, Good, Very Good, Premium, Ideal
color:鉆石的顏色,從J(最差)到D(最好)
clarity:鉆石的凈度,I1(最差)SI2, SI1, VS2, VS1, VVS2, VVS1, IF (最好)
x:長度,單位mm
y:寬度,單位mm
z:深度,單位mm
我們探討兩個問題——統計表中所有的鉆石(大約 50,000個)的重量分布以及凈度。
可以看到重量是一個連續型變量,而凈度是一個分類型變量。所以前者我們做直方圖,后者我們做條形圖。
2)如何使用ggplot2做直方圖
首先我們來看看鉆石重量的直方圖。
#加載包
library(ggplot2)
#作圖
ggplot(diamonds, aes(carat)) +
geom_histogram()
輸入上述命令后我們會得到一條提示stat_bin() using “bins = 30”. Pick better value with “binwidth”.
什么意思呢?就是把所有的數據按照相同間隔分成了30組,圖上有30個柱子。(如圖)
從圖上我們可以看到大部分的鉆石都是1克拉以下,較少的鉆石是2克拉以上。
那用geom_bar()
會怎么樣呢?我們來看一看。
ggplot(diamonds, aes(carat)) +
geom_bar()
可以看到如果使用上述命令,每一個重量對應的都有一個柱子,顯示了不同重量而非某個范圍的重量所對應的鉆石數量。剛剛我們說了geom_bar()
+stat_bin()
才是等同于geom_histogram()
。所以我們來看一下如果命令變成下述是怎么樣的?
ggplot(diamonds, aes(carat)) +
geom_bar(stat='bin')
看,就和剛才一模一樣了!
3)如何使用ggplot2做條形圖
然后我們來瞧瞧條形圖。
#加載包
library(ggplot2)
#作圖
ggplot(diamonds, aes(clarity)) +
geom_bar()
從圖中我們可以看到不同等級凈度的鉆石情況。
4)如何做好看的直方/條形圖
利用下述代碼我們可以得到不同重量的鉆石切割水平的情況。
ggplot(diamonds, aes(carat,fill=cut)) +
geom_histogram(bins = 20,color='black')+#分為20個組,添加邊框
theme_bw()+
theme(
panel.grid = element_blank()#去除背景的分割線
)+
scale_fill_manual(values=brewer.pal(5,'Blues'))
利用下述代碼我們可以得到橫向的條形圖。
ggplot(diamonds, aes(clarity,fill=clarity)) +
geom_bar()+
theme_bw()+
theme(
panel.grid = element_blank()
)+
coord_flip()#轉為橫向
關于直方/條形圖的介紹就到這里啦。大家還可以更進一步的看一看這兩個繪圖函數的功能,讓圖像變得更好看。