摘要
介紹可視化過程中常見的兩種堆疊圖的使用場景和matplotlib實現方式。
一.堆疊柱狀圖(Stacked Bar Chart)
1.1定義
堆疊柱狀圖可以形象地展示一個大分類包含的每個小分類的數據,以及各個小分類的占比,顯示的是單個項目與整體之間的關系。堆疊柱狀圖分為兩種類型:
- 一般的堆疊柱狀圖:每一根柱子上的值分別代表不同的數據大小,各層的數據總和代表整根柱子的高度。非常適用于比較每個分組的數據總量。
- 百分比的堆疊柱狀圖:柱子的各個層代表的是該類別數據占該分組總體數據的百分比。
1.2使用場景
適用場景:
- 需要對比不同分組的總量大小,同時對比同一分組內不同分類的大小。
不適用場景:
- 對比不同分組內同個分類的數據大小(百分比堆疊柱狀圖)
- 對比各分組總數的大小(備份比堆疊柱狀圖)
1.3實現
在matplotlib中使用bar
函數進行實現,指定bottom
參數進行堆疊,代碼如下:
import numpy as np
import matplotlib.pyplot as plt
# 使用的數據集
year = [1950, 1960, 1970, 1980, 1990, 2000, 2010, 2018]
population_by_continent = {
'africa': [228, 284, 365, 477, 631, 814, 1044, 1275],
'americas': [340, 425, 519, 619, 727, 840, 943, 1006],
'asia': [1394, 1686, 2120, 2625, 3202, 3714, 4169, 4560],
'europe': [220, 253, 276, 295, 310, 303, 294, 293],
'oceania': [12, 15, 19, 22, 26, 31, 36, 39],
}
# 初始化figure和axes
fig, ax = plt.subplots()
sum = np.zeros((1, len(year))).reshape(-1)
# 繪圖
for i in population_by_continent:
ax.bar(year, population_by_continent.get(i), label=i, alpha=0.8, bottom=sum, width=5)
sum += population_by_continent.get(i)
# 添加圖例和標題
ax.legend(loc='upper left')
ax.set_title('World population')
ax.set_xlabel('Year')
ax.set_ylabel('Number of people (millions)')
plt.show()
實現效果如下:
柱狀堆疊圖.png
二.堆疊面積圖(Stacked Area Chart)
2.1定義
堆疊區域圖將多個數據集繪制為垂直堆疊的區域。堆疊面積圖和基本面積圖一樣,唯一的區別就是圖上每一個數據集的起點不同,起點是基于前一個數據集的,用于顯示每個數值所占大小隨時間或類別變化的趨勢線,展示的是部分與整體的關系。
堆疊面積圖上的最大的面積代表了所有的數據量的總和,是一個整體。各個疊起來的面積表示各個數據量的大小,這些堆疊起來的面積圖在表現大數據的總量分量的變化情況時格外有用。
在堆疊面積圖的基礎之上,將各個面積的因變量的數據使用加和后的總量進行歸一化就形成了百分比堆疊面積圖。該圖并不能反映總量的變化,但是可以清晰的
2.2使用場景
適用場景:
- 適用于需要反應每個數值所占百分比隨時間或類別變化的趨勢線,對于分析自變量是時變數據、有序數據時各個指標分量占比極為有用。
- 適用于對比多變量隨時間變化的情況。
不適用場景:
- 不適用于帶有負值的數據集。
2.3實現
使用stackplots
實現堆疊面積圖,stackplots
函數參數如下:
作用:繪制堆疊面積圖
stackplot(x, *args, labels=(), colors=None, baseline='zero', data=None, **kwargs)
參數1:x:數組,指定橫軸。
參數2:*args,y:數組,指定要繪制的數據。
參數3:labels:字符串列表:指定每個繪制數據的標簽。
參數4:colors:顏色列表:指定堆疊區域的著色,不必與y完相同,顏色會循環使用。
參數5:baseline:限定字符串:指定計算基線的方法,可選:
-
zero
:恒定零基線,即一個簡單的堆積圖。 -
sym
:圍繞零對稱。 -
wiggle
:最小化平方斜率的總和。 -
weighted_wiggle
: 帶權值,權重占每一層的大小。
參數6:data:未知
參數7:**kwargs:接收的關鍵字參數傳遞給fill_between
方法。
import numpy as np
import matplotlib.pyplot as plt
year = [1950, 1960, 1970, 1980, 1990, 2000, 2010, 2018]
population_by_continent = {
'africa': [228, 284, 365, 477, 631, 814, 1044, 1275],
'americas': [340, 425, 519, 619, 727, 840, 943, 1006],
'asia': [1394, 1686, 2120, 2625, 3202, 3714, 4169, 4560],
'europe': [220, 253, 276, 295, 310, 303, 294, 293],
'oceania': [12, 15, 19, 22, 26, 31, 36, 39],
}
fig, ax = plt.subplots()
ax.stackplot(year, population_by_continent.values(),
labels=population_by_continent.keys(), alpha=0.8)
ax.legend(loc='upper left')
ax.set_title('World population')
ax.set_xlabel('Year')
ax.set_ylabel('Number of people (millions)')
plt.show()
實現效果如下:
堆疊面積圖.png