8.17 使用 Seaborn 的可視化

原文：Visualization with Seaborn

譯者：飛龍

協議：CC BY-NC-SA 4.0

本節(jié)是《Python 數據科學手冊》（Python Data Science Handbook）的摘錄。

Matplotlib 據證明是一種非常有用和流行的可視化工具，但即使狂熱的用戶也會承認它經常會有很多不足之處。有幾個對 Matplotlib 的有效的抱怨常常出現：

在 2.0 版之前，Matplotlib 的默認值并不是最佳選擇。它基于大約 1999 年的 MATLAB，經常是這樣。
Matplotlib 的 API 相對較低。可以進行復雜的統計可視化，但通常需要大量的樣板代碼。
Matplotlib 比 Pandas 早了十多年，因此不適合與 Pandas 的DataFrame`一起使用。為了可視化來自 PandasDataFrame的數據，你必須提取每個Series``并經常將它們連接成正確的格式。如果有一個繪圖庫可以智能地在繪圖中使用DataFrame標簽會更好。

這些問題的答案是Seaborn。 Seaborn 在 Matplotlib 之上提供 API，為繪圖樣式和顏色默認值提供合理的選擇，為常見的統計繪圖類型定義簡單的高級函數，并與 Pandas DataFrame提供的功能集成。

公平地說，Matplotlib 團隊正在解決這個問題：它最近添加了“自定義 Matplotlib：配置和樣式表”中討論的plt.style工具，并且正在開始更無縫地處理 Pandas 數據。該庫的 2.0 版本將包含新的默認樣式表，它將改善現狀。但出于所討論的所有原因，Seaborn 仍然是一個非常有用的插件。

Seaborn VS Matplotlib

下面是 Matplotlib 中簡單隨機游走圖的示例，使用其經典的繪圖格式和顏色。我們從典型的導入開始：

import matplotlib.pyplot as plt
plt.style.use('classic')
%matplotlib inline
import numpy as np
import pandas as pd

現在我們創(chuàng)建一些隨機游走數據：

# 創(chuàng)建一些數據
rng = np.random.RandomState(0)
x = np.linspace(0, 10, 500)
y = np.cumsum(rng.randn(500, 6), 0)

并執(zhí)行簡單的繪圖：

# 使用 Matplotlib 默認值繪制數據
plt.plot(x, y)
plt.legend('ABCDEF', ncol=2, loc='upper left');

png

雖然結果包含了我們希望傳達的所有信息，但它的確以一種并非好看的方式，甚至在 21 世紀數據可視化的背景下看起來有點過時。

現在讓我們來看看它如何與 Seaborn 一起使用。我們將要看到，Seaborn 有許多自己的高級繪圖例程，但它也可以覆蓋 Matplotlib 的默認參數，反過來甚至可以使簡單的 Matplotlib 腳本產生非常出色的輸出。我們可以通過調用 Seaborn 的set()方法來設置樣式。按照慣例，Seaborn 被導入為sns：

import seaborn as sns
sns.set()

現在讓我們重新運行與以前相同的兩行：

# 和上面一樣的繪圖代碼
plt.plot(x, y)
plt.legend('ABCDEF', ncol=2, loc='upper left');

png

啊，好多了！

探索 Seaborn 繪圖

Seaborn 的主要思想是它提供高級命令，來創(chuàng)建用于統計數據探索，甚至是一些統計模型擬合的各種繪圖類型。

我們來看看Seaborn中可用的一些數據集和繪圖類型。請注意，以下所有都可以使用原始 Matplotlib 命令完成（事實上，這是 Seaborn 所做的事情），但 Seaborn API 更方便。

直方圖，KDE，和密度

通常在統計數據可視化中，你只需要繪制直方圖和變量的聯合分布。我們已經看到這在 Matplotlib 中相對簡單：

data = np.random.multivariate_normal([0, 0], [[5, 2], [2, 2]], size=2000)
data = pd.DataFrame(data, columns=['x', 'y'])

for col in 'xy':
    plt.hist(data[col], normed=True, alpha=0.5)

png

我們可以使用核密度估計來獲得對分布的平滑估計，而不是直方圖，Seaborn 使用sns.kdeplot來執(zhí)行：

for col in 'xy':
    sns.kdeplot(data[col], shade=True)

png

直方圖和 KDE 可以使用distplot組合：

sns.distplot(data['x'])
sns.distplot(data['y']);

png

如果我們將完整的二維數據集傳遞給kdeplot，我們將獲得數據的二維可視化：

sns.kdeplot(data);

png

我們可以使用sns.jointplot查看聯合分布和邊緣分布。對于此圖，我們將樣式設置為白色背景：

with sns.axes_style('white'):
    sns.jointplot("x", "y", data, kind='kde');

png

還有其他參數可以傳遞給jointplot - 例如，我們可以使用基于六邊形的直方圖：

with sns.axes_style('white'):
    sns.jointplot("x", "y", data, kind='hex')

png

配對繪圖

將聯合繪圖推廣到高維數據集時，最終會得到配對繪圖。當你想要繪制所有值對于彼此的配對時，這對于探索多維數據之間的相關性非常有用。

我們將使用著名的鳶尾花數據集進行演示，該數據集列出了三種鳶尾花物種的花瓣和萼片的測量值：

iris = sns.load_dataset("iris")
iris.head()

	sepal_length	sepal_width	petal_length	petal_width	species
0	5.1	3.5	1.4	0.2	setosa
1	4.9	3.0	1.4	0.2	setosa
2	4.7	3.2	1.3	0.2	setosa
3	4.6	3.1	1.5	0.2	setosa
4	5.0	3.6	1.4	0.2	setosa

可視化樣本之間的多維關系就像調用sns.pairplot一樣簡單：

sns.pairplot(iris, hue='species', size=2.5);

png

分面直方圖

有時，查看數據的最佳方式是通過子集的直方圖。 Seaborn 的FacetGrid使其非常簡單。我們將根據各種指標數據查看一些數據，它們顯示餐廳員工在小費中收到的金額：

tips = sns.load_dataset('tips')
tips.head()

| | total_bill | tip | sex | smoker | day | time | size |
| --- | --- | --- | --- | --- | --- | --- |
| 0 | 16.99 | 1.01 | Female | No | Sun | Dinner | 2 |
| 1 | 10.34 | 1.66 | Male | No | Sun | Dinner | 3 |
| 2 | 21.01 | 3.50 | Male | No | Sun | Dinner | 3 |
| 3 | 23.68 | 3.31 | Male | No | Sun | Dinner | 2 |
| 4 | 24.59 | 3.61 | Female | No | Sun | Dinner | 4 |

tips['tip_pct'] = 100 * tips['tip'] / tips['total_bill']

grid = sns.FacetGrid(tips, row="sex", col="time", margin_titles=True)
grid.map(plt.hist, "tip_pct", bins=np.linspace(0, 40, 15));

png

因子圖

因子圖也可用于此類可視化。這允許你查看由任何其他參數定義的桶中的參數分布：

with sns.axes_style(style='ticks'):
    g = sns.factorplot("day", "total_bill", "sex", data=tips, kind="box")
    g.set_axis_labels("Day", "Total Bill");

png

聯合分布

與我們之前看到的配對圖類似，我們可以使用sns.jointplot來顯示不同數據集之間的聯合分布以及相關的邊緣分布：

with sns.axes_style('white'):
    sns.jointplot("total_bill", "tip", data=tips, kind='hex')

png

聯合圖甚至可以做一些自動的核密度估計和回歸：

sns.jointplot("total_bill", "tip", data=tips, kind='reg');

png

條形圖

時間序列可以使用sns.factorplot繪制。在下面的示例中，我們將使用我們在“聚合和分組”中首次看到的行星數據：

planets = sns.load_dataset('planets')
planets.head()

	method	number	orbital_period	mass	distance	year
0	Radial Velocity	1	269.300	7.10	77.40	2006
1	Radial Velocity	1	874.774	2.21	56.95	2008
2	Radial Velocity	1	763.000	2.60	19.84	2011
3	Radial Velocity	1	326.030	19.40	110.62	2007
4	Radial Velocity	1	516.220	10.50	119.47	2009

with sns.axes_style('white'):
    g = sns.factorplot("year", data=planets, aspect=2,
                       kind="count", color='steelblue')
    g.set_xticklabels(step=5)

png

通過查看每個行星的發(fā)現方法，我們可以了解更多信息：

with sns.axes_style('white'):
    g = sns.factorplot("year", data=planets, aspect=4.0, kind='count',
                       hue='method', order=range(2001, 2015))
    g.set_ylabels('Number of Planets Discovered')

png

對于使用 Seaborn 進行繪圖的更多信息，請參閱 Seaborn 文檔，教程和 Seaborn 畫廊。

示例：探索馬拉松結束時間

在這里，我們將使用 Seaborn 來幫我們可視化和理解馬拉松的結果。我從 Web 上的數據源抓取數據，匯總并刪除任何身份信息，并將其放在 GitHub 上，可以在那里下載（如果你有興趣使用 Python 抓取網頁，我建議閱讀 Ryan Mitchell 的《Web Scraping with Python》。我們首先從 Web 下載數據并將其加載到 Pandas 中：

# !curl -O https://raw.githubusercontent.com/jakevdp/marathon-data/master/marathon-data.csv

data = pd.read_csv('marathon-data.csv')
data.head()

	age	gender	split	final
0	33	M	01:05:38	02:08:51
1	32	M	01:06:26	02:09:28
2	31	M	01:06:49	02:10:42
3	38	M	01:06:16	02:13:45
4	31	M	01:06:32	02:13:59

默認情況下，Pandas 將時間列加載為 Python 字符串（類型object）；我們可以通過查看DataFrame的dtypes屬性來看到它：

data.dtypes

'''
age        int64
gender    object
split     object
final     object
dtype: object
'''

讓我們通過為時間提供轉換器來解決這個問題：

def convert_time(s):
    h, m, s = map(int, s.split(':'))
    return pd.datetools.timedelta(hours=h, minutes=m, seconds=s)

data = pd.read_csv('marathon-data.csv',
                   converters={'split':convert_time, 'final':convert_time})
data.head()

	age	gender	split	final
0	33	M	01:05:38	02:08:51
1	32	M	01:06:26	02:09:28
2	31	M	01:06:49	02:10:42
3	38	M	01:06:16	02:13:45
4	31	M	01:06:32	02:13:59

data.dtypes

'''
age                 int64
gender             object
split     timedelta64[ns]
final     timedelta64[ns]
dtype: object
'''

這看起來好多了。出于我們的 Seaborn 繪圖工具的目的，讓我們接下來添加以秒為單位的列：

data['split_sec'] = data['split'].astype(int) / 1E9
data['final_sec'] = data['final'].astype(int) / 1E9
data.head()

	age	gender	split	final	split_sec	final_sec
0	33	M	01:05:38	02:08:51	3938.0	7731.0
1	32	M	01:06:26	02:09:28	3986.0	7768.0
2	31	M	01:06:49	02:10:42	4009.0	7842.0
3	38	M	01:06:16	02:13:45	3976.0	8025.0
4	31	M	01:06:32	02:13:59	3992.0	8039.0

為了了解數據的樣子，我們可以在數據上繪制一個jointplot：

with sns.axes_style('white'):
    g = sns.jointplot("split_sec", "final_sec", data, kind='hex')
    g.ax_joint.plot(np.linspace(4000, 16000),
                    np.linspace(8000, 32000), ':k')

png

虛線表示如果他們以完全穩(wěn)定的速度跑馬拉松，那么某人的時間會在哪里。分布高于此的事實表明（正如你所料）大多數人在馬拉松比賽過程中減速。如果你有競爭力，那么你就會知道那些在比賽后半段跑得更快的人 - 被稱為將比賽負分割（negative-split）。

讓我們在數據中創(chuàng)建另一個列，即分割分數，它測量每個運動員將比賽負分割或正分割（positive-split）的程度：

data['split_frac'] = 1 - 2 * data['split_sec'] / data['final_sec']
data.head()

	age	gender	split	final	split_sec	final_sec	split_frac
0	33	M	01:05:38	02:08:51	3938.0	7731.0	-0.018756
1	32	M	01:06:26	02:09:28	3986.0	7768.0	-0.026262
2	31	M	01:06:49	02:10:42	4009.0	7842.0	-0.022443
3	38	M	01:06:16	02:13:45	3976.0	8025.0	0.009097
4	31	M	01:06:32	02:13:59	3992.0	8039.0	0.006842

如果此分割差異小于零，則這個人將比賽以這個比例負分割。讓我們繪制這個分割分數的分布圖：

sns.distplot(data['split_frac'], kde=False);
plt.axvline(0, color="k", linestyle="--");

png

sum(data.split_frac < 0)

# 251

在近 40,000 名參與者中，只有 250 人將馬拉松負分割。

讓我們看看這個分割分數和其他變量之間是否存在任何相關性。我們將使用pairgrid來繪制所有這些相關性：

g = sns.PairGrid(data, vars=['age', 'split_sec', 'final_sec', 'split_frac'],
                 hue='gender', palette='RdBu_r')
g.map(plt.scatter, alpha=0.8)
g.add_legend();

png

看起來分割分數與年齡沒有特別的關聯，但確實與最終時間相關：更快的運動員往往將馬拉松時間等分。（我們在這里看到，當涉及到繪圖樣式時，Seaborn 不是 Matplotlib 弊病的靈丹妙藥：特別是，x軸標簽重疊。因為輸出是一個簡單的 Matplotlib 圖，但是，“自定義刻度”中的方法可以用來調整這些東西。）

這里男女之間的區(qū)別很有意思。讓我們看看這兩組的分割分數的直方圖：

sns.kdeplot(data.split_frac[data.gender=='M'], label='men', shade=True)
sns.kdeplot(data.split_frac[data.gender=='W'], label='women', shade=True)
plt.xlabel('split_frac');

png

這里有趣的是，有更多的男人比女人更接近等分！這幾乎看起來像男女之間的某種雙峰分布。讓我們看看，我們是否可以通過將分布看做年齡的函數，來判斷發(fā)生了什么。

比較分布的好方法是使用提琴圖：

sns.violinplot("gender", "split_frac", data=data,
               palette=["lightblue", "lightpink"]);

png

這是比較男女之間分布的另一種方式。

讓我們看得深入一些，然后將這些提琴圖作為年齡的函數進行比較。我們首先在數組中創(chuàng)建一個新列，指定每個人的年齡，以十年為單位：

data['age_dec'] = data.age.map(lambda age: 10 * (age // 10))
data.head()

	age	gender	split	final	split_sec	final_sec	split_frac	age_dec
0	33	M	01:05:38	02:08:51	3938.0	7731.0	-0.018756	30
1	32	M	01:06:26	02:09:28	3986.0	7768.0	-0.026262	30
2	31	M	01:06:49	02:10:42	4009.0	7842.0	-0.022443	30
3	38	M	01:06:16	02:13:45	3976.0	8025.0	0.009097	30
4	31	M	01:06:32	02:13:59	3992.0	8039.0	0.006842	30

men = (data.gender == 'M')
women = (data.gender == 'W')

with sns.axes_style(style=None):
    sns.violinplot("age_dec", "split_frac", hue="gender", data=data,
                   split=True, inner="quartile",
                   palette=["lightblue", "lightpink"]);

png

考慮到這一點，我們可以看到男性和女性的分布在哪里不同：與同齡（或任何年齡的）女性相比，20 到 50 歲男性的分割分布，與較低的分割相比，表現出明顯的過度密集。

同樣令人驚訝的是，這位 80 歲的女性在分割時間方面表現優(yōu)于每個人。這可能是因為我們估計來自小數字的分布，因為在該范圍內只有少數運動員：

(data.age > 80).sum()

# 7

回到帶有負分割的男性：誰是這些運動員？這個分割分數是否與快速結束相關？我們可以很容易地繪制這個圖。我們將使用regplot，它將自動擬合數據的線性回歸：

g = sns.lmplot('final_sec', 'split_frac', col='gender', data=data,
               markers=".", scatter_kws=dict(color='c'))
g.map(plt.axhline, y=0.1, color="k", ls=":");

png

顯然，帶有快速分割的人是精英運動員，他們在約 15,000 秒或約 4 小時內結束。慢于此的人不太可能具有快速的第二次分割。

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

數據科學 IPython 筆記本 8.17 使用 Seaborn 的可視化

數據科學 IPython 筆記本 8.17 使用 Seaborn 的可視化

8.17 使用 Seaborn 的可視化

Seaborn VS Matplotlib

探索 Seaborn 繪圖

直方圖，KDE，和密度

配對繪圖

分面直方圖

因子圖

聯合分布

條形圖

示例：探索馬拉松結束時間

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

數據科學 IPython 筆記本 8.17 使用 Seaborn 的可視化

8.17 使用 Seaborn 的可視化

Seaborn VS Matplotlib

探索 Seaborn 繪圖

直方圖，KDE，和密度

配對繪圖

分面直方圖

因子圖

聯合分布

條形圖

示例：探索馬拉松結束時間

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频