?
這是趣味統計的第 1 期分享
作者 l 蘿卜
正式開始建模與處理數據前,對數據進行探索并有一個初步的認識非常重要,本文將圍繞變量探索,**展示分類、連續變量,以及兩種類型變量結合的探索方法**,并展示 Python Pandas **數據處理與可視化**中的一些快捷常用騷操作~
> 注:本文數據與源代碼在公眾號 “ 數據分析與商業實踐 ” 后臺回復 “ 變量探索 ” 獲取~~

#? 分類變量
## 01? 一個分類變量
一個分類變量的分析方法可考慮頻次和百分比,用餅圖或者柱狀圖表示都可以

我們也可以通過設置畫布布局來同時顯示兩個連續變量的各自探索情況


## 02? 兩個分類變量
結合兩個分類變量考量的分布情況可考慮使用交叉表 cross table
這里我們將探究每個地區的學區房分布情況:參數 margins 設置為 True 表示在最后一行與最后一列顯示匯總統計 ALL

如果要將上述交叉表可視化,可考慮使用前人的輪子:一行代碼快速繪制標準化的堆疊圖,反映占比的同時還能看出每一類的數據量大小? ?

---
<br>
#? 連續變量
## 01? 一個連續變量
直接進行描述性統計分析,以房價分布為例


---
<br>
## 02? 兩個連續變量
繪制散點圖等關系圖進行探索,以探尋房屋面積與價格的關系為例

---
<br>
# 連續變量 + 分類變量
## 01? 一個分類 + 一個連續
groupby 分組 + 描述性統計分析,制造出分類變量下每類的單一的連續變量相當于求分類后的每類的統計量,groupby 后面不跟統計量的代碼沒有意義。
分類箱型圖,柱形圖等,兩坐標軸中一個為分類變量,另一個為連續變量
> 統計量是樣本的數值概要,用來描述樣本;參數則是總體的數值概要


同理,也可繪制箱線圖

## 02 兩個分類 + 一個連續
使用數據透視表,即在兩個分類變量探索時使用的交叉表的升級
先整體確定由兩個分類變量構成的行索引 index 與列索引 columns,然后再將連續變量的統計量如 mean,medium 等放入數據框內部。透視表函數中的部分參數與交叉表一樣,只是多了處理連續變量的參數。
以求每個區域有無地鐵時的房屋均價,發現無論在哪個區,有地鐵的房屋價格均高于無地鐵的。

當然,我們也可以嘗試 “ 三個分類變量 + 一個連續變量 ”:

上透視表的理解步驟如下:
1. 參數 index 在 columns 前,表示行索引 index 將會根據地區 dist 來劃分。
2. 參數 columns 中的列表順序,school 在 subway 前,表示 index 分完后,列索引先根據學區房的有無來劃分,而后再添加有無地鐵這個劃分標準。
即劃分好地區后,求在有無學區房的前提情況下,是否有地鐵時的房屋均價。如朝陽區的房子在無學區房的情況下,有地鐵和沒有地鐵時的房屋均價分別是多少。
---
<br>
#? 小結
本文以常見的房價數據集為例,展示了探索分類變量與連續變量的方法,涉及了一些**細節數據可視化操作;交叉表,數據透視表,頻數統計,分組統計等 Pandas 數據處理操作**。這些都是探索數據過程中不可或缺的基礎操作,熟練掌握很有必要??
> 注:本文數據與源代碼在公眾號 “ 數據分析與商業實踐 ” 后臺回復 “ 變量探索 ” 獲取~~
后續會不斷更新常見場景下的 Python 實踐
