Lesson 30 交叉分析(cross-over analysis)
通常用于分析兩個或兩個以上,分組變量之間的關系,以交叉表形式進行變量間關系的對比分析
數據透視表函數
pivot_table(values, index, columns, aggfunc, fill_value)
values: 數據透視表中的值
index: 數據透視表中的行
columns: 數據透視表中的列
aggfunc: 統計函數
fill_value: NA值的統一替換
Lesson 31 結構分析(structure analysis)
在分組以及交叉分析的基礎上,計算各組成部分所占的比重,進而分析總體的內部特征的分析方法
主要是指定性分組, e.g.性別結構,股權結構,市場結構,地區結構
通常使用餅圖,如果結構成分較少,可考慮圓環圖
axis:
0 -> 按列運算 default
1 -> 按行運算
數據框外運算函數:add, sub, multiply, div
數據框內運算函數:sum, mean, var, sd
Lesson 32 相關分析(correlation analysis)
研究兩個或兩個以上隨機變量之間互相依存關系的方向和密切程度
可分成線性相關和非線性相關
線性相關關系主要采用皮爾遜相關系數r來度量連續變量之間線性相關強度
-1<=r<=1
線性相關系數r絕對值取值范圍 | 相關程度
----|------|----
0 <= r絕對值 < 0.3 | 低度相關
0.3 <= r絕對值 < 0.8 | 中度相關
0.8 <= r絕對值 <= 1 | 高度相關
相關分析函數
#計算每個列兩兩之間的相關度,并返回DataFrame
DataFrame.corr()
#只計算該序列與傳入的序列之間的相關度, 返回一個數值型,大小為相關度
Series.corr(other)