前三章:
1,python中的常見庫:
2,截斷均值是去掉高低極端值之后的平均數。
3,眾數是指數據集中出現最頻繁的值。眾數并不經常用來度量定性變量的中心位置,更用于定性變量。眾數不具有唯一性。
4,極差=最大值-最小值
5,標準差: 標準差度量數據偏離均值的程度,計算公式為:
6,變異系數
變異系數度量標準差相對于均值的集中趨勢,計算公式為:
7,統計量分析:均值,中位數,眾數。
8,集中趨勢度量:極差,標準差,變異系數,4分位數間距
9,周期性分析和貢獻度分析
10,相關系數
10.1 Pearson相關系數
一般用于分析兩個連續(xù)性變量之間的關系,其計算公式如下。
10.2Spearman秩相關系數
Pearson線性相關系數要求連續(xù)變量的取值服從正態(tài)分布。不服從正態(tài)分布的變量,分類或等級變量之間的關聯性可采用Spearman秩相關系數來描述。
其計算公式如下:
只要兩個變量具有嚴格單調的函數關系,那么他們就是完全Spearman相關的,這與Pearson相關不同,Pearson相關只有在變量具有箱型關系時才是完全相關的。
11,pandas 主要統計函數特征函數:
其中corr()中有一個參數method 參數,支持pearson , kendall ,spearman
12,累計統計特征函數:
注意:
pd.rolling_sum(D) D為Series對象
14,統計做圖函數