python數據分析與挖掘實戰(zhàn)

前三章:

1,python中的常見庫:

2,截斷均值是去掉高低極端值之后的平均數。

3,眾數是指數據集中出現最頻繁的值。眾數并不經常用來度量定性變量的中心位置,更用于定性變量。眾數不具有唯一性。

4,極差=最大值-最小值

5,標準差: 標準差度量數據偏離均值的程度,計算公式為:

6,變異系數

變異系數度量標準差相對于均值的集中趨勢,計算公式為:

7,統計量分析:均值,中位數,眾數。

8,集中趨勢度量:極差,標準差,變異系數,4分位數間距

9,周期性分析和貢獻度分析

10,相關系數

10.1 Pearson相關系數

一般用于分析兩個連續(xù)性變量之間的關系,其計算公式如下。

10.2Spearman秩相關系數

Pearson線性相關系數要求連續(xù)變量的取值服從正態(tài)分布。不服從正態(tài)分布的變量,分類或等級變量之間的關聯性可采用Spearman秩相關系數來描述。

其計算公式如下:

只要兩個變量具有嚴格單調的函數關系,那么他們就是完全Spearman相關的,這與Pearson相關不同,Pearson相關只有在變量具有箱型關系時才是完全相關的。

11,pandas 主要統計函數特征函數:

其中corr()中有一個參數method 參數,支持pearson , kendall ,spearman

12,累計統計特征函數:

注意:

pd.rolling_sum(D) D為Series對象

14,統計做圖函數

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。