統計分為兩種,一種是學術統計研究,一種是商務的統計分析。
一.?統計研究
統計研究步驟的基本邏輯: 設計-收集-整理-檢驗-分析
1.設計 Design
選題-明確研究目的-提出假設-明確總體范圍-確立觀察指標-控制研究中的偏倚-給出具體的研究方案。
P值 P value
置信區間 Confidence interval
2.收集 Data collection
質量控制非常重要。基礎數據的質量決定了統計結果。
連續變量? Continuous variable
分類變量? Categorical variable
單樣本? Single sample
兩樣本 Two sample
3.整理
借助軟件工具進行半自動花的整理。
抽樣誤差 Sampling error
標準誤差 Standard error
4.參數估計與假設檢驗:
點估計與區間估計 Point Estimation and Interval Estimation
假設檢驗的基本原理與標準步驟 hypothesis test
t檢驗
卡方檢驗
5.分析 Analyse
如何選擇正確的統計方法?
統計描述,了解樣本情況。引入相應的統計描述指標:
頻數統計 Frequency Table
集中趨勢 Central Tendency 均數Mean
離散趨勢? Dispersion Tendency? 全距Range 變異系數
分布形狀,是否對稱,分布曲線形狀,正負偏和左右偏。
分布特征,頻數分布和正臺分布,標準正太分布,二項分布,t分布
指標呈現方式:統計圖與統計報表。統計推斷,從樣本信息外推到總體,獲取解答 。
注意事項,相對數的應用中,分母不宜過小。幾個總綠比較的時候要注意構成的差別,如果分母不同不可直接相加或平均。
6.錯誤與錯誤控制 Misuse
一類錯誤(I型錯誤)
二類錯誤(II型錯誤)
二.統計分析
步驟 統計分析可以分為5個步驟
1.?描述要分析的數據的性質
2. 研究基礎群體的數據關系 ·
3. 創建一個模型,總結數據與基礎群體的聯系 ·
4. 證明(或否定)該模型的有效性 ·
5. 采用預測分析來預測將來的趨勢
軟件:SAS ,Python, Jupter, Pandas
Study road Map
第一階段:數學基礎,數學,高等數學,線性代數,概率論,數學建模;
?第二階段:計算機基礎,編程,Python,工具庫,R,網絡爬蟲;
第三階段:機器學習 Machine learning;
第四階段:數據挖掘 Data Mining;
第五階段:深度學習,網絡與框架.
其實我們能碰到的80%的問題,已經有人幫我們回答過了,答案在互聯網上,都能夠找得到,你只要搜索就好,剩下的20%,你再研究。往往很難的是思維結構,結構化體系花你搜集的知識。今天就是匯總了網絡上關于統計步驟的知識點。會搜索可以提高學習效率。用baidu搜索google鏡像,用wiki百科去看知識結構(https://www.wikipedia.org/),都是不錯的選擇。
希望通過結構化知識,提高學習效率,讓你的工作時間更值錢,賺錢更高效!------------《 數據分析筆記》