前段時間學習了人大薛薇老師的統計學基礎課程,最近剛交了統計學作業,得到了TDU同學和薛老師的高度評價,并與薛老師交流了關于“原假設”的問題。在這里和大家分享一下這段學習歷程,與大家共勉,也歡迎大家提一些建議哈。
薛老師這次課程主要是基于案例探討統計分析方法的基本原理,她帶來的第一個案例是北京市空氣監測。
開頭便告訴我們從統計視角看案例數據,確定研究的樣本、步驟、問題,只研究供暖季的數據,數據處理的兩種方式:
第一,計算該時段各站點各變量均值,樣本量35
第二,忽略時間上的差異,視數據為截面數據。優勢:有效擴大了樣本量(采納)
研究步驟和問題:
第一步,樣本數據的描述統計。涉及問題:
了解數據缺失狀況
基本描述統計
診斷極端值:從統計視角檢測PM2.5爆表情況
第二步,依據樣本,對樣本來自的總體參數進行估計和對比。涉及問題:
估計北京市供暖季PM2.5(一個總體)的平均值
交通污染對PM2.5的影響:對比西直門北(區域)和定陵(區域)供暖季的PM2.5(兩總體)的平均值
第三步,基于樣本數據的深入研究
探討PM2.5成因;對比北京四個不同區域(西北、西南、正南、東/東南)PM2.5總體均值差異
探討PM2.5的空間特征和空氣質量的區域劃分
探討AQI的全面性問題
接下來針對研究步驟和問題展開講解,從最基礎的直方圖、概率密度函數、四分位數等內容到十分經典的假設檢驗、Bootstrap、多元線性回歸、聚類分析、主成分分析都有講解。
然后為我們帶來了第二個案例,基于HR的調查研究IT員工離職問題,研究離職主要因素并預測是否離職。因為這里研究的二分類變量與其他變量之間的關系,對二分類的被解釋變量不可以直接采用一般多元線性回歸分析方法,因此進行改進如下:
建立二項Logit模型,并講解二分類模型的評價問題,查準率和查全率(覆蓋率)和ROC曲線。
正所謂“實踐是檢驗真理的唯一標準”,在上完課后就進入作業環節。
說實話,薛老師布置的作業并不難,只要好好復習課件,一般都能答出來,但復習課件不僅僅是為了完成作業,同時也是一個理解吸收提高的過程。(ps:自己的作業也十分榮幸的得到了TDU同學和薛老師滿分+的評價,哈哈。)
以第一題為例,原題如下:
一、(15分)某大型企業HR通過隨機調查獲得了2720名技術員工對企業滿意度的打分(取值范圍:0~1)數據。對該樣本的基本描述統計結果如下。
請問:
1、 請基于上述計算結果,粗略繪制滿意度打分的概率密度分布曲線,并在圖中畫出有相同均值和標準差的正態分布曲線。(5分)
考察基礎知識,概率密度分布曲線和正態分布曲線,這兩個知識點雖然薛老師沒有直接講解,但都比較基礎,要求我們有一定的R自學能力,查一下就能知道結果。通過plot繪制出density概率密度分布曲線,通過mean和sd求出均值和方差,然后通過curve繪制出dnorm正態分布曲線。
核心代碼如下:
plot(density(Data$satisfaction_level))
mean_data = mean(Data$satisfaction_level)
sd_data = sd(Data$satisfaction_level)
curve(dnorm(x,mean_data,sd_data))
個人解答如下:
(1)滿意度打分的概率密度分布曲線如圖所示,可以看出,并不符合正態分布。
(2)求得均值為0.6078971,標準差為0.2541932,相應的正態分布曲線如圖,
2、?基于上述計算結果,你認為滿意度打分中是否存在異常數據?為什么?(5分)
正所謂外行看熱鬧,內行看門道,異常數據不是你覺得有異常就異常,需要理論依據,理論依據是啥?答:閾值,大于1.5倍的四分位差,詳見PPT第17頁。
個人解答如下:
答:滿意度打分不存在異常數據。為非對稱分布。
(1)先計算1.5倍的四分位差:
1.5*(quantile(Data$satisfaction_level,c(0.25,0.75))[2]-
quantile(Data$satisfaction_level,c(0.25,0.75))[1])
得到標準0.585。
(2)在計算上四分位數和下四分位數:
quantile(Data$satisfaction_level,c(0.25,0.75))
得到0.43(25%)和0.82(75%)
(3)計算出最值:
describe(Data$satisfaction_level)
得到0.09(min)和1(max)
因(0.43-0.585)不存在和(0.82+0.585)不存在,故無異常點。
3、基于上述計算結果,如果希望刻畫滿意度打分的樣本分布特征,應給出哪些最基本的描述統計結果?它們的含義是什么?(5分)
這道題考的十分基礎,最基本的描述統計結果,可以參考Basic descriptive statistics useful for psychometrics里的描述統計量,但背后是統計方法中的描述統計,是統計學的基石,也是個人統計學的基本功,雖然簡單,但必須重視。
個人解答如下:
答:可以有以下描述統計結果,
n:2720,一共有2720名技術員工的滿意度數據;
mean:0.61,滿意度的平均值為0.61分;
sd:0.25,滿意度的標準差為0.25,反映滿意度的離散程度;
min:0.09,滿意度的最值,最低分0.09;
max:1,滿意度的最值,最高分1;
skew:-0.48,左偏,偏離度-0.48;
se:0,均值的標準誤差StandardError
備注:標準誤=標準差/√n? ?? ?n是樣本量。公式意思是:標準誤等于標準差除以樣本量的平方根,
其他題目類似,十分經典,不在一一展開。
之后,我還與薛老師進一步交流了關于“原假設”的問題。
我們先看問題以及我的解答:
二、(25分)員工甲認為:企業技術員工的工作壓力大,他們對企業滿意度打分的總體平均值不會高于0.5分。基于第一題的隨機樣本數據,員工乙利用假設檢驗方法對員工甲的觀點進行了驗證,分析結果如下。
請問:
員工乙采用的是哪種統計檢驗方法?請給出假設檢驗的原假設。(5分)
答:采用的是單個總體均值的假設檢驗;由alternative hypothesis:
true mean is not equal to 0.5知原假設為真實的均值等于0.5。
但薛老師認為原假設是H0:μ0≤0.5
我:如果按題意他們對企業滿意度打分的總體平均值不會高于0.5分和最終結果平均值高于0.5分,那么原假設H0:μ0≤0.5。但如果看R執行的結果alternative?hypothesis:?true?mean?is?not?equal?to?0.5,那么原假設為真實的均值等于0.5,即μ0?=?0.5。在這里是不是應該以R執行的結果為準。薛老師:程序給出的都是雙側檢驗的概率P值,單側檢驗用它的1/2即可最后我提出加上alternative?=?"greater"這個參數,這樣alternative被則假設、原假設、R結果、題意都統一,就沒有歧義了。
t.test(Data$satisfaction_level,mu=0.5,side="less",alternative?=?"greater")
得到了薛老師的肯定,最終達成一致。
一場精彩的統計學課程結束了,但我們人生的學習之旅還有很長的路要走。
在此,感謝薛老師的精彩講解,感謝TDU引入這樣一門好課,感謝努力的自己。
時間在流逝,萬物在成長,引用國學大師錢穆老師的一句話作為結語,過去未去,未來已來。