這是優達學城Udacity“數據分析師”課程的“統計學”部分的實踐項目,在這跟大家分享,讓大家了解統計學知識在實驗中的應用。
項目概述
在該項目中,將對實驗心理學中的典型現象——斯特魯普效應展開調查。
將獲得對實驗的初步認識,根據結果作出假設,并親自體驗該實驗任務。
然后,要查看其他執行了相同任務的人的數據,并計算出描述這些結果的一些統計數據。
最后,要根據你的假設解讀結果。
為什么要做這個項目?
統計學是數據分析的主要組成部分,它可以幫助你調查數據,并根據觀察到的情況作出推論。
統計學基礎還可以幫助你利用他人的分析成果,并獲取他人的調查結論。
用到的技能
學會利用統計學知識從數據中得出有效的結論,包括:
- 如何確定實驗的組成部分
- 如何利用描述統計學描述樣本質量
- 如何安排假設檢驗,對樣本作出推論并根據結果得出結論
背景信息
在一個 Stroop (斯特魯普)任務中,參與者得到了一列文字,每個文字都用一種油墨顏色展示。參與者的任務是將文字的打印顏色大聲說出來。
這項任務有兩個條件:一致文字條件,和不一致文字條件。
在一致文字條件中,顯示的文字是與它們的打印顏色匹配的顏色詞,如“紅色”、“藍色”。
在不一致文字條件中,顯示的文字是與它們的打印顏色不匹配的顏色詞,如“紫色”、“橙色”。
在每個情況中,我們將計量說出同等大小的列表中的墨色名稱的時間。
每位參與者必須全部完成并記錄每種條件下使用的時間。
調查問題
1. 我們的自變量是什么?因變量是什么?
自變量:顯示文字與打印顏色是否匹配;
因變量:說出同等大小列表中墨色名稱的時間;
2. 此任務的適當假設集是什么?你想執行什么類型的統計測試?為你的選擇提供正當理由。
(1) 零假設:H0:μc=μic 顯示文字與打印顏色是否匹配,不會影響說出列表中墨色名稱的時間;
(2) 對立假設:Ha:μc ≠μic 顯示文字與打印顏色是否匹配,會影響說出列表中墨色名稱的時間;
符號解釋:μc:Congruent總體的均值;μic :Incongruent總體的均值
(3) 執行的是統計測試類型:
Dependent samples (Repeated measure)即相依樣本(重復測試),具體是:two conditions(兩種處理類型);
T檢驗;
雙尾檢驗;
(4) 理由:
此統計類型 控制了個性化差異,而且樣本更少,性價比高,耗時更少,花費少;
不知道總體的標準差,只知道樣本的標準差,所以用t檢驗,而不是z檢驗;
因為對立假設沒有方向性,只要證明 不相等 即可,所以采用雙尾檢驗;
現在輪到你自行嘗試 Stroop 任務了。前往此鏈接,其中包含一個基于 Java 的小程序,專門用于執行 Stroop 任務。記錄你收到的任務時間(你無需將時間提交到網站)。
現在下載此數據集,其中包含一些任務參與者的結果。數據集的每行包含一名參與者的表現,第一個數字代表他們的一致任務結果,第二個數字代表不一致任務結果。
3. 報告關于此數據集的一些描述性統計。包含至少一個集中趨勢測量和至少一個變異測量。
(1) 集中趨勢測量
(2) 變異測量
4. 提供顯示樣本數據分布的一個或兩個可視化。用一兩句話說明你從圖中觀察到的結果。
結論:總體來看,Incongruent 比 Congruent 用的時間要多;
5. 現在,執行統計測試并報告你的結果。你的置信水平和關鍵統計值是多少?你是否成功拒絕零假設?對試驗任務得出一個結論。結果是否與你的期望一致?
置信水平α=0.05,雙尾檢驗;
自由度df=23, t-critical=±2.069;
S=4.86;μc=14.05; μic=22.02; t= -8.02;
成功拒絕零假設 Reject H0;
結論:顯示文字與打印顏色是否匹配,會影響說出列表中墨色的時間;
與我期望的一致,直方圖觀察到的就是“文字與打印顏色不一致”條件下用時會更多;