由于最近工作上都做數據分析的內容,所以根據眾產品大神推薦的數據分析應讀書單找了不少書來充電。《赤裸裸的統計學》是第一本,它的作者是Charles Wheelan,一名財經記者,他嘗試著用通俗易懂的筆法和具體的例子來向讀者介紹一些統計學的基礎理論。同時也是向另一本類似風格的統計學書籍——《統計數字會撒謊》致敬。
讀完后,個人覺得部分內容有一定統計學基礎的人才比較容易理解,但整體而言,全書還是能符合作者的初衷的。現將部分自己可以理解且可能對數據分析工作有啟發的內容摘錄如下。
1 描述統計學
作者在這章中提出了平均數、中位數、百分位數和標準差等幾類常用于事實描述的數據。
平均數:用于描述整體情況的基礎數據。例如想知道全體用戶的活躍情況,可以看人均每天訪問次數。
中位數:用于描述數據集中的趨勢。例如用戶每天訪問次數中位數是2,證明至少有一半的人的每天訪問次數是≤2的。
百分位數:用于描述某個數據在整體數據中的位置,例如某個數據是25百分位數,證明有25%的數據是小于該數據,75%的數據是大于該數據。
標準差:用于描述一堆數據的離散情況,越大越離散。
2 相關性和相關系數
如果兩類數據有相關關系并不等于是因果關系,舉例:家里有超過3臺電視的孩子教育水平要更好,并不是指電視越多教育水平就越高。有可能是家里電視多的,證明家里富裕,用于孩子教育的錢會更多。
3 概率和期望值
這章幫我回顧了大學課程《概率論》中關于期望值的內容,總結出兩個觀點:
①通過量化后的回報(期望值)對比成本來做決策,舉例:投入20萬,有70%的概率獲得200萬,30%的概率只剩2萬。那期望值=200×70%+2×30%=140.6萬,也就是回報的期望值是遠大于20萬的。
②大數定律,即隨著試驗次數的增多,結果的平均值會越來越接近期望值。第一點中舉例的例子雖然回報的期望值遠大于投入,但是可能你卻只夠錢投一次,那么風險還是很大的。但是如果你有錢投個十次八次,那么絕對是值得投的。
4 蒙提霍爾悖論(又叫三門問題)
很有趣的一個統計學問題:
百度百科:三門問題(Monty Hall problem)亦稱為蒙提霍爾問題、蒙特霍問題或蒙提霍爾悖論,大致出自美國的電視游戲節目Let's Make a Deal。問題名字來自該節目的主持人蒙提·霍爾(Monty Hall)。參賽者會看見三扇關閉了的門,其中一扇的后面有一輛汽車,選中后面有車的那扇門可贏得該汽車,另外兩扇門后面則各藏有一只山羊。當參賽者選定了一扇門,但未去開啟它的時候,節目主持人開啟剩下兩扇門的其中一扇,露出其中一只山羊。主持人其后會問參賽者要不要換另一扇仍然關上的門。問題是:換另一扇門會否增加參賽者贏得汽車的機率?如果嚴格按照上述的條件,即主持人清楚地知道,哪扇門后是羊,那么答案是會。不換門的話,贏得汽車的幾率是1/3。換門的話,贏得汽車的幾率是2/3。
以后有機會碰到類似的問題時,是不是知道該怎么做了?
5 數據和偏見
統計學在研究問題時,需要搜集數據,搜集數據的類型有兩類:縱向數據和橫向數據。
縱向數據:指時間維度的縱向,對觀察對象持續觀察數年甚至數十年來搜集數據。
橫向數據:指空間維度的橫向,對于不同地方的觀察對象采集數據。
在進行數據分析時,容易犯下以下偏見。
選擇性偏見:即以偏概全,搜集到的數據并不能代表全體。
發表性偏見:肯定性的數據結論要比否定性的數據結論更容易發表。
記憶性偏見:通過回憶得到的數據,誰也無法確保準確性。
幸存者偏見:數據樣本在觀察期沒有從頭到尾保持一致,例如一個班的平均成績越來越高是通過差生輟學來實現的,班級的實際成績水平并沒有得到真正的提高。
健康用戶偏見:以單方面的因素來得出結論,例如定期吃維生素的人更加健康,但有可能是定期吃維生素的人還會定期運動等等。
6 中心極限定理
中心極限定理的核心要義就是,一個大型樣本的正確抽樣與其所代表的群體存在相似關系。而正確抽樣一定要做到真正隨機。
7 統計推斷和假設驗證
進行數據分析的時候,我們通常會有正向思維和反向思維兩種方法。
正向思維就是指統計推斷:統計推斷是一個讓數據說話、讓有價值的結論浮出水面的過程。
反向思維就是假設驗證:從邏輯學來看,如果我們能夠證明某個零假設不成立,那么其對立假設(又稱備擇假設)肯定為真。
8 回歸分析和線性關系
回歸分析能夠在控制其他因素的前提下,對某個具體變量與某個特定結果之間的關系進行量化。也就是說,我們能夠在保持其他變量效果不變的情況下,將某個變量的效果分離出來。應用到實際的數據分析工作中就是A/B測試,在執行A/B測試的過程中一定要控制好只有一個自變量。
通過最小二乘法得出的OLS 直線可以讓所有數據的殘差平方和為最小,從而求出自變量和因變量的線性關系圖