原文地址:How to Learn Statistics for Data Science, The Self-Starter Way
統(tǒng)計(jì)學(xué):理解統(tǒng)計(jì)學(xué)、特別是貝葉斯概率對(duì)許多機(jī)器學(xué)習(xí)算法來(lái)說(shuō)都是至關(guān)重要的。
你想快速且低廉的方式學(xué)習(xí)統(tǒng)計(jì)學(xué)?好消息...,你可以通過(guò)免費(fèi)的在線資源掌握核心概念、概率、貝葉斯思想甚至統(tǒng)計(jì)機(jī)器學(xué)習(xí),這兒有自學(xué)最好的資源。
順便說(shuō)下,你不用需要一個(gè)數(shù)學(xué)學(xué)位,但是,如果你有數(shù)學(xué)背景,你肯定會(huì)喜歡這種有趣的、動(dòng)手的方法。
這個(gè)指導(dǎo)將使你有在數(shù)據(jù)科學(xué)領(lǐng)域必須的統(tǒng)計(jì)思維,它將讓你比一些沒(méi)有它的有抱負(fù)的數(shù)據(jù)科學(xué)家更有利。
你知道的,自從你學(xué)習(xí)如何去編程,它總是會(huì)引誘你直接使用機(jī)器學(xué)習(xí)包,即使你知道又能怎么樣呢?如果你想在開始的時(shí)候,通過(guò)在真正的項(xiàng)目里面去滾雪球的方式學(xué)會(huì)也是可以的。
但是,如果這樣的話,你將可能永遠(yuǎn)不會(huì)完全的去學(xué)習(xí)統(tǒng)計(jì)學(xué)和概率論,而作為一個(gè)數(shù)據(jù)科學(xué)家,這些是你的職業(yè)生涯中非常必要的部分,這就是為什么要學(xué)的原因。
首要必須的: 基本的Python技能
為了完成這個(gè)教程,你需要最基本的Python編程技能,我們將通過(guò)應(yīng)用、動(dòng)手的方式學(xué)習(xí)統(tǒng)計(jì)學(xué)。如果你沒(méi)有相關(guān)技能,可以通過(guò)我們的教程,如何通過(guò)自學(xué)的方式學(xué)習(xí)python, 這是快速學(xué)習(xí)Python最快的方式,我們推薦至少要完成到教程的第二步。注:可以是其他語(yǔ)言,但是示例都是Python.
在數(shù)據(jù)科學(xué)中,統(tǒng)計(jì)學(xué)的必要性
統(tǒng)計(jì)是一個(gè)廣泛的領(lǐng)域,應(yīng)用于許多行業(yè)。
它在維基百科的定義是:它是對(duì)數(shù)據(jù)的收集,分析,解釋,呈現(xiàn)和組織的研究。所以,數(shù)據(jù)科學(xué)家需要了解統(tǒng)計(jì)學(xué)就不那么讓人感到驚奇了。
例如,數(shù)據(jù)分析至少需要描述性統(tǒng)計(jì)和概率論。這些理論將幫助你更好的根據(jù)數(shù)據(jù)做一些商業(yè)決定。
關(guān)鍵概念包括概率分布,統(tǒng)計(jì)學(xué)意義,假設(shè)檢驗(yàn)和回歸。
而且,機(jī)器學(xué)習(xí)需要明白貝葉斯概率,貝葉斯概率是許多機(jī)器學(xué)習(xí)模塊的引擎。
關(guān)鍵概念包括條件概率、先驗(yàn)概率、后驗(yàn)概率、最大似然估計(jì),如果這些概念讓你感到畏懼,不要著急,一旦你卷起袖子并開始學(xué)習(xí),這一切都會(huì)明白。
學(xué)習(xí)數(shù)據(jù)科學(xué)中的數(shù)據(jù)統(tǒng)計(jì)最好的方式
到目前為止,你可能已經(jīng)發(fā)現(xiàn),“自學(xué)某個(gè)知識(shí)X”的共同方式是跳出課堂教學(xué)而直接通過(guò)動(dòng)手的方式,掌握數(shù)據(jù)科學(xué)中統(tǒng)計(jì)學(xué)也不例外。
事實(shí)上,我們通過(guò)編程的方式來(lái)掌握統(tǒng)計(jì)學(xué)中的核心概念,這將非常有趣。
如果你沒(méi)有正式的數(shù)學(xué)相關(guān)教育背景,那么你會(huì)發(fā)現(xiàn),通過(guò)這種方式能夠讓你更加簡(jiǎn)單的理解復(fù)雜的公式。它將讓你對(duì)每個(gè)計(jì)算的邏輯進(jìn)行思考。
如果你有一些正式的相關(guān)的數(shù)學(xué)背景,這種方式可以將你的理論與實(shí)踐將結(jié)合,且給你很多有趣的編程挑戰(zhàn)。
以下是在數(shù)據(jù)科學(xué)領(lǐng)域?qū)W習(xí)統(tǒng)計(jì)學(xué)和概率論的三個(gè)步驟:
-
統(tǒng)計(jì)學(xué)核心概念
描述性統(tǒng)計(jì),分布,假設(shè)檢驗(yàn)和回歸。
-
貝葉斯概率理論
條件概率、先驗(yàn)概率、后驗(yàn)概率、最大似然估計(jì)
-
介紹機(jī)器學(xué)習(xí)中的統(tǒng)計(jì)學(xué)
學(xué)習(xí)基本的機(jī)器學(xué)習(xí)概念及如何在機(jī)器學(xué)習(xí)中使用統(tǒng)計(jì)學(xué)
在完成這三步以后,你將真正的接觸和面對(duì)更加困難的機(jī)器學(xué)習(xí)問(wèn)題和常見的數(shù)據(jù)科學(xué)應(yīng)用。
第一步:統(tǒng)計(jì)學(xué)核心概念
為了知道如何去學(xué)校統(tǒng)計(jì)學(xué),首先,了解它是如何被使用的是對(duì)學(xué)習(xí)很有幫助的。讓我們先看一些真正分析的示例或作為一個(gè)數(shù)據(jù)科學(xué)家可能會(huì)用到的應(yīng)用:
- 試驗(yàn)性設(shè)計(jì):你們的公司開始一個(gè)新的產(chǎn)品線,但是是通過(guò)線下零售銷售。你需要設(shè)計(jì)一個(gè)A/B測(cè)試以控制不同區(qū)域之間的差異。你也需要從統(tǒng)計(jì)角度去估算門店使用的一些有意義的結(jié)果。
- 回歸模型:你們公司需要能夠更好的預(yù)測(cè)在它的所有門店里,個(gè)人產(chǎn)品線的需求是什么樣的。庫(kù)存不足和庫(kù)存過(guò)剩都會(huì)有很高代價(jià)的,你考慮建立一系列的正則回歸模型。
- 數(shù)據(jù)轉(zhuǎn)換:在你正在測(cè)試中,有多個(gè)機(jī)器學(xué)習(xí)模型供你使用,有些模型能夠通過(guò)輸入數(shù)據(jù)生成相應(yīng)的數(shù)據(jù)分布,你需要能夠識(shí)別他們,并適當(dāng)?shù)霓D(zhuǎn)換輸入數(shù)據(jù)或者知道在什么假設(shè)下具有相關(guān)性。
一個(gè)數(shù)據(jù)科學(xué)家每天要做上百個(gè)的決定,范圍小到一個(gè)模塊的挑戰(zhàn),大到一個(gè)團(tuán)隊(duì)的R&D策略。
大多數(shù)決定需要有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)和概率論的理論基礎(chǔ)。
例如,數(shù)據(jù)科學(xué)家需要經(jīng)常決定哪個(gè)數(shù)據(jù)是確定的,哪個(gè)數(shù)據(jù)是具有隨機(jī)性的。此外,他們需要知道是否有進(jìn)一步探索的興趣點(diǎn)。
這些都是在在做分析決定時(shí)很核心的東西(如果僅僅知道如何計(jì)算數(shù)值,那就僅僅接觸表面而已)。
這兒有我們發(fā)現(xiàn)的最好的自學(xué)統(tǒng)計(jì)學(xué)基礎(chǔ)的資源:

Think Stats是一本極好的書籍(有免費(fèi)的PDF版本),介紹所有核心概念。看這本書前提是什么呢?如果你知道如何編程,那么你可以在這過(guò)程中自己學(xué)習(xí)統(tǒng)計(jì)學(xué),我們發(fā)現(xiàn),這方式也很適合那些有數(shù)學(xué)背景的人。
第二步:貝葉斯概率理論
統(tǒng)計(jì)學(xué)的一個(gè)哲學(xué)辯論是頻率論(Frequentists)和貝葉斯概率理論(Bayesians),當(dāng)在數(shù)據(jù)科學(xué)中學(xué)習(xí)統(tǒng)計(jì)學(xué)時(shí),貝葉斯理論就更加具有相關(guān)性。
簡(jiǎn)而言之,頻率論近用于抽樣模塊。意味著,他們只會(huì)用于對(duì)已經(jīng)收集的數(shù)據(jù)進(jìn)行描述。
另一方面,貝葉斯理論不僅用于抽樣模塊,也會(huì)用于在收集之前不確定的數(shù)據(jù)。如果你想了解更多它們之間的區(qū)分,你可以看下這個(gè)帖子:For a non-expert, what's the difference between Bayesian and frequentist approaches?.
在貝葉斯理論中,在收集數(shù)據(jù)之前不確定的水平稱之為“先驗(yàn)概率”,數(shù)據(jù)之后,就會(huì)更新為“后驗(yàn)概率”,對(duì)于一些機(jī)器學(xué)習(xí)模型,這是很核心的概念,掌握它們非常重要。
而且,這些概念在使用它們之后都會(huì)有意義。
這兒有我們發(fā)現(xiàn)的最好的自學(xué)貝葉斯理論的資源:

Think Bayes是一本極好的書籍(有免費(fèi)的PDF版本),介紹所有貝葉斯理論相關(guān)的。它也是使用通過(guò)編程的方式去學(xué)習(xí),這種方式有趣且簡(jiǎn)單,我們發(fā)現(xiàn),這方式也很適合那些有數(shù)學(xué)背景的人。
第三步:介紹機(jī)器學(xué)習(xí)中的統(tǒng)計(jì)學(xué)
如果你想數(shù)據(jù)科學(xué)中學(xué)習(xí)統(tǒng)計(jì)學(xué),在你學(xué)完統(tǒng)計(jì)學(xué)核心概念和貝葉斯理論后,沒(méi)有比在機(jī)器學(xué)習(xí)模塊中使用統(tǒng)計(jì)分析更好的方式了。
機(jī)器學(xué)習(xí)領(lǐng)域和統(tǒng)計(jì)學(xué)聯(lián)系非常緊密,統(tǒng)計(jì)學(xué)的機(jī)器學(xué)習(xí)是現(xiàn)在機(jī)器學(xué)習(xí)最主要的方式。
在這一步中,你將實(shí)施一些來(lái)自scratch的機(jī)器學(xué)習(xí)模塊,這將幫助您解開對(duì)其潛在技術(shù)的真正了解。
在這一階段,即使你一行一行的直接copy代碼,也是可以的。
它將幫助你在鞏固你學(xué)習(xí)的統(tǒng)計(jì)學(xué)習(xí)的知識(shí)的同時(shí),打開機(jī)器學(xué)習(xí)的黑盒子。
選擇了以下模型,因?yàn)樗鼈冋f(shuō)明了前面幾個(gè)關(guān)鍵概念。
線性回歸
首先我們有預(yù)測(cè)模型的范例...
樸素貝葉斯分類器
再次,我們有工作很好的尷尬的簡(jiǎn)單模型...
多臂賭博機(jī)
最后,我們有著著名的的“20行代碼,打敗任何A / B測(cè)試!”
如果你渴望學(xué)到更多,我們推薦以下資源。

Introduction to Statistical Machine Learning是一本極好的電子書籍(有免費(fèi)的PDF版本),里面的示例是使用R語(yǔ)言,這本書涵蓋了更廣泛的話題,當(dāng)您在機(jī)器學(xué)習(xí)方面取得更多的進(jìn)展時(shí),這是一個(gè)有價(jià)值的工具。。