貝葉斯法則與數(shù)據(jù)分析的價(jià)值,兼談AB測(cè)試

如果你不是統(tǒng)計(jì)學(xué)專業(yè)出身,沒有在教科書上系統(tǒng)學(xué)習(xí)過貝葉斯法則,那么今天讀到的這篇文章,可能會(huì)在你的一些樸素的認(rèn)知基礎(chǔ)之上,讓你獲得一個(gè)全新的思考和看待世界的方式。這也正好是我對(duì)很多人講過的,相比較于統(tǒng)計(jì)學(xué)知識(shí),真正對(duì)我們影響巨大的,其實(shí)是統(tǒng)計(jì)學(xué)思想。

先看一道練習(xí)題。

某機(jī)器每天狀態(tài)良好的概率是80%。良好狀態(tài)生產(chǎn)合格品幾率是60%,故障狀態(tài)生產(chǎn)合格品幾率是10%。某天打開機(jī)器生產(chǎn)的第一件產(chǎn)品是合格品,那么當(dāng)天機(jī)器良好的概率是多少?機(jī)器故障的概率是多少?

簡(jiǎn)單算概率:

狀態(tài)良好概率為80%*60%/(80%*60%+(1-80%)*10%)=96%

狀態(tài)故障概率為(1-80%)*10%/(80%*60%+(1-80%)*10%)=4%,或者1-96%=4%

按照貝葉斯法則展開分析如下:

機(jī)器狀態(tài)良好(事件A)的先驗(yàn)概率為80%。

第一件產(chǎn)品為合格品(事件B)發(fā)生的概率為P(B)=P(B|A)*P(A)+P(B|A~)*P(A~)=0.6*0.8+0.1*0.2=0.5

校正因子Z=P(B|A)/P(B)=0.6/0.5=1.2

第一件產(chǎn)品為合格品(B發(fā)生)時(shí)機(jī)器狀態(tài)良好(A發(fā)生)的概率,即A在B發(fā)生時(shí)的后驗(yàn)概率P(A|B)=P(A)*校正因子Z(A)=0.8*1.2=0.96

解讀:由于機(jī)器狀態(tài)良好時(shí)生產(chǎn)出合格品的概率遠(yuǎn)高于機(jī)器狀態(tài)故障時(shí)生產(chǎn)出合格品的概率,校正因子大于1,也就是說「第一件產(chǎn)品是合格品」構(gòu)成了對(duì)「機(jī)器狀態(tài)良好」這一先驗(yàn)概率的強(qiáng)化,這一事件發(fā)生之后,判定機(jī)器狀態(tài)良好的概率由事前的0.8上升到事后的0.96.

機(jī)器狀態(tài)故障(事件C)的先驗(yàn)概率為20%。

第一件產(chǎn)品為合格品(事件B)發(fā)生的概率為P(B)=P(B|C)*P(C)+P(B|C~)*P(C~)=0.1*0.2+0.6*0.8=0.5

校正因子Z=P(B|C)/P(B)=0.1/0.5=0.2

第一件產(chǎn)品為合格品(B發(fā)生)時(shí)機(jī)器狀態(tài)故障(C發(fā)生)的概率,即C在B發(fā)生時(shí)的后驗(yàn)概率P(C|B)=P(C)*校正因子Z(C)=0.2*0.2=0.04

解讀:由于機(jī)器狀態(tài)故障時(shí)生產(chǎn)出合格品的概率遠(yuǎn)低于機(jī)器狀態(tài)良好時(shí)生產(chǎn)出合格品的概率,校正因子小于1,也就是說「第一件產(chǎn)品是合格品」構(gòu)成了對(duì)「機(jī)器狀態(tài)故障」這一先驗(yàn)概率的弱化,這一事件發(fā)生之后,判定機(jī)器狀態(tài)故障的概率由事前的0.2下降到事后的0.04.

從上述分析計(jì)算過程中抽象出貝葉斯法則的通用形式:后驗(yàn)概率=先驗(yàn)概率*校正因子。校正因子大于1意味著新增信息強(qiáng)化了先驗(yàn)概率,校正因子小于1意味著新增信息弱化了先驗(yàn)概率。

通過上述正反兩面冗長的分析,我們抽象出認(rèn)識(shí)這個(gè)世界的三段論:

第一階段,對(duì)某事件,我們擁有一個(gè)先驗(yàn)的判斷,亦即先驗(yàn)概率;

第二階段,我們獲取了新增的知識(shí),得到了校正因子;

第三階段,結(jié)合先驗(yàn)概率和校正因子,我們對(duì)事件有了全新的認(rèn)知,亦即后驗(yàn)概率。

再然后,后驗(yàn)概率變成了下一輪的先驗(yàn)概率,我們對(duì)世界的認(rèn)知不斷深化,學(xué)習(xí)就此發(fā)生。

回到主題,我們接著聊數(shù)據(jù)分析的價(jià)值。

我一直和分析師強(qiáng)調(diào),做分析一定要理解業(yè)務(wù),對(duì)應(yīng)到貝葉斯法則的框架下,其實(shí)講的就是需要有先驗(yàn)概率的輸入。不理解業(yè)務(wù),不摸清現(xiàn)狀,連先驗(yàn)概率都搞不清,分析也沒什么好做的了。

對(duì)分析師而言,分析數(shù)據(jù)的過程,就是得到校正因子的過程。結(jié)合先驗(yàn)概率和校正因子,得到后驗(yàn)概率,再不斷迭代,就是加深業(yè)務(wù)理解、不斷獲得洞察的過程。

另一方面,很多業(yè)務(wù)同學(xué)對(duì)數(shù)據(jù)分析不切實(shí)際的期待是從數(shù)據(jù)分析師那里找到增長的魔法數(shù)字,或者是通過神奇的數(shù)據(jù)分析給出讓業(yè)務(wù)脫胎換骨的建議。如果不能把業(yè)務(wù)的先驗(yàn)輸入和基于數(shù)據(jù)分析的增益信息得到的校正因子結(jié)合在一起,每遇到一個(gè)問題就把自己置身事外,習(xí)慣性地說我們需要數(shù)據(jù)分析幫忙看清問題給出結(jié)論,往往就會(huì)緣木求魚,一無所獲。

優(yōu)秀的數(shù)據(jù)分析師,不僅注重在每一次分析過程中,幫助業(yè)務(wù)算清校正因子的影響,也會(huì)特別關(guān)注先驗(yàn)概率。大量的專題分析、線上的AB測(cè)試,都是為了獲得校正因子;同時(shí),各種數(shù)據(jù)報(bào)表、業(yè)務(wù)監(jiān)控、日/周/月報(bào),都是為了讓更多的人在先驗(yàn)概率層面上更充分地獲得信息。這兩者結(jié)合在一起,才能幫助不斷加深對(duì)業(yè)務(wù)的認(rèn)知,創(chuàng)造更大的價(jià)值。

再說說AB測(cè)試。AB測(cè)試本身是一個(gè)典型的校正因子獲取過程。決策本身所依賴的,除了校正因子的獲取,還有先驗(yàn)概率。在AB測(cè)試的流程里,先驗(yàn)概率其實(shí)包含于策略選擇中,之所以選擇了AB方案進(jìn)行測(cè)試,是因?yàn)橐呀?jīng)判定了這兩個(gè)備選方案代表著正確的方向,只是不確定哪個(gè)更正確。

有了以上的討論,我們?cè)賮砜匆粋€(gè)問題,如果某些時(shí)候,運(yùn)營活動(dòng)直接上了全量,應(yīng)該如何進(jìn)行效果評(píng)估和決策?

也就是說,我們做了一個(gè)運(yùn)營活動(dòng),不僅僅希望能拿到當(dāng)次活動(dòng)的效果,還希望通過評(píng)估,為后續(xù)的更多活動(dòng)策劃做得更好奠定基礎(chǔ),貢獻(xiàn)知識(shí)。那么,這種運(yùn)營活動(dòng)作為校正因子,如何起作用?答案很簡(jiǎn)單:想想在做這個(gè)活動(dòng)之前我們的認(rèn)知集合是什么樣的,搞清楚這個(gè),定義出我們擁有的先驗(yàn)概率,結(jié)合校正因子,就可以得出后驗(yàn)概率。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容