分享活動共分成兩個部分,第一部分是王曄老師分享關(guān)于A/B測試最佳實踐的經(jīng)驗分享,第二部分是老師和大家的Q&A的互動環(huán)節(jié)。以下是活動內(nèi)容的完整文字稿。背景回顧
5月24日晚,DTalk邀請到了DTalk聯(lián)合創(chuàng)辦人王曄老師,他是吆喝科技的CEO,清華大學(xué)本科,耶魯大學(xué)博士,曾在Google總部廣告質(zhì)量部門負(fù)責(zé)產(chǎn)品優(yōu)化。進(jìn)行了一次關(guān)于《吆喝科技王曄:A/B測試最佳實踐》的微信群線上主題分享。
1、AB測試是什么?
A/B測試是一種科學(xué)的試驗方法,可以利用少量樣本對決策進(jìn)行測試,從而在決策被廣泛執(zhí)行之前準(zhǔn)確預(yù)測其實施效果。
A/B測試在科學(xué)試驗,醫(yī)療健康,農(nóng)業(yè),廣告等領(lǐng)域都有重要應(yīng)用。嚴(yán)格的A/B試驗的實施比較復(fù)雜,門檻和成本比較高,往往只能用在很關(guān)鍵的決策中。
互聯(lián)網(wǎng)行業(yè)因為用戶主要在線上,試驗實施和樣本數(shù)據(jù)采集很方便,可以大量進(jìn)行A/B測試,大大提高了決策的科學(xué)性和有效性。
Google和Amazon最早建設(shè)了完善的A/B測試試驗系統(tǒng),實現(xiàn)了超越傳統(tǒng)行業(yè)100倍以上的試驗?zāi)芰Γ瑯I(yè)務(wù)發(fā)展速度非常快。
2、A/B測試是為解決什么問題而誕生的?
科學(xué)家在探索事物的因果關(guān)系過程中,發(fā)現(xiàn)大部分分析手段是得不出確切的“因果聯(lián)系”的。用西方醫(yī)學(xué)舉例,18世紀(jì)的時候還有很多醫(yī)生認(rèn)為直腸是決定身體健康最關(guān)鍵的器官,理由是很多重病患者的直腸都有問題。但是這個理由并不充分,會不會是其他原因?qū)е铝思膊。缓蠹膊∮绊懥嘶颊叩闹蹦c呢?會不會有其他更加影響健康的因素呢?
因為無法知道兩個事情之間的因果關(guān)系,我們就沒法“預(yù)測決策的效果”。看一個NBA的例子,數(shù)據(jù)顯示科比得分越多的比賽,湖人隊輸球比率越高。那么科比是湖人隊的毒瘤么?會不會是湖人隊越困難的比賽越需要科比挺身而出多多得分呢?如果教練把科比放在板凳上,湖人隊就會提高勝率么?這個問題完全沒法回答。
這里再給大家兩個好玩的數(shù)據(jù)分析例子:
隨著美國政府在宇宙和科技上的開支越來越大,各種自殺者的數(shù)量也越來越多;
隨著人均黃油消耗的減少,緬因州的離婚率也顯著下降了。
這種情況一直困擾著科學(xué)家,政府領(lǐng)導(dǎo),和企業(yè)老板。直到后來科學(xué)家發(fā)現(xiàn),如果我們把患者分成對照組和試驗組,給試驗組的患者服用藥物,給對照組的患者服用安慰劑,然后再對比兩組患者的治療效果,得出統(tǒng)計學(xué)意義上的結(jié)果,就能準(zhǔn)確的分析出藥物和療效之間的因果聯(lián)系。通過這種A/B測試,我們可以知道藥物是否比安慰劑更有療效,以及有“多大”的療效。如果我們把這個藥給全世界所有的患者使用,會增加治愈率0.1%?還是1%?還是10%?還是100%?我們可以估計出這個療效的范圍。
如果沒有A/B測試,我們是無法得出這種因果聯(lián)系和預(yù)測性結(jié)論的。A/B測試幾乎是我們唯一可以使用的方法。
比較麻煩的是一個A/B測試的實施涉及到試驗設(shè)計,樣本選取,控制實施,數(shù)據(jù)收集,統(tǒng)計分析,試驗首尾,總結(jié)結(jié)論等等各種工作,流程復(fù)雜,門檻高,成本高,所以只能用在關(guān)鍵決策上。
不過現(xiàn)在有了吆喝科技AppAdhoc(或者硅谷的Optimizely)這樣的A/B測試試驗系統(tǒng),可以幫助互聯(lián)網(wǎng)產(chǎn)品運營幾乎全自動的實施A/B測試,而且可以大量并行的試驗,做到精細(xì)化的運營決策,這就讓A/B測試的應(yīng)用場景大增,產(chǎn)生的商業(yè)價值也大增。
3、A/B測試的準(zhǔn)確定義是什么?怎樣正確的做A/B測試?
對于A/B測試最常見的誤解就是認(rèn)為A/B測試就是對兩個版本的直觀對比。把用戶分流一下,不同的用戶看到不同的版本,然后對比一下看看哪個的轉(zhuǎn)化更多。
這種對比測試其實我們經(jīng)常會去嘗試,但問題是得出的結(jié)論非常模糊,今天這個版本的數(shù)高一些,明天那個版本的數(shù)好看一些,最后92 vs 98,到底是A比B好,還是B比A好,還是兩者沒什么差別?由于誤差大,分流不精確,干擾因素多,試驗結(jié)果通常意義不大。除非A和B版本里有一個夸張的爆款(數(shù)據(jù)高出幾倍幾十倍),否則很難給我們后續(xù)的業(yè)務(wù)決策提供什么有價值的參考。
當(dāng)然,有些對比測試做的更簡單,比如先把A跑兩天,再把B跑兩天,這種誤差就更大了,前兩天下雨了,導(dǎo)致A組不好,其實冤枉了做A方案的產(chǎn)品經(jīng)理。
這是Airbnb的創(chuàng)始人給大家的一張圖。這是Airbnb核心業(yè)務(wù)指標(biāo)(Nights booked)的變化情況,三個月跌宕起伏的增長起來。
中間一個月(紅色曲線)發(fā)生了什么?Airbnb上線了一個功能,然后一個月后下線了。那么這個功能對Airbnb的業(yè)務(wù)起到了什么作用呢?不知道。可能是正向影響,但是沒有總結(jié)經(jīng)驗獎勵團(tuán)隊,丟失了繼續(xù)增長的機(jī)會;可能是負(fù)向影響,但是因為其他事情做的好問題被掩蓋了,白白背了一個月?lián)p失;也可能是沒有影響,項目白干。所以Airbnb要求產(chǎn)品的任何功能,運營的任何想法,必須先跑小流量A/B測試,給出確定的結(jié)論,只有成功的項目才會全面上線。
真正的A/B測試是分離式組間試驗,通過均勻采集試驗組和對照組的樣本,排除其他因素的干擾,對“A和B兩個版本是否影響了優(yōu)化指標(biāo)”進(jìn)行假設(shè)檢驗,并且估計出“影響的范圍”。
如果要判斷我們做的是不是A/B測試,只需要看看試驗結(jié)果是否能“復(fù)現(xiàn)”即可。我們這次試驗得出的結(jié)論,如果隔幾天重新再做一遍這個試驗,結(jié)論一樣么?
實踐之中,最好使用完善的試驗系統(tǒng)來實施線上的A/B測試,這里必須推薦AppAdhoc A/B Testing,使用成本低,而且有專家咨詢服務(wù),避免失誤。如果需要線下的精確試驗,最好請專業(yè)團(tuán)隊來幫助實施,有一定成本,我知道新加坡政府經(jīng)常雇傭新加坡國立大學(xué)的商學(xué)院團(tuán)隊來做公共政策的A/B測試,還有很多專業(yè)公司給制藥廠提供臨床3期A/B測試服務(wù)。
4、怎么做A/B測試才能實現(xiàn)業(yè)務(wù)提升?
那么回到實際工作中,我們互聯(lián)網(wǎng)產(chǎn)品運營怎么用A/B測試?怎么做A/B測試才能實現(xiàn)業(yè)務(wù)提升?
互聯(lián)網(wǎng)產(chǎn)品運營通常都有重要的業(yè)務(wù)優(yōu)化指標(biāo),或者說可以量化的KPI,比如教育行業(yè)的在線招生轉(zhuǎn)化率,線上銷量,線索數(shù)量,App留存率,商品復(fù)購率,用戶使用時長,用戶轉(zhuǎn)發(fā)量等等。
針對這些優(yōu)化指標(biāo)(比如用戶活躍行為數(shù)量),我們會提出優(yōu)化的試驗想法(比如增加性格評測功能用戶會喜愛),并且分析總結(jié)成科學(xué)的假設(shè)(增加性格評測,用戶活躍行為數(shù)量會增加20%),再設(shè)計和運行一個或多個A/B測試進(jìn)行假設(shè)檢驗(用10%的流量來試驗,對比有性格評測功能的用戶組vs沒有性格評測功能的用戶組,檢查有性格評測功能的用戶組的用戶活躍行為數(shù)量是否增加)。
我們看一個實際的電商行業(yè)的案例。這是微軟商城的一個試驗案例,用AppAdhoc A/B Testing實施的A/B測試。
微軟正在大力推廣Surface,希望線上銷量能夠提升。在微軟商城Surface的商品詳情頁,優(yōu)化指標(biāo)是加入購物車的轉(zhuǎn)化率。大家注意到這個商品詳情頁里有三塊輔助的內(nèi)容:售價欄,詳情欄,促銷欄。那么這三個版塊的排版會不會影響用戶加入購物車的行動呢?比如,強(qiáng)調(diào)促銷欄會不會有助于用戶更愿意加入購物車?這個想法是個很有意思的假設(shè),試驗實施也很簡單,簡單調(diào)整一下版塊的排版就可以做出A, B, C三個試驗版本。試驗流量均勻分配,對照組,A, B, C四個版本各25%的流量。那么試驗結(jié)果呢?試驗版本A提升60%[+33%,+87%](95%置信區(qū)間)。這個結(jié)果說明試驗想法是有道理的,排版會影響用戶的下單行為,值得繼續(xù)優(yōu)化。當(dāng)然,我們可以講A版本全面上線,想受到至少33%的轉(zhuǎn)化率提升。
像這樣的優(yōu)化試驗,微軟每天都在做,所以可以精細(xì)化的提升自己的線上業(yè)務(wù)指標(biāo)。
那么是不是每個試驗都有效果呢?很遺憾,歷史經(jīng)驗告訴我們,我們對用戶需求的理解是很不足的,大量的試驗都和我們的預(yù)期不一樣。
前Amazon和現(xiàn)Microsoft的A/B測試負(fù)責(zé)人Rony Kohavi試驗經(jīng)驗非常豐富,他的結(jié)論是60-90%的想法做A/B測試后都被驗證失敗了。
有趣的是,在做A/B測試之前,我們產(chǎn)品經(jīng)理和運營高手都是自信滿滿,但是做了一些A/B測試之后開始逐漸謙卑,不再貿(mào)然說自己的想法好。再經(jīng)過一段時間的試驗,我們有可能過分悲觀的反思“我活在世上有什么意義”。
其實盲目自大和盲目消極都不能帶來成功。還是有相當(dāng)比例的試驗會大獲成功,而且有些成功的試驗還是意料之外的,這些意外成功都是我們繼續(xù)加大探索步伐最終走向爆款成功的關(guān)鍵。
做A/B測試能夠提升業(yè)務(wù)的最重要方法就是“大量試驗”,“高頻試驗”,量化我們的經(jīng)驗,增加試錯的速度,加快對用戶真實需求的學(xué)習(xí)。
Twitter最初只能人肉做A/B測試,所以每個月就跑2個試驗,增長速度慢;后來有了系統(tǒng)性的試驗?zāi)芰Γ梢悦總€月跑40個試驗了,增長速度就翻了倍。
增長黑客常常跟大家說自己成功的絕招,仿佛一招就能力挽狂瀾;其實真正的成功之路,是快速的試100招,從中找到對用戶有用的10招,然后從這10招去進(jìn)一步探索研究,最終形成一套秘技,實現(xiàn)快速的增長。然后可以和人分享你發(fā)現(xiàn)的最好玩的一招。
記住,做大量試驗,找到用戶愛你的點,然后加大投入獲取爆發(fā)。
分析了一百款現(xiàn)象級App關(guān)鍵迭代,梳理出兩條用戶增長邏輯
這個文章大家現(xiàn)在不用看,以后可以看。里面說到這些看似“一夜爆發(fā)”的產(chǎn)品是如何不斷迭代試驗找到爆發(fā)的。
A/B測試可以應(yīng)用在很多業(yè)務(wù)環(huán)節(jié),比如對于增長黑客的流量漏斗模型來說,流量入口,用戶活躍和留存,營收轉(zhuǎn)化這幾個環(huán)節(jié)都可以大量做試驗來提升轉(zhuǎn)化率。
針對營銷拉新場景,用戶的初次體驗(比如廣告著陸頁和產(chǎn)品首頁)特別值得多做試驗優(yōu)化。針對用戶活躍和留存,產(chǎn)品功能的用戶體驗需要持續(xù)的試驗優(yōu)化,各種運營活動也應(yīng)該多做試驗積累經(jīng)驗。
當(dāng)然,在關(guān)系到業(yè)務(wù)核心支撐的重大決策上更加需要做A/B測試,比如金融行業(yè)的風(fēng)控模型的修改,運營商套餐具體的檔位和定價,推薦算法的迭代等等,這些大項目都應(yīng)該使用A/B測試來精確實施。
對大部分試驗場景來說,實施的過程可以用這個圖來解析:
使用AppAdhoc這樣的試驗系統(tǒng)的情況下,大部分過程都是全自動的,需要我們?nèi)斯げ僮鞯氖虑橹饕ㄐ枨蠓治觯庉媱?chuàng)建試驗版本,集成調(diào)試,分配試驗流量,實時追蹤數(shù)據(jù),和決策。
5、怎樣形成高頻A/B測試的試驗文化?
要想實現(xiàn)大量試驗,高頻試驗,不能只是一個或者幾個業(yè)務(wù)人員單槍匹馬瘋狂的做試驗。事實上有了好工具之后做試驗不難,難點在于好的試驗想法。要有大量的試驗想法,就需要團(tuán)隊盡可能的全員參與創(chuàng)新。
不過,我們會發(fā)現(xiàn)不是團(tuán)隊里的所有人都喜歡A/B測試。有些崗位是沒有業(yè)務(wù)KPI的,比如對很多研發(fā)工程師來說,代碼質(zhì)量,bug-free,deadline是技術(shù)大牛追求的事情。如果每一個技術(shù)改進(jìn)都需要先做A/B測試才能最終上線,雖然降低了貿(mào)然上線的風(fēng)險,但是會拖延進(jìn)度,減緩上線的成就感。何況技術(shù)改進(jìn)并不一定能提升業(yè)務(wù)指標(biāo),這就給上線帶來了額外的“考驗”。
還有一些業(yè)務(wù)人員,要么過于自信相信自己的直覺,要么不愿意自己的工作被準(zhǔn)確衡量,所以不喜歡A/B測試。這種情況并不是不存在的。
我們不是要黑“碼農(nóng)”和“獨裁者”,事實上他們有充分的理由不喜歡A/B測試,但是事實上A/B測試也許能夠幫助到他們,那么也許隨著更多試驗的進(jìn)行,他們的看法也會漸漸變化。
我在硅谷和華爾街看到的情況是,Google, Amazon, Airbnb,Capital One, Geico這些企業(yè)里人人都想做A/B測試,人人都想提升公司的KPI。這就是企業(yè)里試驗文化。
Google上市以后到2007年建設(shè)了完善的A/B測試試驗系統(tǒng),之后試驗越做越高頻。
我個人的看法是,試驗文化鼓勵創(chuàng)新,讓每個人都有更多的機(jī)會,可以將自己的想法付諸行動。我想做一個產(chǎn)品功能,我有我的理由,但是其他人可能會看到我想法的不足,在團(tuán)隊里一定會有異議。如果沒有A/B測試,這樣的創(chuàng)新項目很難落地。有了A/B測試,我就可以申請跑一個1%流量的試驗,機(jī)會就大多了。有機(jī)會行動,就有機(jī)會創(chuàng)造價值,任何一點為業(yè)務(wù)增長的貢獻(xiàn)都可以被A/B測試準(zhǔn)確衡量,這就可以鼓勵我再做更多的試驗來繼續(xù)向上前進(jìn),士氣節(jié)節(jié)高漲。
另一方面,試驗文化緩解領(lǐng)導(dǎo)的壓力,領(lǐng)導(dǎo)不需要背負(fù)所有決策的重?fù)?dān),可以允許大家積極嘗試,讓試驗數(shù)據(jù)來幫助最終的決策。從同事的角度來看,領(lǐng)導(dǎo)一發(fā)話,創(chuàng)新就死掉了,大家就沒有了熱情。領(lǐng)導(dǎo)不輕易說是/否,反而給大家更多發(fā)揮自我價值的舞臺。
所以,要想建設(shè)試驗文化,就要積極鼓勵團(tuán)隊從小的試驗小的項目做起,看到自己的工作價值(我的想法幫助公司的營收提升了1%!)。要減少凡事直接請示領(lǐng)導(dǎo),而是拿著試驗數(shù)據(jù)去找領(lǐng)導(dǎo)。大家開會,可以圍繞著試驗數(shù)據(jù)來討論。
領(lǐng)導(dǎo)不是只考核團(tuán)隊的KPI,還要看KPI的增長情況,更要看試驗數(shù)量試驗頻率的情況。這樣才能更好的讓大家朝著正確的方向努力。
具有試驗文化的企業(yè)都是各行業(yè)最優(yōu)秀的企業(yè),他們都從大量A/B測試試驗中找到了很好的增長機(jī)會。
這里有一些我們吆喝科技客戶的試驗案例,大家可以看看他們是怎么做的:
http://www.appadhoc.com/blog/category/instance/
Q&A : 根據(jù)留言區(qū)的提問,選出幾位提問的朋友,有針對性的分享。
幸運觀眾1:太空可樂
問題1. 如果選擇服務(wù)端分配試驗流量,如何處理網(wǎng)絡(luò)延時導(dǎo)致變量無法及時展示問題?
王曄老師的回答:這是個典型的問題。這個問題其實涉及兩種業(yè)務(wù)場景:
我們針對用戶的老用戶的留存、體驗做的試驗。那么這種實驗,一般來說都可以接受異步的方式。當(dāng)你分配流量進(jìn)行了這個樣本的選取把實驗配置推送到前端之后,客戶端的可以其實不用對這個實驗的配置做處理或者所謂的這個響應(yīng)展示。可以等用戶下一次再打開app的時候再處理。用戶的這個行為數(shù)據(jù),只有他進(jìn)入實驗之后才會獲取的話。他并不會影響你的實驗結(jié)果,這是可以很好處理。簡單來說:老用戶試驗:可以選擇異步請求服務(wù)端(后端),用戶真正到達(dá)試驗場景后再請求試驗信息,這樣用戶進(jìn)入實驗后控制變量的參數(shù)是直接從客戶端緩存讀取,不會出現(xiàn)延時。
另一個實驗場景呢,其實必須用同步的實驗,如營銷頁面,比如投放廣告的時候用戶點了廣告進(jìn)入了我們的這個營銷頁或者是廣告著陸頁。可能一個用戶一輩子都只看到一次,他點開這個廣告以后就再也不會點。對于這個頁面要做實驗,要對比不同版本,它就需要我們的后端要盡可能快的把實驗配置、實驗分流做好。然后前端盡可能快的顯示出來。這是這是一個對技術(shù)上的一個更高的考驗。然后我們的系統(tǒng)能夠控制它正確的。進(jìn)入這一個或者這幾個實驗正確的去渲染還有用戶體驗邏輯。然后獲取相應(yīng)的數(shù)據(jù)。簡單來說新用戶試驗:如營銷活動的落地頁,這種情況如果對新用戶的行為數(shù)據(jù)要把握比較準(zhǔn)確的話,可以考慮直接請求,也就是客戶端直接向測試后端請求同時完成流量劃分及試驗參數(shù)獲取。
問題2. 如果選擇了客戶端在初始化時請求試驗參數(shù),對于頁面層級比較深的頁面,如何處理流量浪費問題?
王曄老師的回答:頁面層級比較深,我理解是,就是比如說我一共有一百萬用戶。但是,這一百萬用戶可能只有一萬個用戶他會去進(jìn)入付款頁面,那么所以付款頁面實際上只有一萬個用戶可以參與實驗。在這種情況下。應(yīng)該不叫流量浪費,因為你實實在在的其實只有一萬個用戶參與了這個實驗。那么在你的這個最終的這個統(tǒng)計里面應(yīng)該只有這一萬個樣本。
問題3. 以及因頁面層級深轉(zhuǎn)化用戶不均勻產(chǎn)生系統(tǒng)性偏差的問題?
王曄老師的回答:第三個問題和第二個問題,其實是這個一脈相承的。如果我們只有最后的頁面只有這么多樣本,那我們就要盡可能保證這些樣本他能夠被均勻地分配。如果最后付款成功的用戶只有一千個。那么你最多有一千個樣本,那么你得出來的結(jié)論可能就會更加的模糊。但是即便是模糊的也必須是準(zhǔn)確的,比如他能給你精確的百分之九十五置信區(qū)間,那么它的置信區(qū)間你可以理解為一種誤差。誤差是準(zhǔn)確的就行,這是我們不可避免的一個問題。
太空可樂的觀點:
明白了,核心問題是對“真正”觸達(dá)試驗環(huán)境才請求試驗參數(shù)。我當(dāng)時確認(rèn)了一下答案。『核心問題是用戶真正到達(dá)試驗場景后再請求試驗信息』,這就延伸出異步請求和同步請求,兩種場景對開發(fā)同學(xué)其實是完全不同的需求。這個需要在搭建試驗甚至是有了想做abtest之前就應(yīng)該考慮到的。二者各有利弊,需要權(quán)衡。
目前實際中選擇異步。沒有對真正觸達(dá)試驗場景做要求。是APP在初始化的時候就請求后端給參數(shù),然后加入了一個回調(diào)機(jī)制,也就是當(dāng)緩存里面取到了參數(shù),通知前端調(diào)取參數(shù),進(jìn)行正確試驗環(huán)境的渲染,由于APP有開機(jī)動畫,開機(jī)動畫基本上消化了這個請求-調(diào)取的過程。所以新用戶異步請求也能正確進(jìn)入試驗環(huán)境。
但是依舊帶來了個問題,就是APP初始化就必須去請求(因為只有開機(jī)動畫能緩沖延時)。也就帶來了我說的試驗流量的問題。每一個啟動APP的用戶我都認(rèn)為是試驗用戶,但是實際觸達(dá)真實試驗環(huán)境的用戶,并沒有這么多。直接請求還有別的問題,內(nèi)容下發(fā)的服務(wù)端和流量劃分的服務(wù)端耦合度太高,會導(dǎo)致更多問題,不光是速度。這是服務(wù)端劃分流量帶來的不可調(diào)和的問題。如果客戶端預(yù)先已經(jīng)做好流量劃分,就沒有這種問題了,但是埋點工作會非常多,而且無法對工具進(jìn)行平臺化,也就是具體的產(chǎn)品業(yè)務(wù)線自己在客戶端代碼里面做好流量劃分。
幸運觀眾2:張章-策略PM
問題1、在生產(chǎn)用戶標(biāo)簽時,比如算法挖掘出來的性別標(biāo)簽,應(yīng)用在精準(zhǔn)營銷,如何通過線上AB測,來測試標(biāo)簽的準(zhǔn)確率,以及標(biāo)簽的應(yīng)用效果?
王曄老師的回答:這個問題其實是一個非常有意思的一個實驗場景。當(dāng)我們對用戶有了一定的畫像或者標(biāo)簽的時候。怎么才能通過ab測試或者一些方法來驗證這個標(biāo)簽的準(zhǔn)確性。
我覺得針對這個問題,我可能有兩個點可以分享,一個對于標(biāo)簽是否準(zhǔn)確這件事情,不一定是用完全用ab測試來驗證。他可能需要我們標(biāo)注人員或者是專業(yè)的專家來進(jìn)行一些樣本的抽取,檢查這個標(biāo)簽是否正確。我們在建模的時候,所做的一些工作,他又本身就有自己的準(zhǔn)確率,一類錯誤二類錯誤的,他有這些相應(yīng)的這些指標(biāo)可以去衡量。
從另外一個角度講的這個標(biāo)簽,關(guān)于用戶的作為、用戶的一些預(yù)測相關(guān)的。比如這個標(biāo)簽說用戶會喜歡什么東西或者我們應(yīng)該給他推送什么東西。而如果這些標(biāo)簽具備這樣的這個特點。那么他其實在指導(dǎo)我們的行動。這些行動是不是有效呢,他也是一個假設(shè),我們確實可以去做AB測試、假設(shè)檢驗。我們可以根據(jù)這個標(biāo)簽去采取不同的行動,千人千面的行動。然后來對比沒有用這個標(biāo)簽,沒有千人千面的這個版本效果,是不是我們預(yù)期的一樣。
如果因為這種用戶畫像和標(biāo)簽對我們算法、邏輯好帶來了實際的價值。并且我們能夠比較精確地衡量價值是多少,比如提升了我們多少點擊,提升了我們多少業(yè)務(wù)量。那我們就可以去評價這套標(biāo)簽的價值是多少。
張章-策略PM的觀點:
對于有測試集和訓(xùn)練集的標(biāo)簽,確實能直接獲取到準(zhǔn)確率,不需要通過ABtest。用戶偏好類、預(yù)測類標(biāo)簽,通過ABtest能夠得到效果提升的指標(biāo)比如點擊率和轉(zhuǎn)化率,但是準(zhǔn)確率的數(shù)值,我覺得仍然無法獲得,因為沒法用點擊率和轉(zhuǎn)化率來代替準(zhǔn)確率;
標(biāo)簽的應(yīng)用效果影響到業(yè)務(wù)指標(biāo),看標(biāo)簽應(yīng)用之后業(yè)務(wù)指標(biāo)的提升情況;
問題2、AB測試有哪些局限性?對流量是否有數(shù)量上的限制,比如用戶量必須到了一定量才能適合ab測,這個量怎么評估?
王曄老師的回答:
AB測試有哪些局限性,其實局限性太多了,比如有些場景是做不了AB測試的。那比如說流量,做這個火箭發(fā)射的,可能一年也發(fā)射不了幾根火箭,所以你沒有辦法通過足夠多的樣本去推出什么結(jié)論。另外是線下的商品,比如牙膏做成什么樣的形狀的這個銷量更好,這個做起來就會非常的困難。
如果只說流量對AB測試的限制,我們的這個經(jīng)驗是這樣的,如果做線上業(yè)務(wù)的正常的轉(zhuǎn)化率來有日活一千的流量。你就值得去做一些優(yōu)化
如果日活有一萬的流量,無論是你是營銷場景,還是你買來的流量做做轉(zhuǎn)化。還是留存的用戶。做一次AB測試是對你幫助就非常大。
張章-策略PM觀點:
其實之前我一直認(rèn)為,ABtest至少日活有上十萬,才會有測試的意義,看來這一點,我之前就理解的有偏差。
幸運觀眾3:安娜-IT-網(wǎng)站運維
問題1:如何評估一個測試是否成功? 一個網(wǎng)站同時最多進(jìn)行幾個測試? 是否一個測試只能測試一點變化(如一個feature, button etc),比如兩個設(shè)計和排版不同的促銷落地頁面是否可以測試? 需要注意什么?
王曄老師的回答:
如何評估一個測試,我猜想是你說的是這個業(yè)務(wù)場景的AB測試他是不是成功。其實我覺得任何一個AB測試,無論什么樣的結(jié)果,都應(yīng)該是成功的。
如果這個實驗結(jié)果說明你的想法對用戶沒有什么影響,其實他也告訴給了你一個很好的結(jié)論,就這條路可能行不通,你該換換思路;如果這個結(jié)論是說你的想法跟你的預(yù)期截然相反,你本來希望讓用戶多下單,結(jié)果最后用戶下單量反而減少了。那么他可能讓你反思一下。當(dāng)然也要去你可以去反思,是不是我技術(shù)實現(xiàn)上有bug,還是我的整體的這個用戶的需求理解有問題。當(dāng)然最好的情況是你的試驗的結(jié)果跟你的假設(shè)完全吻合,試驗證明了這一點,這對你是一個莫大的激勵。
從這個角度來看的話呢,我覺得實驗結(jié)果,無論是怎么樣的,他都是很很成功的。因為他對你來說都有一個非常大價值,你從中學(xué)到了很寶貴的東西。從另外一個意義上可以說什么樣的實驗更成功什么樣試驗?我覺得更成功實驗投入產(chǎn)出比更高,比如想法需要兩個月才能去實現(xiàn)才能落地。我花了兩個月,然后才開始做實驗過了兩個星期才收集到數(shù)據(jù)。那么這就不如可能你有一個簡單的想法,只需要這個幾個小時就可以實現(xiàn)。產(chǎn)生實驗,結(jié)果帶來的幫助更大。
所以從一定意義角度來講,我們其實更鼓勵大家從小的點、更低成本的做實驗的角度去做事情。有些大的試驗,比如我們用戶的畫像、AI的模型、風(fēng)控算法的改進(jìn),那肯定都是很大的項目,這種決定性的項目更應(yīng)該去做AB測試。但是他可能在我們做之前對他的產(chǎn)出預(yù)期就有很多的學(xué)習(xí)分析,更加有可能得到我們預(yù)期中的結(jié)果。
問題2是否一個測試只能測試一點變化(如一個feature, button etc)?
王曄老師的回答:是否一個測試只能測試一點變化呢,并不是這樣,當(dāng)然了,一點變化這種實驗的話是我們非常鼓勵的,好處就在于我們剛才說的投入產(chǎn)出比。我知道了很多例子,都是你這個你可能只是簡簡單單的花了這個半天時間做了一個非常簡單的一個元素的變化。最后帶來個百分之十、百分之一百的這種增長這種情況屢見不鮮,所以只做一個點的測試呢,有助于我們有更高的投入產(chǎn)出比同時的話呢,也能幫助我們更好地理解用戶,我們可以知道僅僅因為。一個改變。用戶就能有什么樣的響應(yīng),這樣我們可能能夠得出一些更確定性的因果性的結(jié)論。
但是并不是我們只希望或者只期待做這種單變量一點點改變的實驗。我們很多時候是會做兩個設(shè)計和排版都不一樣的,比如廣告落地頁,進(jìn)行測試。這是非常常見的,因為很正常,因為我們在做廣告營銷的時候還是一個創(chuàng)意主導(dǎo)的事情。因為你對用戶的理解千變?nèi)f化,很多時候你的這個想法,,和那個想法完全不一樣,就拿互聯(lián)網(wǎng)金融產(chǎn)品來說,你是賣黃金產(chǎn)品你到底想在落地里根說這個東西回款快,還是收益高,還是低風(fēng)險的。其實這三個不完全不同的這個創(chuàng)意點就可能是三個完全不同的設(shè)計,那么他們能帶來轉(zhuǎn)化上的不同嗎,完全有可能。
這種實驗,你可以理解為是某種意義上的多變量的實驗。這個實驗變量的值變化的特別大的那種實驗。其實呢,沒有特別需要注意的。只是你可能使用的手段不一樣,比如你要用我們工具的話,我們有個專門的多鏈接實驗的一個工具,可以讓你非常方便的實施這樣的試驗。
安娜-IT-網(wǎng)站運維的觀點:我的問題是關(guān)于如何衡量測試是否成功,以及是否可以同時測試多個網(wǎng)站元素。
關(guān)于第一個問題,老師的回答很有趣,就是所有的測試都可以看作是成功的。即便預(yù)想沒有得到驗證,也可以得出結(jié)論,當(dāng)做反向?qū)W習(xí)的example。
第二個問題,老師的解答是單一元素的測試和多元素的測試都是可行的,具體回答可分為兩個部分。首先單一元素的測試是被鼓勵的,并且往往是投入產(chǎn)出比相對較高的測試:既可以降低測試設(shè)計成本,執(zhí)行起來比較方便。其次多元素測試也是經(jīng)常會涉及到的,特別是對于促銷活動頁面。雖然從設(shè)計到執(zhí)行成本比較高,但對于整體客戶體驗的測試對比會更直接。
我在一個跨過企業(yè)工作,屬于傳統(tǒng)行業(yè),執(zhí)行一次測試從idea到最后結(jié)果分析起碼要等2-3個月。昨天聽說很多公司都是同時進(jìn)行幾十個測試,覺得挺震驚的。所以總結(jié)一下就是對AB測試領(lǐng)域有更基礎(chǔ)的了解,強(qiáng)化了很多基礎(chǔ)理論和理念。
幸運觀眾4:楊林_產(chǎn)品 前邊做了個文案的實驗,但是最后結(jié)論差的特別大有百分之九百的差距。當(dāng)然我們產(chǎn)品本身數(shù)據(jù)量比較小,這個我還繼續(xù)實驗還是直接上?
王曄老師的回答:一個改文案的實驗還帶來了百分之九百的一個增長。這個事情需要更多的分析和支持。因為如果你的樣本量比較少的話,那么這個百分之九百,他是一個準(zhǔn)確的數(shù)字嗎?采集的是哪個時間范圍的樣本?是否精確?還有你有沒有去分析比如95%或者至少90%的置信區(qū)間。區(qū)間估計大概是多大?這些是很重要的信息。
假如我們百分之九十五置信區(qū)間的是(-300%,200%)。那么這個百分之九百是因為隨機(jī)性導(dǎo)致我們看到的一個不準(zhǔn)確的一個樣本值。他并不能告訴我們,一旦我們這個上線之后他真的能給我們帶來提升,因為置信區(qū)間還非常的寬,你并不知道哪個版本更好。
如果你的樣本量已經(jīng)足夠大并且得出一個比較精確的一個置信區(qū)間(600%-1200%)你就可以相信,這個版本確實很好,如果你真的有這么好的一個效果的文案。你不僅要把他上線,而且你要告訴所有的人。比如微博置頂、微信公眾號、廣告的所有頁面里都要改成這句話。
所以對非常有經(jīng)驗、技術(shù)專業(yè)比較深的人肯定都知道,實驗結(jié)果需要一個醫(yī)療三期臨床檢驗一個非常精確的統(tǒng)計學(xué)的結(jié)論,才能夠給我們最大的幫助。但是對于剛剛開始做AB測試的來說,你不能只是一個樣本采集的樣本值就說哪個好哪個壞,你還可能需要更多的分析。如果你的樣子量非常大的話,你也可以比較有信心樣本值。你在做幾次也能夠重復(fù)出現(xiàn),那么你的結(jié)論是非常可信的。
楊林_產(chǎn)品的觀點:小的改動比方說文案顏色,確實對產(chǎn)品有非常大的影響。不過在實際運行中,僅僅通過不同版本的數(shù)據(jù)對比可能也并不科學(xué),尤其是在流量比較小的情況下。個人感覺是A/B測試確實需要有一定的流量基礎(chǔ),流量太小可能意義不大。另外就是各種統(tǒng)計指標(biāo),比方說置信區(qū)間、顯著性等等指標(biāo)也應(yīng)該多多關(guān)注。
本文主要內(nèi)容貢獻(xiàn)者:
王曄老師,DTalk聯(lián)合創(chuàng)辦人,吆喝科技CEO,耶魯大學(xué)博士,曾在Google總部廣告質(zhì)量部門負(fù)責(zé)產(chǎn)品優(yōu)化。
干貨專訪和文章
【DTalk分享】黃一能:互聯(lián)網(wǎng)產(chǎn)品運營決策中用戶畫像的核心作用直播回顧
【DTalk分享】陳抒:產(chǎn)品設(shè)計中的用戶畫像直播回顧
【DTalk分享】吆喝科技王曄:A/B測試最佳實踐直播回顧
【DTalk精華】網(wǎng)易鄭棟:如何打通產(chǎn)品多端的埋點數(shù)據(jù)?
【DTalk精華】網(wǎng)易鄭棟:前端數(shù)據(jù)采集與分析的那些事第一彈: 從數(shù)據(jù)埋點到AB測試
【DTalk精華】滴滴出行譙洪敏:前端數(shù)據(jù)采集與分析的那些事第二彈:企業(yè)如何選擇自動埋點和可視化埋點
【DTalk精華】滴滴出行譙洪敏:前端數(shù)據(jù)采集與分析的那些事第三彈:埋點需求整理原則于埋點流程規(guī)范
【DTalk專訪】滴滴譙洪敏:百家爭鳴的前端技術(shù)時代
【DTalk思考】顧青:互聯(lián)網(wǎng)團(tuán)隊的數(shù)據(jù)驅(qū)動能力從哪里來?