增長(zhǎng)黑客成長(zhǎng)之路上,想必大家對(duì)A/B測(cè)試已經(jīng)很熟悉了,但聽過、實(shí)踐過A/A測(cè)試的同學(xué)舉個(gè)手我看看,喏,還沒多少人。這篇文章我們就來(lái)講講A/A測(cè)試。
什么是A/A測(cè)試?
A/A測(cè)試可以理解成對(duì)兩個(gè)相同版本進(jìn)行的A/B測(cè)試。通常,這樣做的目的是為了驗(yàn)證正在使用的工具運(yùn)行試驗(yàn)在統(tǒng)計(jì)上是公平的。在A/A測(cè)試中,如果測(cè)試正確進(jìn)行,控制組和實(shí)驗(yàn)組應(yīng)該沒有任何區(qū)別。
在沒做A/A測(cè)試之前,你可能什么都不知道,這里的邏輯是這樣的:如果樣本的A/A測(cè)試結(jié)果達(dá)到統(tǒng)計(jì)顯著,那么A/B測(cè)試工具或測(cè)試方案就是不可信的。
如果說A/B測(cè)試用來(lái)測(cè)試比較幾個(gè)方案的優(yōu)劣,那么A/A測(cè)試就是驗(yàn)證A/B測(cè)試及工具置信度的有效方式。
為什么進(jìn)行A/A測(cè)試?
既然A/A測(cè)試的兩個(gè)版本變量沒有任何變化,為什么還要花時(shí)間精力來(lái)做?
商業(yè)活動(dòng)中,通常我們使用一切數(shù)據(jù)工具的目的,無(wú)外乎:用測(cè)量推動(dòng)決策優(yōu)化,同時(shí)用正確的決策獲取比競(jìng)爭(zhēng)對(duì)手更大的市場(chǎng)。可能通過數(shù)據(jù)能獲取的決策信息點(diǎn)有很多,那么通過A/A測(cè)試來(lái)確保你得到的數(shù)據(jù)能用來(lái)自信地作出決定,減小決策失誤。
通常情況下我們做A/A測(cè)試的目的有下面幾個(gè):
1.保證精確的流量分配,換句話說,驗(yàn)證隨機(jī)性實(shí)際上是通過確保每次試驗(yàn)產(chǎn)生的計(jì)數(shù)與統(tǒng)計(jì)范圍相似
2.識(shí)別假陽(yáng)性結(jié)果的頻率(假陽(yáng)性結(jié)果也可以理解為測(cè)試結(jié)果中的虛假繁榮,有相當(dāng)?shù)恼`導(dǎo)性)
3.確定方差“泡沫”幫我們更好的理解其他測(cè)試結(jié)果
關(guān)于假陽(yáng)性
A/A測(cè)試能被用來(lái)理解假陽(yáng)性結(jié)果的頻率。簡(jiǎn)單講,如果你在測(cè)試中采用95%置信水平,那么20次結(jié)果可能會(huì)出現(xiàn)1次假陽(yáng)性結(jié)果。這時(shí)候通過A/A測(cè)試,就能驗(yàn)證轉(zhuǎn)化率的顯著差異,比如,你運(yùn)行20次A/A測(cè)試,其中有2次結(jié)果明顯不同,這意味著假陽(yáng)性的比例可能高于5%。
方差“泡沫”
A/A測(cè)試能幫助確定轉(zhuǎn)化率中的方差“泡沫”,最小化對(duì)未來(lái)測(cè)試的影響。除了技術(shù)上的有效性,A/A測(cè)試能讓“泡沫”在可接受范圍內(nèi)。
比如,如果A/A測(cè)試中的泡沫是0.1%,測(cè)試轉(zhuǎn)化率是3%,那么你可以接受的范圍就是2.9%-3.1%。如果你看到0.1%的提升,那么你就知道這樣的結(jié)果是沒有意義的。
A/A測(cè)試的時(shí)候你不知道什么時(shí)候新變量和默認(rèn)變量的轉(zhuǎn)化率差別結(jié)果能達(dá)到統(tǒng)計(jì)顯著,因此,A/A測(cè)試中的任何錯(cuò)誤或置信度不應(yīng)被用來(lái)作為未來(lái)測(cè)試的基準(zhǔn),因?yàn)锳/A測(cè)試中本不應(yīng)有轉(zhuǎn)化率的明顯差異。
需要注意的是,有可能只是因?yàn)殡S機(jī)性,導(dǎo)致A/A測(cè)試的兩個(gè)試驗(yàn)結(jié)果有所不同,而不是工具或測(cè)試方案本身的問題。當(dāng)然,隨著樣本量的增大,這種差別會(huì)逐漸降低。這是因?yàn)椋颖鞠碌慕Y(jié)果是不可信的,小樣本從總體上意味著可能存在分配不均的數(shù)據(jù)段。要消除這點(diǎn),就需要A/A測(cè)試運(yùn)行足夠長(zhǎng)的時(shí)間,以及有足夠的樣本規(guī)模。
計(jì)算測(cè)試持續(xù)時(shí)間
測(cè)試持續(xù)時(shí)間是兩個(gè)因素的函數(shù):
1.達(dá)到一個(gè)可接受的樣本大小所需的時(shí)間
2.變量之間的不同表現(xiàn)差異大小
如果一個(gè)變量引起了50%的變化,測(cè)試就不必運(yùn)行很長(zhǎng)時(shí)間。這種情況,即使是在小樣本下,也可以忽略統(tǒng)計(jì)誤差。
如何設(shè)置A/A測(cè)試
A/A測(cè)試好在不必做任何創(chuàng)造性的或研發(fā)上的工作。當(dāng)設(shè)置A/B測(cè)試時(shí),你需要在A/B測(cè)試軟件上編程來(lái)改變、隱藏或刪除頁(yè)面的某些部分,對(duì)A/A測(cè)試來(lái)說這些都是不需要的。
A/A測(cè)試面臨的挑戰(zhàn)是正確的選擇運(yùn)行測(cè)試的頁(yè)面,通常做A/A測(cè)試的頁(yè)面都應(yīng)該有兩個(gè)特點(diǎn):
1)相對(duì)較高的流量。網(wǎng)頁(yè)流量越多,越早看到變量的對(duì)比。
2)訪客可以從頁(yè)面購(gòu)買或注冊(cè)。我們希望根據(jù)最終目標(biāo)來(lái)校驗(yàn)我們的A/B測(cè)試工具。
出于這些原因,通常我們會(huì)在網(wǎng)站主頁(yè)上運(yùn)行A/A測(cè)試。
運(yùn)行A/A測(cè)試的成本
運(yùn)行A/A測(cè)試的唯一成本:機(jī)會(huì)成本。有的人寧愿把A/A測(cè)試上投入的時(shí)間和流量用來(lái)多做幾次A/B測(cè)試也不是沒有道理的。
應(yīng)該考慮運(yùn)行A/A測(cè)試的唯一種情況:
1.你剛安裝了一個(gè)新的測(cè)試工具或更改了測(cè)試工具設(shè)置。
2.你發(fā)現(xiàn)了A/B測(cè)試與數(shù)據(jù)分析工具結(jié)果之間存在差異。
本文由 Zoran @吆喝科技(微信:appadhoc)編譯,轉(zhuǎn)載請(qǐng)聯(lián)系吆喝科技。
參考文章:
blog.analytics-toolkit.com/2014/aa-aab-aabb-tests-cro/
blogs.oracle.com/marketingcloud/optimization-shorts:-aa-testing
www.optimizely.com/optimization-glossary/aa-testing/