【譯】Netflix是怎么做A/B測試的

本文翻譯自medium的文章How Netflix does A/B Testing,為了更好理解,一些地方沒有按原文來,而是用我自己的語言,感興趣的可以直接看原文。另外,圖片直接從原文拉過來的,侵權刪。

文章的一開始是一些客套話,我就不翻譯了,大致意思是作者參加了一個活動,活動中兩個Netflix的產品設計師(product designers)做了關于A/B測試的分享,這篇文章就是作者聽完之后的一些總結和思考。

兩個Netflix的產品設計師

首先提了一個“實驗”的概念,用了“絕命毒師”的圖片來解釋什么是實驗。確實很生動形象,也和Netflix搭上勾。這個概念很簡單,以至于作者就說了她很喜歡這張幻燈片,覺得這個比喻很機智,然后就沒有了。之后提了一個“科學的方法”,應該就是指A/B測試是一種科學的方法。

第三個概念是假設(Hypothesis),或者說猜想。在科學上,是指一個想法或者解釋,之后可以通過分析和實驗對其進行驗證。在設計中,往往指的是一種理論或者猜測。假設的基本特征是事先不知道最后的結果是什么,但是可以通過實驗得出,而且實驗是可以被重復。就像韓春雨。


所謂的A/B測試,就是設置兩組或者多組用戶進行測試,其中一組為控制組,其余的為實驗組。控制組使用的版本一般是默認的,或者說是原來的,沒有修改的,跟其他普通的沒有參與測試的用戶的版本一致。而實驗組的使用的版本則是修改過的。每個用戶只能加入一個組。

測試進行時,需要跟蹤一些重要的指標,比如時間流(streaming hours),留存率(retention)等,一旦參與者提供的數據足夠得出有意義的結論,就可以在各個不同的組之間進行對比,以此來判斷哪個組的表現更好,就像下面這種圖,在test1中,第二個實驗組表現最后,稱為winner,勝利者。

公司需要通過實驗來獲取用戶數據,因此,花費一定的時間和精力對實驗方法進行整理以確保獲取的數據在類型和數量上能滿足要求,這樣數據才能盡可能有效地解決相應的問題。如果你有注意的話,每次登陸Netflix,主頁的顯示是不同的,這其實就是Netflix的實驗之一,用來確保你收看他們的節目。就像Netflix的一位工程師說的,如果你不能在90秒內引起用戶的注意力,用戶就會失去興趣并轉移到另外的活動上去。這種情況可能是由于網站沒有展示出正確的內容,也有可能是展示出正確的內容,但是沒有提供足夠的吸引力來讓讀者覺得自己應該收看這個節目。
這種情況下,就可以通過A/B測試進行實驗,判斷出真實的原因。

早在2013年,Netflix就做了實驗去驗證不同的背景圖像是否對觀看者的數量有影響,結論是肯定的,如下圖。

Netflix之后還開發了一個系統,可以自動將具有相同背景,但有不同的長寬比、裁剪、小裝飾、標題的位置等的各個圖像組合在一起,然后可以在其他不同的電視節目中追蹤這些作品的表現。下面是一些例子,其中有綠色箭頭的是表現比較好的。

最后是作者寫的幾點自己的體會。

1、什么時候,為什么使用A/B測試

當你的設計方案進入開發環節的時候,就可以使用A/B測試來調整設計方案,同時關注兩個關鍵的指標:留存率和利潤。在A/B測試中,對產品做出一些改變,然后追蹤用戶的使用情況,看是否這個改變能夠提高留存率和收入,如果可以,就確認在產品中使用這個改變,反之,則嘗試別的修改方案。這樣不斷通過A/B測試,就可以持續提高產品的商業指標。

2、用戶發現的內容或進行的操作是不是你希望他們去發現或者去做的。

很多時候用戶不能想你期望的那樣快速完成任務,有時候他們會找不到你放在頁面上的按鈕。原因可以有很多,可能是這個設計不夠直觀,顏色不夠鮮艷,或者是技術不夠嫻熟,不知道怎么在一個頁面的眾多選項中做出決定等等。

3、你的直覺是否正確

不幸的是,在預測用戶行為方面,我們的直覺可能是錯誤的,唯一可以證明的方法就是通過A/B測試,這是用來驗證一個用戶體驗設計方案是否比另一個更加有效的最好的辦法。這種說法在工作中得到了驗證。舉個例子,有一次我們想驗證是否能夠通過一些設計上的改變,從而提高用戶點擊廣告之后的注冊率。為此我們做出幾個設計方案。一開始認為只隱藏property image(這個不知道怎么翻譯,感覺是一個廣告相關的,應該不是簡單的圖片屬性之類)的方案會是最好的,但最后發現同時隱藏property image和價格的方案有最高的轉化率。

4、探索邊界

最好的想法來自于源源不斷的探索。在工作中,我們的產品團隊一起合作完成了各種不同的項目,團隊中包括了設計師、產品經理、開發者,我們一起進行探索。一些最好的想法是產品經理或者開發者試用了原型之后提出來的,而不是由設計師自己。

5、觀察用戶做什么,而不是說什么

與用戶交流的時候,要時刻記住,他們說的往往和做的不一樣。這里有一個很好的例子來說明,這周我進行了一個用戶測試,是關于一個聯系人列表的原型。我詢問用戶是否經常使用分類和篩選的功能,用戶說不,因為他不需要這些功能。但是當用戶發現有了一個新的下拉菜單用于篩選時,他驚奇地發現這樣的設計讓分類和篩選變得非常方便,并且馬上問到,為什么不在產品中加入這個功能。

6、使用數據去估算機會的大小
  • 這樣往往可以同時解決為什么的問題。
  • 數據可以幫助形成想法。
  • 檢查各個A/B測試的結果是否相互矛盾。

最后這六個點是作者自己的收獲,應該是聽的過程中一些比較深刻的內容,所以也不是什么總結或者歸納,內容上也顯得比較隨意,不過確實都是一些值得思考的問題。

文中作者還附上了兩個Netflix的相關鏈接,這里補上。

以上。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容