2011年的時候,我在 Qing 做產品設計師。
剛入行時最長做的任務就是競品分析,當時國內的輕博客產品有很多,Qing、點點、Lofter、人人小站等,如何分析競品的數據變為一個重要的問題。
這類內容開放的產品,一般搜索引擎的爬取率很高。當時突發奇想是不是我通過搜索 Google 高級搜索來獲取競品的數據。
首先,我們來了解下 Google 的高級搜索功能。
表單功能很強大,可以通過關鍵詞進行搜索,也可以選擇字詞出現的位置。比如,我們現在想看簡書有多少文章。根據文章的鏈接,http://www.lxweimin.com/p/cba3e43cd5b0
我們可設置參數,包含關鍵字: "p" ,域名為:"www.lxweimin.com"。
allinurl:? "p" site:www.lxweimin.com
可以看出簡書大概 1,100,000 條發布的文章,那么這個數據是不是準確的呢?除了 Google 這個渠道,還有另外獲得數據的方式么!
通常我們還可以通過 URL 來看數據,以知乎的鏈接為例,很多網站的鏈接中均會包含數字,有些數字是未經過處理的自增 ID 。也就是說你想知道該產品的數據,可以通過創建一個用戶、一個文章、一個問題的方式,來讓對象+1,然后查看鏈接中的數字,就可以大致判斷出。
https://www.zhihu.com/question/24325481
但對于簡書這種在 URL 中做過放爬處理的產品,就很難看出,這個時候我們可以通過 API 調用來查看,比如喜愛文章、關注用戶等。
http://www.lxweimin.com/p/cba3e43cd5b0
正常情況下,產品很難把所有的路徑都堵上。比如簡書雖然在 URL 和前端 API 上都做了 hash 處理。但是當用戶新建文章時,URL中依然有對應的文集ID、文章ID。
http://www.lxweimin.com/writer#/notebooks/3126817/notes/2938972
由此通過重新創建用戶創建文章,可推測出文集數為 3126817(通過文集數可以大致推測用戶數),文章數為 2938972。
這與我們通過 Google 獲取的數據相比,差了3倍左右。可能的原因:一是搜索引擎沒有全量抓取,二是有大量的草稿被創建而沒有發布。
盡管通過這些方式獲得的數據不是完全準確,但是也可以通過數據曲線的變化,了解產品發展的趨勢。
完