抓取知乎 300W 用戶之后,原來我的關注人數竟排在前 1%

前幾天寫了一個爬蟲扔到服務器上,耗時 3 天,我抓取了知乎 2908077 個用戶的基礎數據。這里簡單分享一下數據。

數據說明

在分享數據之前,簡單說一下數據的來源,也就是爬蟲抓取的規則。

規則很簡單,首先抓取知乎第一大 V 張佳瑋關注列表里的用戶,然后抓取再這些用戶關注列表里面的用戶,由此類推,直到抓完知乎所有的用戶。

值得說明的有兩點:其一,只抓取在關注列表里面的用戶可以有效的過濾到三無的僵尸用戶;其二,在知乎的設置中勾選了「隱私保護」的用戶只能對站內用戶可見,因此沒有登錄信息的爬蟲是抓取不到其關注列表的。

從數量上來說,這份知乎用戶信息應該是很全面而且有效的,因為爬蟲抓取了知乎完整的關注關系鏈,粗略的可以認為知乎的有效用戶大約是 300 W。當然,如果從個人信息維度來看,數據就顯得很薄弱,因為僅僅抓取了每個用戶最簡單的幾個基礎數據。原因也很簡單,因為我的初衷核心是寫一個爬蟲,而不是去抓取知乎的用戶信息。

知乎用戶數據

知乎關注人數 Top 10

首先,知乎關注人數 TOP 10 的大 V 大家都很熟悉,如下:

用戶關注人數 TOP 10

其中,知乎第一大 V 張佳瑋的關注人數為 1248627,因為不知道里面的僵尸粉有多少,假設沒有僵尸粉(這是不可能的),那么知乎平均每 3 個有效用戶就有一個關注他。

他們的回到問題數量和文章數分別如下:

Top 10 的回答數量和文章數量

可以看得出來,張佳偉不管是回答數量和文章數量都遠超其他 9 個大 V,確實勤奮和高產。而排名第二的李開復老師就相反了,不管是回答數量僅有 107 個,文章也只有一篇,均是墊底。但是作為知乎第二大 V ,不得不說名人效應十分明顯。另外黃繼新和周源情況相似,回答數量和文章文章都相對較少,但是排在第三和第四和他們作為知乎的創始人應該有很大的關系。最后不得不說一下葛巾貌似是出走過一次知乎,然后刪除了很多答案,具體情況不是特別了解。

粗略的看下來,排除特殊情況,貌似關注人數和回答數量成正相關,所以想要獲得更多關注的小伙伴多多回答問題吧。

關注人數

關注人數的分布如下:

知乎關注人數分布圖

可以看出,關注人數分布圖是很符合社會資源分配規律的。要注意的是,我抓取的用戶是在關注列表里面的,意味著他們至少有一個關注者。關注人數只有個位數的仍然占到了 83%,然后依次是 15%,2% 和 1%。而關注者超過 1W 的僅有 2586 位,占 0.09%,他們應該可以被稱為知乎大 V 了。

值得一提的是,我去年春節的時候回到過一個問題「你因為睡覺太死錯過什么重要的事情」可能比較搞笑或者像段子,到目前為止收獲了 5.2k 的贊。我僅僅因為這個突然火了的回答,偶爾就會有小伙伴關注,當然到目前為止也只有 350 個關注者。但是,關注者超過 350 的僅僅只有 33420 個用戶,只占了 1.1%,如果算上那些極度不活躍用戶和僵尸用戶,就僅僅這 350 個關注者還真可以排進前 1%,但是如果要前 0.1% 的話,則要求關注數要接近 1W。再次證明很像社會資源分布一樣,階梯分布十分明顯,極少部分人擁有了絕大部分資源,而絕大部分人卻只擁有極少的資源。

回答數量

回答數量的分布如下:

知乎用戶回答數量分布圖

可以看到這 300W 的用戶中,沒有回答一個問題的用戶占到了 46%,而回答問題在個位數的也占了 38%,兩者加起來占了知乎 85% 的用戶。而回答數量超過 1000 條的僅僅只有 739 個人 。和絕大部分大眾社區一樣,大部分都是吃瓜群眾,只有少部分是內容的生產者。

文章數量

文章數量的分布如下:

知乎用戶文章數量分布圖

數據很直觀,沒有寫過文章的用戶占到了 97%,再次強調他們是在關注列表里面的有效用戶。而超過 10 篇的用戶,僅僅只有 11478 位。還是那句話,內容生產者少數,吃瓜群眾才是社區的大多數。

寫在最后

雖然保存每個用戶的信息很少,但是依舊還有一些信息可以挖掘,比如,用戶是某個或某幾個話題的優秀回答者,相關信息也有保存。但是,今天暫時就分享這么多。結論一點也不出乎意料,知乎現在就是一個以普通用戶為主體的大眾社區。這幾乎是任何一個社區高速擴張所不能避免的結果。個人感覺,隨著知乎的擴張,用戶量急劇增加同時,高質量內容的比例下滑,而高質量內容的數量卻沒有明顯的增加,其中段子、雞湯文和情感類所占比例太大,而這些話題恰好是普通大眾喜聞樂見的。我以后或許會找個機會再挖掘一下相關的數據,從數據角度證明一下。

最后,我的初衷仍然是寫個爬蟲而已。我爬知乎的原因僅僅是因為我能爬知乎。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容