爬取11088個知乎專欄,打破發現壁壘

去UC是不可能去UC的,這輩子都不可能去UC的。——Deserts_X

一、前言

上回我用Gephi繪制了知乎374名10萬+關注的大V間相互關注情況,因為涉及25090條關注數據,最后成果圖不算理想,但也能簡單窺見大V生態圈的面貌,詳情見于:《374名10萬+知乎大V(一):相互關注情況》

論理這回應該繼續對374名10萬+大V、4151名1萬+小V進行研究,寫作(二)、(三)等系列文章,那到底為什么不填坑,而搞了這個爬知乎專欄的項目呢?

二、痛點

本專欄Data Analysis & Viz開通50來天,關注人數不知不覺也快有666人了,很好奇關注我或專欄的用戶都有誰,他們有哪些共同點,還關注了哪些類似主題的專欄......

前兩個問題倒是很好解決,只需爬取關注列表,分析下用戶信息,也就心里有數了;但知乎上有多少類似主題的優質專欄,卻是個不好回答的問題。

原先一直以為知乎有搜索專欄的地方,找了半天發現下面的網頁后,以為撿到寶了,立馬寫個爬蟲,翻頁10000次,美滋滋地等著拿數據,卻發現最后到手的有效專欄數才313個用《紅樓夢》的話說,這個網站“原來苗而不秀,是個銀樣镴槍頭”,是個中看不中用的主。

繼續尋尋覓覓后,發現個人主頁有兩處專欄相關的入口:一個是自己的專欄,一個是關注的專欄。于是決定以后者為入口,用上回獲取的30多萬用戶ID,爬取各自關注的專欄,從而得到知乎專欄的數據

有了入口和思路,之后就是寫代碼和爬取的事了,不在話下。

@Ricky,2015年在《知乎都有哪些值得推薦的專欄?》 話題下提到:“專欄除了在時間線被關注用戶點贊或者關注的情況外,是沒有一個發現頻道的。也就是說知乎團隊希望專欄還是以一種去中心化的形態去發展。

現在依舊如此,去中心化的形式就是上述痛點的來源。

三、專欄情況

3.1 數據一覽

最終得到11088條知乎專欄數據,格式如下,作者為機構號的專欄特別標注出來

3.2 文章數與粉絲數

所有專欄的文章數與粉絲數情況如下,粉絲數30萬+的第一梯度有:女神進化論、知乎電子書、硬派健身;20萬+的有:張佳瑋寫字的地方、潛臺詞。文章數1500+的有:最美應用 | 有價值的好應用、知識市場編輯推薦、撲克投資家、游戲茶館

3.3 TOP100

粉絲數排名TOP100專欄的門檻為40814人(“如何認真地活著”)。TOP100專欄總計8261681人次關注,占全部11088個專欄總關注31262218人次的26.4%,而TOP27專欄的關注人次占到TOP100的一半

全部專欄的平均粉絲數為2819人(拖后腿了),中位數為432人。前393個專欄總計關注人次超過全部專欄的一半。

3.4 TOP20

“數據冰山”專欄兩個月前曾對TOP20專欄進行分析:《知乎Top20專欄用戶的那些事》、上文提到的《知乎都有哪些值得推薦的專欄?》一文也有2015年的TOP20專欄名單,三者比較后,發現部分專欄地位穩固,“你大爺依舊是你大爺!”

3.5 機構號

在上萬的專欄里有191個系機構號所創建,請下圖的相關人員支付廣告費!否則,我將用三十年修煉的、集一陽指和獅吼功于一體的神功,give you color to see see!頂部和底部沒顯示完整的可以半折。

3.6 假的圖表

原本以為上文數據一覽里時間欄是專欄的開通時間,于是繪制了下各年份的情況。之后才發現這部分應該是爬蟲入口的用戶關注專欄的時間,似乎啥也說明不了......不管了,聰明的人看不到這張圖!

四、未完

由于篇幅原因,具體數據分析、挖掘、python、爬蟲、機器學習等方向的優質專欄,會在下一篇文章里給出史上最全合集,敬請期待。

有興趣做個“搜索知乎專欄”功能的小伙伴也可以搞一下哈。

想找自己感興趣的、非上述主題的專欄的小伙伴可以看評論區,自動獲取原始數據文件,去進行挖掘。



最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容