去UC是不可能去UC的,這輩子都不可能去UC的。——Deserts_X
一、前言
上回我用Gephi繪制了知乎374名10萬+關注的大V間相互關注情況,因為涉及25090條關注數據,最后成果圖不算理想,但也能簡單窺見大V生態圈的面貌,詳情見于:《374名10萬+知乎大V(一):相互關注情況》。
論理這回應該繼續對374名10萬+大V、4151名1萬+小V進行研究,寫作(二)、(三)等系列文章,那到底為什么不填坑,而搞了這個爬知乎專欄的項目呢?
二、痛點
本專欄Data Analysis & Viz開通50來天,關注人數不知不覺也快有666人了,很好奇關注我或專欄的用戶都有誰,他們有哪些共同點,還關注了哪些類似主題的專欄......
前兩個問題倒是很好解決,只需爬取關注列表,分析下用戶信息,也就心里有數了;但知乎上有多少類似主題的優質專欄,卻是個不好回答的問題。
原先一直以為知乎有搜索專欄的地方,找了半天發現下面的網頁后,以為撿到寶了,立馬寫個爬蟲,翻頁10000次,美滋滋地等著拿數據,卻發現最后到手的有效專欄數才313個,用《紅樓夢》的話說,這個網站“原來苗而不秀,是個銀樣镴槍頭”,是個中看不中用的主。
繼續尋尋覓覓后,發現個人主頁有兩處專欄相關的入口:一個是自己的專欄,一個是關注的專欄。于是決定以后者為入口,用上回獲取的30多萬用戶ID,爬取各自關注的專欄,從而得到知乎專欄的數據。
有了入口和思路,之后就是寫代碼和爬取的事了,不在話下。
@Ricky,2015年在《知乎都有哪些值得推薦的專欄?》 話題下提到:“專欄除了在時間線被關注用戶點贊或者關注的情況外,是沒有一個發現頻道的。也就是說知乎團隊希望專欄還是以一種去中心化的形態去發展。”
現在依舊如此,去中心化的形式就是上述痛點的來源。
三、專欄情況
3.1 數據一覽
最終得到11088條知乎專欄數據,格式如下,作者為機構號的專欄特別標注出來:
3.2 文章數與粉絲數
所有專欄的文章數與粉絲數情況如下,粉絲數30萬+的第一梯度有:女神進化論、知乎電子書、硬派健身;20萬+的有:張佳瑋寫字的地方、潛臺詞。文章數1500+的有:最美應用 | 有價值的好應用、知識市場編輯推薦、撲克投資家、游戲茶館。
3.3 TOP100
粉絲數排名TOP100專欄的門檻為40814人(“如何認真地活著”)。TOP100專欄總計8261681人次關注,占全部11088個專欄總關注31262218人次的26.4%,而TOP27專欄的關注人次占到TOP100的一半。
全部專欄的平均粉絲數為2819人(拖后腿了),中位數為432人。前393個專欄總計關注人次超過全部專欄的一半。
3.4 TOP20
“數據冰山”專欄兩個月前曾對TOP20專欄進行分析:《知乎Top20專欄用戶的那些事》、上文提到的《知乎都有哪些值得推薦的專欄?》一文也有2015年的TOP20專欄名單,三者比較后,發現部分專欄地位穩固,“你大爺依舊是你大爺!”
3.5 機構號
在上萬的專欄里有191個系機構號所創建,請下圖的相關人員支付廣告費!否則,我將用三十年修煉的、集一陽指和獅吼功于一體的神功,give you color to see see!頂部和底部沒顯示完整的可以半折。
3.6 假的圖表
原本以為上文數據一覽里時間欄是專欄的開通時間,于是繪制了下各年份的情況。之后才發現這部分應該是爬蟲入口的用戶關注專欄的時間,似乎啥也說明不了......不管了,聰明的人看不到這張圖!
四、未完
由于篇幅原因,具體數據分析、挖掘、python、爬蟲、機器學習等方向的優質專欄,會在下一篇文章里給出史上最全合集,敬請期待。
有興趣做個“搜索知乎專欄”功能的小伙伴也可以搞一下哈。
想找自己感興趣的、非上述主題的專欄的小伙伴可以看評論區,自動獲取原始數據文件,去進行挖掘。