數(shù)據(jù)告訴你|大家在讀什么,寫什么,問什么

01 正確地勤奮

時間如此寶貴,我們應該以正確的方式勤奮。那什么才是正確的勤奮姿勢呢?

想辦法,自動化你的工作。

比如,你的老板讓你去統(tǒng)計一下對手公司的產(chǎn)品價格數(shù)據(jù),你是要一條一條地去復制粘貼么?

比如,你的老板讓你去收集近一個月的項目招標書,你是要一條一條地去搜索復制么?

NO!

最近,我學習了一下web scraper,這是google chrome瀏覽器的一個插件,是爬取網(wǎng)頁信息的神器。

與python相比,web scraper易學易上手,在簡要爬取網(wǎng)頁內(nèi)容方面,其可視化程度,便捷性都略勝一籌。

不過若是想要深度爬取網(wǎng)頁信息,還是建議python走起。

好了,閑話不多說,看看我用web scraper干了些什么。
</br>

02 爬取爬取爬取

學會了web scraper,好奇心驟然升起:

  1. 大家最近都在讀什么書呢
  2. 大家最近都在問什么問題呢?
  3. 大家最近喜歡看什么樣的文章呢?

于是,我用web scraper分別爬取了:

  • 亞馬遜圖書和豆瓣閱讀上的100個熱門書籍,作者,評分和評論數(shù);
  • 知乎上最近1個月的200個熱門回答,點贊量,作者以及作者介紹;
  • 簡書最近的100篇熱門文章,及其閱讀量,點贊量和作者。

然后把這些數(shù)據(jù)以csv 格式存儲到本地,放到SQL關(guān)系數(shù)據(jù)庫中,再順帶用python jieba分詞看看關(guān)鍵字,用聰明的大腦分析。整個爬取分析流程如下圖:請大家忽略那個雙黃蛋,謝謝(?_?)

web scraper抓取流程

結(jié)果蠻有意思的,來看看吧!(以下都是個人觀點,相信我,我說的都是錯的)

文末有總結(jié)
</br>

03 大家在讀什么

要知道,向別人索要書單,是讓自己退步最快的方式。以下分析,僅限于了解大眾的口味。

說說中文圖書吧,不論是亞馬遜還是豆瓣閱讀的數(shù)據(jù),都顯示:

1.更多的人喜歡讀小說——前10名無一例外,全是虛構(gòu)類

  • 更多的人選擇推理類,科幻類的小說作品。
  • 恭喜東野圭吾,劉慈欣榮獲最受讀者關(guān)注作者獎。
  • 追風箏的人,評論數(shù),討論量遠超第二名,榮獲最受讀者關(guān)注圖書獎。
  • 最近歡樂頌這部小說很火啊~

2.非虛構(gòu)類圖書,人們口味偏向于以下三類:

  • 社會科學:烏合之眾,人類簡史,極簡歐洲史
  • 個人成長:好好學習,心理學,時間管理。
  • 兒童教育類

另,窮查理寶典這本被嚴重低估的書籍,榜上有名,第83名,耶。

受歡迎的作者們

</br>

04 大家在問什么

以知乎本月熱門回答url為入口,爬取了本月所有熱門回答,將這200個問題的標題用jieba庫分詞并查看權(quán)重。

得到下面這張圖,通過該圖,我們可以粗略的了解,大家最近都在關(guān)心些什么話題:

戶型,國外品牌,小孩,資源,游戲,買房,健康……

結(jié)合SQL,進一步分析數(shù)據(jù),得到以下幾個推論:

  1. 人們越來越關(guān)注健康:點贊量前20的回答中,有6個關(guān)于健康
  2. 年輕人很迷茫,人們越來越關(guān)注個人成長:可能源自知乎用戶群體特征
  3. 人們喜歡聽故事,特別是劇情反轉(zhuǎn),咸魚翻身的故事
  4. 熱門回答中,獲得總點贊數(shù)最多的答主:丁香醫(yī)生(5170),周小肉(3025),娛我所欲也(2962)
熱門問題關(guān)鍵字

</br>

05 大家喜歡讀什么樣的文章

以簡書本月熱門文章為入口,爬取了簡書上100篇熱門文章的標題,作者,瀏覽量,點贊量。

想要研究一下,什么樣的文章標題能夠吸引大家的注意力,哪個作者影響力更大。

  1. top100中,獲得總點贊量前三的作者:陳姿依(5048),韓大爺?shù)碾s貨鋪(3274),有備而來的路人甲(3216)
  2. top100中,獲得總瀏覽量最高的作者:韓大爺?shù)碾s貨鋪(26450),甌南(18677),空白中的獨舞(14082)
  3. 人們喜歡讀哪類文章(基于點贊量和瀏覽量):
    • 清單類:大學兩年讀了200本書,想你推薦這7本
    • 具體數(shù)字類:30個孤獨的夜晚,我為你準備了30段獨白和20張照片
    • 青春夢想類:有趣的靈魂很少,但大家都覺得自己是例外
    • 實踐方法論類:每天早起半小時讀書,堅持一年會改變自己嗎

同樣地,將這100篇文章標題用python jieba庫分詞并分析權(quán)重,得到下圖,看看大家在寫什么,讀什么文章:

讀書,大學,塑身,月薪,思維習慣,低品質(zhì),干貨……

熱門文章標題關(guān)鍵字

</br>

06 總結(jié)

通過Web Scraper, python jieba, sql語句,爬取并簡要分析了豆瓣,亞馬遜,知乎,簡書上,最近1個月的話題趨勢,總結(jié)如下:

  1. 讀書:人們更喜歡讀推理科幻類小說,和社會科學/個人成長/兒童教育類非虛構(gòu)類書籍
  2. 提問:人們越來越關(guān)注健康,個人成長,人們喜歡聽故事
  3. 寫作:人們更容易點擊清單類/具體數(shù)字類/方法論類/夢想類的文章標題

以上分析僅供參考,希望對你有用。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容