爬了5個(gè)多月
從2017年6月16日開始,我用自己的樹莓派每天爬取簡(jiǎn)書“短篇小說”集里的文章和讀者交互數(shù)據(jù),做一些簡(jiǎn)單的分析輸出:
此外,還統(tǒng)計(jì)了每天“短篇小說”頻道的以下內(nèi)容:
閱讀量
點(diǎn)贊量
回復(fù)量
-
打賞量(打賞金額無法獲取)
時(shí)至今日,已經(jīng)積累了足夠數(shù)據(jù),樣本集基本滿足正態(tài)分布:
read_hist.png
感興趣的可以通過這個(gè)鏈接看基本數(shù)據(jù)。
關(guān)于數(shù)據(jù)清洗
從第一幅圖中可以看到一些數(shù)據(jù)斷片和毛刺,原因有以下幾個(gè):
- 公司停電
- 出國(guó)坐飛機(jī)
- 簡(jiǎn)書修改了頁(yè)面html導(dǎo)致爬蟲失效
- 重啟爬蟲導(dǎo)致爬取時(shí)間間隔不是嚴(yán)格的24小時(shí)
好在斷片比較好處理,都設(shè)置成均值即可。
對(duì)于造成毛刺的outlier,若其zscore<-2或zscore>2,也設(shè)置成均值。
這樣處理對(duì)于統(tǒng)計(jì)結(jié)果不會(huì)有影響。
先說結(jié)論
-
寫短篇小說很難賺錢
看第一幅圖里底部那條羸弱的黃色曲線(那是每日打賞次數(shù)),從來都沒有雄起過。
確切的說,每日打賞次數(shù)穩(wěn)定地維持在32次/日,占閱讀的比值大概0.3%。
單獨(dú)拿出來看,曲線是這樣的:
moneyline.png
從直方圖可以看到,這個(gè)分布是正態(tài)的。
也就是說,短期不會(huì)改變。
而落到作者頭上的分布完美匹配長(zhǎng)尾:
以上統(tǒng)計(jì)是過去5個(gè)月的數(shù)據(jù)。即使是收到打賞最多的作者,也就300多次,算算也沒多少錢。
-
閱讀量在緩慢增長(zhǎng),但是很慢
read_per_month.png
如圖所示,在8月份閱讀量有所上升,但是后來又降下來了,造成整體趨勢(shì)沒有統(tǒng)計(jì)明顯的變化。無論做t-test還是ANOVA都得到“沒有變化”的結(jié)果。 -
新小說數(shù)量和回復(fù)量穩(wěn)步增長(zhǎng)
new.png
和閱讀量、打賞量不同的是,每日新帖的數(shù)量和回復(fù)量在穩(wěn)步上升。
仔細(xì)看看回復(fù)的內(nèi)容,能夠明顯分析出來,是作者們?cè)诨ハ喙膭?lì),提建議等。
希望這種“自我鼓勵(lì)”能夠帶來更多的讀者。
變量間的相互關(guān)系
分析所爬取的各種變量計(jì)算相關(guān)系數(shù),得到上面的圖,以及以下觀點(diǎn):
- 閱讀量的提高能夠拉動(dòng)新帖,點(diǎn)贊,回復(fù)和打賞。
- 閱讀量、點(diǎn)贊、回復(fù),三者之間有強(qiáng)烈的正向關(guān)系。
- 至于打賞,各種關(guān)系都不強(qiáng)烈。
更細(xì)節(jié)的非線性關(guān)系如下
閱讀量對(duì)于點(diǎn)贊和回復(fù)的正向關(guān)系是非常明確的。
即使在非線性模型下,依然表現(xiàn)出“線性”的正向。
點(diǎn)贊量和回復(fù)量在正太分布的主要區(qū)間內(nèi)有正向關(guān)系,但是在分布的兩端卻出現(xiàn)了逆轉(zhuǎn):
- 點(diǎn)贊量很少的文章,回復(fù)量卻反而提高。
這應(yīng)該是有大牛在鼓勵(lì)新人,或者說,帶小號(hào)吧。 - 點(diǎn)贊量巨大的文章, 回復(fù)量反而有下降。
這說明經(jīng)常回復(fù)的人只是一部分固定的人。除開這些人,其他人大都點(diǎn)個(gè)贊了事。
同樣的模式出現(xiàn)在了點(diǎn)贊和打賞的關(guān)系中:
從這些“扭曲”的關(guān)系里看出,讀者中的確有一部分是抱著”特別任務(wù)“來參與閱讀和交互的。
總結(jié)
如果“短篇小說”頻道繼續(xù)以以往的方式運(yùn)營(yíng)下去,看來是難有突破。因?yàn)榇蛸p的水平非常低,所以只能靠簽約來養(yǎng)活作者。但是給作者多發(fā)了工資,并不能提高打賞的數(shù)量,換句話說,平臺(tái)抽水還是微乎其微。
因此,“短篇小說”頻道,乃至簡(jiǎn)書整個(gè)平臺(tái),都需要思考另外的方式來養(yǎng)活自己和作者們。比如借鑒知乎出書,或者豆瓣的一些方式。