中文字幕一区二区,掀开奶罩边躁狠狠躁转学生h,成人性做爰直播

0x00 前言

你想知道背單詞軟件有大概多少人注冊第一天都沒有背完嘛?
你想知道背單詞軟件這么火,這么多人在使用,真的有多少人真的在背誦嘛?

別急,Python程序員用數(shù)據(jù)給你說話.

文章目錄如下:

0x00 前言
0x01 問題的提出和任務(wù)的分解
0x02 任務(wù)一,信息爬取
ox03 任務(wù)二,清理和存儲
0x04 任務(wù)三,分析
0x05 任務(wù)四,結(jié)論
0x06 整個流程的不足和反思.
0x07 代碼.

0x01 問題的提出和任務(wù)的分解

前兩天,就在一個雷電交加的夜晚,我躺在床上,草草的看了一篇英文文章,突然想到一個非常有意思的問題:

是不是大部分的人做事真的不能堅(jiān)持呢?比如,背單詞.

好,那我就看看到底有多少人是堅(jiān)持不下來的?

那么,我們的問題就變成了這樣子:

有多少人是在堅(jiān)持或者曾經(jīng)堅(jiān)持過背單詞呢?(假設(shè)100天以上算的上是背單詞的話)
有多少夢想,毀于不能堅(jiān)持?
背單詞的人們學(xué)習(xí)的量,是不是符合正太分布呢?

于是我選中了業(yè)內(nèi)的標(biāo)桿扇貝軟件作為分析的對象.抽取其中的大約1/30的用戶的公開數(shù)據(jù),也就是游客用戶都可以看得到的數(shù)據(jù),進(jìn)行抽樣調(diào)查.

調(diào)查的具體內(nèi)容如下:

打卡最高/成長值最高/學(xué)習(xí)單詞數(shù)量最高
平均每個人打卡次數(shù)/成長值/學(xué)習(xí)單詞數(shù)量
打卡/成長值/學(xué)習(xí)單詞數(shù)量的分布(也就是已經(jīng)堅(jiān)持了多少天了)

那么,我的任務(wù)也就可以分解如下:

爬取數(shù)據(jù)
- 使用Python2的Scrapy進(jìn)行爬站
清理數(shù)據(jù)
- sql語句和pandas運(yùn)算
分析數(shù)據(jù)
- pandas + seaborn + ipython book
得出結(jié)論

0x02 任務(wù)一,信息爬取,清理和存儲

每個用戶的信息都在這里:

http://www.shanbay.com/bdc/review/progress/2

使用beautifulsoup4 進(jìn)行解析即可.其他部分參考代碼.

扇貝的工程師反爬蟲做的還不錯,主要有兩點(diǎn):

訪問數(shù)量超標(biāo),封禁IP半個小時.對應(yīng)的方法就是代理服務(wù)器.(代碼中已經(jīng)刪除代理服務(wù)器,所以,如果你運(yùn)行不了代碼,那你應(yīng)該知道怎么做了.)
cookie如果不禁用很快就無法爬取.對應(yīng)的方法就是禁用Cookie.

0x03 任務(wù)二,清理和存儲

對于數(shù)據(jù)庫,使用Postgresql存儲就好了.也沒有什么大問題.參考代碼.有問題在評論下面問.

通常情況下在存入數(shù)據(jù)庫的時候需要進(jìn)行數(shù)據(jù)的凈化,不處理也沒有什么大問題.

0x04 任務(wù)三,分析

分析階段,使用IPython notebook. 通常情況下,我們使用的是Anaconda里面的Python3版本 .可以到這里下載,注意,mac和ubuntu下載的是命令行版本.

https://www.continuum.io/downloads

安裝完畢以后,重啟終端.環(huán)境變量生效.

#直接安裝seaborn
pip install seaborn

切換到指定目錄然后敲入命令ipython notebook打開瀏覽器進(jìn)行編輯.

至于怎么使用,請看代碼.

0x05 任務(wù)三,結(jié)論

在這里省去部分的分析過程直接貼出結(jié)論.

總共抓取1111111張網(wǎng)頁,成功獲取610888個用戶的信息.

于是得出結(jié)論如下:

扇貝之最:

最高打卡天數(shù): chainyu 1830天
最高成長值: Lerystal 成長值 28767
最高單詞數(shù)量: chenmaoboss 單詞量 38313

平均到每一個人身上

平均每人打卡天數(shù): 14.18,而超過成長平均值的人數(shù)為71342,占總抽樣人數(shù)的,額,11.69%
平均成長值: 121.79,而超過平均成長的人數(shù)為13351,占總抽樣人數(shù)的,額,11.42%
平均學(xué)習(xí)單詞數(shù)量: 78.92,而背超過平均單詞的人數(shù)為13351,占總抽樣人數(shù)的,額,2.19%(注意,真的是2%左右)

那么,我們來看看打卡,成長值,單詞數(shù)量的,分布吧.

第一個,所有人的打卡數(shù)量直方圖.

這是所有人的打卡數(shù)量直方圖

簡直慘不忍睹.

第二個,非零用戶的打卡數(shù)量直方圖.

非零用戶的打卡數(shù)量的直方圖

這真是一段悲傷的故事.由于堅(jiān)持不了幾天的用戶實(shí)在是太多,簡直就是反比例函數(shù)嘛,導(dǎo)致圖像嚴(yán)重畸形.那么,我們只能分段了看用戶打卡天數(shù)在0_20,20100,100_500,5002000范圍的分布圖了.

分別如下:

0~20

20~100

100~500

500~2000

其他成長值的各種分布也是如此,在此就不貼出來了.

正如你所看到的,我再來總結(jié)一下,

在抽樣中,

英語夢死在前0天的有416351人,占總比68.15%;
英語夢死在前1天的有466761人,占總比76.40%;
英語夢死在前2天的有484535人,占總比79.31%;
英語夢死在前5天的有510230人,占總比83.52%;
英語夢死在前10天的有531219人,占總比86.95%;
英語夢死在前20天的有551557人,占總比90.28%;
英語夢死在前50天的有575975人,占總比的94.28%;
英語夢死在前100天的有590700人,占總比96.69%;
英語夢死在前200天的有575975人,占總比98.36%;
英語夢死在前263天的有600875人,占總比98.81%;

你可以大致感受到殘酷的現(xiàn)實(shí),幾乎沒有多少人可以堅(jiān)持到200天以后.

但是,你還需要注意到的事情是:

抽樣的來源是ID為1~1111111之間的60W成員

眾所周知的事情是:

早期的用戶往往質(zhì)量相對會高一些.而且,注冊的ID越大,證明注冊時間距離現(xiàn)在越近.獲得200天的幾率也就低了不少.

那么,這樣的話,英語夢死在200天之前的人數(shù)比例還會大上不少.

回到文章開始:

問: 背單詞軟件有大概多少人注冊第一天都沒有背完嘛?
答:68.15%

問:有多少人是在堅(jiān)持或者曾經(jīng)堅(jiān)持過背單詞呢?(假設(shè)100天以上算的上是背單詞的話)
答:保守估計(jì),不足3.4%

問:有多少夢想,毀于不能堅(jiān)持?
答:不妨干了這碗雞湯,歌唱青春一去不復(fù)返.

問:背單詞的人們學(xué)習(xí)的量,是不是符合正太分布呢?
答:不是,簡直就是反比例函數(shù).

拋出一個結(jié)論:

以絕大部分人努力之低,根本就用不著拼天賦.

贈給你我,共勉.

0x06 整個流程的不足和反思.

扇貝的工程師反爬蟲做的還不錯,主要有兩點(diǎn):

訪問數(shù)量超標(biāo),封禁IP半個小時.對應(yīng)的方法就是代理服務(wù)器.
cookie如果不禁用很快就無法爬取.對應(yīng)的方法就是禁用Cookie.

爬蟲框架使用Scrapy,這樣就免去了大量的繁瑣的線程調(diào)度問題,直接寫獲取信息的邏輯代碼,以及存儲信息的邏輯代碼就好了.

在編寫爬蟲的過程中,有一些經(jīng)驗(yàn):

在爬蟲開啟以后,由于我暴力的關(guān)閉,導(dǎo)致還是有不少的item沒有完成請求處理和存儲.
我在處理異常的時候忘了應(yīng)當(dāng)把失敗的item存放放在文件中,方便我第二次補(bǔ)充,這樣的話就不會丟失一部分的用戶信息了.
代理服務(wù)器需要自己寫腳本進(jìn)行測試,否則你可能有很多很多的請求都會超時(畢竟很多代理服務(wù)器還是很不靠譜的).

我的分析數(shù)據(jù)能力并不是很強(qiáng),僅僅是從CS109里面偷學(xué)了一點(diǎn)點(diǎn),然后使用Seaborn畫圖,但是這整個過程中還是覺得自己分析不過來,不是寫不出代碼,而是不清楚使用什么樣的數(shù)據(jù)模型進(jìn)行分析更好.

0x07 代碼

代碼放在了Github上面,咳咳,注意,沒有把代理服務(wù)器放進(jìn)去.如果你跑一下會發(fā)現(xiàn)只能半小時抓取300+頁面,這不是我的問題,是你沒有把代理服務(wù)器填好.代碼比較粗糙,還請輕拍.

代碼的地址為:

https://github.com/twocucao/DataScience/

倉庫里包含了抓取網(wǎng)站的代碼和分析數(shù)據(jù)的IPython Notebook,自己閱讀吧.

如果喜歡本文,就點(diǎn)個喜歡吧.

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

關(guān)于背單詞軟件,你不知道的驚人真相

關(guān)于背單詞軟件,你不知道的驚人真相

0x00 前言

0x01 問題的提出和任務(wù)的分解

0x02 任務(wù)一,信息爬取,清理和存儲

0x03 任務(wù)二,清理和存儲

0x04 任務(wù)三,分析

0x05 任務(wù)三,結(jié)論

0x06 整個流程的不足和反思.

0x07 代碼

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

關(guān)于背單詞軟件,你不知道的驚人真相

0x00 前言

0x01 問題的提出和任務(wù)的分解

0x02 任務(wù)一,信息爬取,清理和存儲

0x03 任務(wù)二,清理和存儲

0x04 任務(wù)三,分析

0x05 任務(wù)三,結(jié)論

0x06 整個流程的不足和反思.

0x07 代碼

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频