作為一位P2P和小貸行業(yè)的數(shù)據(jù)產(chǎn)品經(jīng)理,每次看到其他平臺(tái)上齊整整的投資記錄時(shí),都按耐不住要把數(shù)據(jù)扒下來并且對(duì)它進(jìn)行分析。這次帶來對(duì)團(tuán)貸網(wǎng)7月28日-8月11日的所有理財(cái)計(jì)劃的投資記錄的數(shù)據(jù)分析報(bào)告,讓我們看看從這份數(shù)據(jù)中能得到什么有趣的結(jié)果吧。
使用Scrapy爬取投資記錄數(shù)據(jù)
我是使用基于python的一個(gè)爬蟲框架-scrapy,來抓取團(tuán)貸網(wǎng)的投資記錄的。因?yàn)楸疚牡闹攸c(diǎn)是進(jìn)行數(shù)據(jù)分析,所以整個(gè)抓取過程我就不詳細(xì)介紹了。整個(gè)抓取過程還是相當(dāng)曲折的,經(jīng)常會(huì)出現(xiàn)數(shù)據(jù)抓取不完整的情況。在這里主要感謝我?guī)煾盗粮纾瑢?duì)于代碼的指導(dǎo)。
數(shù)據(jù)我是以CSV格式輸出在本地的,只需要在settings.py文件加入右邊兩行設(shè)置代碼即可。下次介紹怎么將抓取的數(shù)據(jù),直接存入數(shù)據(jù)庫。
這次我主要抓取了利率,投資人手機(jī)號(hào)(已脫敏),投資金額,還款方式,投資時(shí)間,投資計(jì)劃6個(gè)字段。截取前30條記錄給大家看一下。投資時(shí)間字段,我使用excel進(jìn)行了分行,分成了日期和時(shí)間以及上午還是下午字段。這一步,也就是傳說中的數(shù)據(jù)分析建模。當(dāng)然,這是比較簡單的數(shù)據(jù)建模,沒有涉及字段的聚合計(jì)算等方式,不過這也是根據(jù)具體項(xiàng)目來的。
使用Excel數(shù)據(jù)透視表進(jìn)行分析
關(guān)于使用哪種工具對(duì)數(shù)據(jù)進(jìn)行分析,這個(gè)有很多,光我自己用過的,就有PowerBi,網(wǎng)易有數(shù),F(xiàn)ineBI,python,spss,所以工具不是重點(diǎn)。只要能輸出可視化的圖表都可以。在本文,我也不詳細(xì)介紹操作步驟了,如果有對(duì)分析步驟感興趣的,我可以單獨(dú)再寫一篇Excel數(shù)據(jù)透視表的教程。
對(duì)于數(shù)據(jù)量比較小,圖表要求沒那么高的項(xiàng)目,使用數(shù)據(jù)透視表完全夠了!如果你想學(xué)一些其他Bi分析工具,那么我建議你還是先把數(shù)據(jù)透視表學(xué)好!
數(shù)據(jù)分析結(jié)果展示
重點(diǎn)來了,本次分析的數(shù)據(jù)共有62485條記錄,時(shí)間為7月28日-8月11日。
一、先來看第一張圖,各產(chǎn)品投資金額分布比例對(duì)比圖
我將投資金額進(jìn)行了分組,以5千元為一個(gè)組距進(jìn)行了區(qū)分,我們可以看出
1、不管哪種產(chǎn)品,投資金額為0-4999的區(qū)間都占據(jù)了最高的比例,這說明不管哪種產(chǎn)品,大家還是傾向于小額投資的策略。
2、我們從圖中還可以發(fā)現(xiàn),如果期限比較短,投資人比較傾向于投資比較大的金額,期限如果比較長,這個(gè)比例會(huì)降低。
二、我們?cè)賮砜匆幌拢顿Y金額排在前十位的都有哪些。
1、41%的人選擇了投資200元,如果加上投資100的22%的人,那么63%的都選擇了投資200或100元,一般來說,投資100到200的以新手居多。可以推斷,這段時(shí)間投資的新用戶占比應(yīng)該至少在5成左右。
2、我們還可以看到1000元以上的投資金額里,2000,5000,10000元的投資金額很受歡迎。10000元的占比更是達(dá)到了6%,在所有1000元以上的投資金額里占比是最高的。將投資5000元的客戶轉(zhuǎn)化為投資1萬元的客戶,可以定為一個(gè)轉(zhuǎn)化目標(biāo)。而把2000元客戶轉(zhuǎn)為5000元客戶,又將是一個(gè)比較好的轉(zhuǎn)化目標(biāo)。
三、第三張圖是一個(gè)趨勢(shì)圖,這就是團(tuán)貸網(wǎng)在7月28日-8月11日所有投資計(jì)劃的交易額。
1、我們可以發(fā)現(xiàn),7月29日和8月6日都是星期六,都是局部范圍內(nèi)成交量最低的時(shí)期。
2、我們還可以發(fā)現(xiàn),在星期三和星期四的成交量往往是最高的。這說明,用戶的資金量一般在周三周四比較充足,到了周末就比較少。當(dāng)然我們也可以說,用戶的投資習(xí)慣在周三周四。
四、投資頻率在前十位的投資人他們都有哪些偏好呢?
1、這次的數(shù)據(jù)我當(dāng)時(shí)取的是7月13日-26日,大概13天的數(shù)據(jù)量。我們可以看到,投資頻率最高的投資人投資次數(shù)在35次,也就是說,2周以內(nèi),他平均每天將近3次,這是一個(gè)用戶粘度非常高的用戶,而且還有一個(gè)很顯著的特點(diǎn),這位用戶投資的期限都很長,一看就是一個(gè)深度的用戶。
2、從整個(gè)圖上來看,這些深度用戶或者老用戶一般都選擇12.6%和12.1%的期限分別為36個(gè)月和24個(gè)月的。這說明,這些深度用戶可支配的閑余資金比較多,為了追求高收益寧愿放棄資金的流動(dòng)性。這部分用戶是重點(diǎn)維護(hù)的對(duì)象。
五、最后我們來分析一下,投資人的投資時(shí)間分布情況。
1、用戶在上午的9點(diǎn)-10點(diǎn)和下午的3點(diǎn)-5點(diǎn)之間是最活躍的兩個(gè)投資時(shí)間點(diǎn)。尤其在9點(diǎn)和10點(diǎn)之間,投資占比達(dá)到了15%,一個(gè)非常高的峰值。這個(gè)時(shí)間是根據(jù)7月13-26號(hào)的所有投資時(shí)間的一個(gè)平均。而在凌晨1點(diǎn)-5點(diǎn)之間,是投資活躍度最低的時(shí)間。
2、中午的一點(diǎn)鐘,是整個(gè)白天中,除了7點(diǎn)-8點(diǎn)以外,最低的時(shí)間段就是下午1點(diǎn)鐘,這跟大家整個(gè)白天上班情況很相似。
這張圖其實(shí)非常的形象,就像是一個(gè)躺著的僵尸,將兩只手伸直。其實(shí)我們稱它為僵尸圖。
整個(gè)數(shù)據(jù)分析的流程,大概就是這樣的。如果有想要源代碼的,可以留下郵箱,我統(tǒng)一發(fā)給你們,后面我會(huì)直接上傳到GitHub上,共享出來。
后面會(huì)介紹一些BI工具的使用,只要你使用好BI工具,這些圖形的制作都是小意思,其實(shí)最關(guān)鍵的還是如何從數(shù)據(jù)中得出有價(jià)值的信息。