3數(shù)據(jù)分析常識(shí)
在前面幾章里講了很多關(guān)于數(shù)據(jù)分析市場(chǎng)和數(shù)據(jù)分析師的職業(yè)生涯發(fā)展,下面的幾篇會(huì)重點(diǎn)介紹數(shù)據(jù)分析的理論知識(shí)、數(shù)據(jù)分析的方法論、數(shù)據(jù)分析的分析流程、數(shù)據(jù)分析報(bào)告如何撰寫(xiě)、電商中的數(shù)據(jù)分析應(yīng)用等具體的應(yīng)用案例。經(jīng)常也會(huì)被問(wèn)到作為一個(gè)不是統(tǒng)計(jì)學(xué)背景的學(xué)生,能否入行數(shù)據(jù)分析的問(wèn)題。還有包括像平時(shí)的具體數(shù)據(jù)分析工作都有哪些?作為數(shù)據(jù)分析入門(mén)菜鳥(niǎo)怎么才能打好數(shù)據(jù)分析方面的基礎(chǔ),需要看哪些方面的書(shū)等等。其實(shí)這些問(wèn)題對(duì)于一個(gè)剛畢業(yè)的或者沒(méi)有太多數(shù)據(jù)行業(yè)經(jīng)驗(yàn)的人來(lái)說(shuō),是很正常的一個(gè)情況。包括自己在內(nèi),如果要重新跨行去進(jìn)入一個(gè)新領(lǐng)域也會(huì)遇到這些問(wèn)題。首先咨詢(xún)相關(guān)行業(yè)的內(nèi)部師兄師姐,看看相應(yīng)的介紹和材料,如果能夠有比較系統(tǒng)的書(shū)籍介紹那是最好不過(guò)的了。當(dāng)然自己也需要花時(shí)間去歸納和總結(jié),再結(jié)合大量的實(shí)踐案例長(zhǎng)期以往基本上會(huì)對(duì)這塊新領(lǐng)域能夠了然于胸了。
讓我在此我向大家推薦一個(gè)交流學(xué)習(xí)群:722680258里面會(huì)分享一些資深大數(shù)據(jù)工程師架構(gòu)師錄制的視頻錄像:有Linux、Hadoop核集群搭建、HDFS、Mapreduce、YARN、離線計(jì)算Flume?、Hive、實(shí)時(shí)計(jì)算、大數(shù)據(jù)ETL、大數(shù)據(jù)應(yīng)用與數(shù)據(jù)挖掘的原理這些成為大 數(shù)據(jù)開(kāi)發(fā)師必備的知識(shí)體系。還能領(lǐng)取免費(fèi)的學(xué)習(xí)資源,受益良多。
前段時(shí)間和做大數(shù)據(jù)培訓(xùn)的創(chuàng)始人聊到,我問(wèn)他原來(lái)是做什么的,詫異的是他原來(lái)是做用戶(hù)體驗(yàn)(User Experience Design,UED)出身的。對(duì)我來(lái)說(shuō),第一反應(yīng)認(rèn)為產(chǎn)品提需求,UED根據(jù)PD的相應(yīng)需求文檔構(gòu)思設(shè)計(jì)相應(yīng)的產(chǎn)品,而對(duì)于數(shù)據(jù)分析以及業(yè)務(wù)運(yùn)營(yíng),這的確就是很多UED所欠缺的核心,而脫離實(shí)際業(yè)務(wù)的UED并不是真正的UED,沒(méi)有結(jié)合產(chǎn)品和用戶(hù)需求本身來(lái)設(shè)計(jì),很多也只是空中樓閣。我和那位創(chuàng)始人聊了很久,特別是他在過(guò)去的一些經(jīng)歷和感受,同時(shí)他也是阿里巴巴曾經(jīng)做過(guò)UED的同事,我想這個(gè)經(jīng)驗(yàn)分享在互聯(lián)網(wǎng)公司還是比較有代表性的。
說(shuō)到用戶(hù)體驗(yàn),很多人會(huì)感覺(jué)這是一個(gè)很虛的概念,是一種純主觀的在用戶(hù)使用一個(gè)產(chǎn)品(服務(wù))的過(guò)程中建立起來(lái)的心理感受。因?yàn)樗羌冎饔^的,就帶有一定的不確定因素。我接著問(wèn)道,那平時(shí)調(diào)查用戶(hù)體驗(yàn)時(shí)你們會(huì)關(guān)注數(shù)據(jù)嗎?令我欣慰的是,那位創(chuàng)始人說(shuō)平時(shí)太需要數(shù)據(jù)的支持了。包括之前設(shè)計(jì)的功能布局、頁(yè)面結(jié)構(gòu)、按鈕的顏色、整體的風(fēng)格都需要通過(guò)大量的AB 測(cè)試來(lái)驗(yàn)證用戶(hù)的體驗(yàn)是否符合預(yù)期。這在互聯(lián)網(wǎng)公司尤為典型,像現(xiàn)在上線的產(chǎn)品和功能很多都是拍腦袋決定或者固有的思維模式認(rèn)為就應(yīng)該這樣,而實(shí)際情況沒(méi)并就一定是用戶(hù)希望看到的。特別是典型的Facebook從早期的一個(gè)簡(jiǎn)單的社交產(chǎn)品到現(xiàn)在日活躍用戶(hù)十億,一個(gè)很小的改變就可能會(huì)引來(lái)用戶(hù)的強(qiáng)烈感覺(jué)。在這些多年里,F(xiàn)acebook嘗試了各種方案,像newspaper、clipboard等樣式,雖然這些都實(shí)現(xiàn)了,但是都因?yàn)閿?shù)據(jù)的原因沒(méi)有上線。
我那位大數(shù)據(jù)培訓(xùn)的朋友也分享了一下他們親身經(jīng)歷的故事,是關(guān)于當(dāng)時(shí)做超市購(gòu)物車(chē)的案例。購(gòu)物車(chē)是每個(gè)網(wǎng)上超市都有的,可以讓用戶(hù)挑選商品,快速結(jié)賬,所以功能上一點(diǎn)都不能少,而且文案要給用戶(hù)都能看明白。而在具體設(shè)計(jì)到購(gòu)物車(chē)的布局時(shí)產(chǎn)生了分歧:一種是希望以縱向列表的方式展示,另一種是以大圖的方式。但是大家都沒(méi)有嘗試過(guò)這種大圖的模式,而縱向列表的方式是用戶(hù)使用最方便的,比較一目了然。另外,對(duì)于購(gòu)物車(chē)的單位設(shè)計(jì)也存在一些爭(zhēng)議,很多電商網(wǎng)站都是用“件”來(lái)表示一個(gè)商品,比如同一件商品買(mǎi)了兩個(gè)到底是算一件還是兩件,大家對(duì)此一直爭(zhēng)論不休。通過(guò)那幾年的UED工作,他對(duì)UED有了更深的理解,雖然對(duì)于UED有很多想法,但是由于各種原因,比如上線時(shí)間老板說(shuō)了算,還有很多想法受限技術(shù)的原因很難實(shí)現(xiàn),特別是在實(shí)現(xiàn)方案上沒(méi)有用戶(hù)研究的數(shù)據(jù)支撐很難判斷而導(dǎo)致最終都沒(méi)有實(shí)現(xiàn)。我聽(tīng)了他的訴苦也是感觸很深,跨部門(mén)之間的溝通的確需要很大的成本,特別是沒(méi)有站在對(duì)方的利益場(chǎng)上就更難合作。所以如果大家都能有一種共同的價(jià)值觀和意向,在溝通協(xié)調(diào)上能夠達(dá)到事半功倍的效果。
3.1 常見(jiàn)的數(shù)據(jù)分析問(wèn)題
如果你希望從事這個(gè)數(shù)據(jù)分析行業(yè)的,亦或是對(duì)數(shù)據(jù)分析感興趣的,那就需要把數(shù)據(jù)分析常見(jiàn)的一些問(wèn)題弄明白,避免被別人忽悠到不知東南西北。即使作為在數(shù)據(jù)分析行業(yè)從事了幾年的職場(chǎng)老鳥(niǎo)來(lái)說(shuō),再次回顧常見(jiàn)的數(shù)據(jù)分析問(wèn)題也會(huì)有不一樣的思考和感受。
在我們接觸到數(shù)據(jù)分析這個(gè)領(lǐng)域的時(shí)候,不同的對(duì)象、不同的時(shí)期會(huì)遇到不同的問(wèn)題。對(duì)于剛?cè)胄械耐瑢W(xué)來(lái)說(shuō)可能需要知道數(shù)據(jù)分析的基本概念,數(shù)據(jù)分析都有哪些,包括數(shù)據(jù)分析和統(tǒng)計(jì)分析、數(shù)據(jù)挖掘的區(qū)別和聯(lián)系是什么,在數(shù)據(jù)分析上常見(jiàn)的工具都有哪些,還需要了解如何增加自己在數(shù)據(jù)分析這塊的經(jīng)驗(yàn)和技術(shù),在面試的過(guò)程中如何給自己加分等。對(duì)于入行1、2年的數(shù)據(jù)新人來(lái)說(shuō),需要在有一些基本的數(shù)據(jù)處理和分析能力基礎(chǔ)上思考如何自我成長(zhǎng),在現(xiàn)有的環(huán)境下突破瓶頸。對(duì)于工作了很長(zhǎng)時(shí)間的資深數(shù)據(jù)分析人員來(lái)說(shuō),則需要考慮如何能夠在技能上和個(gè)人發(fā)展上再次升華。這些都是在數(shù)據(jù)分析生涯中會(huì)遇到的問(wèn)題。而本小節(jié)會(huì)重點(diǎn)介紹我們作為入門(mén)的數(shù)據(jù)分析新人遇到的一些常識(shí)問(wèn)題,這些都是我們?cè)跀?shù)據(jù)分析討論、論壇以及在面試環(huán)節(jié)可能會(huì)聊到的話題。
1. 數(shù)據(jù)分析是什么?數(shù)據(jù)分析包含哪些?
數(shù)據(jù)也稱(chēng)觀測(cè)值,是實(shí)驗(yàn)、測(cè)量、觀察、調(diào)查等的結(jié)果,常以數(shù)量的形式給出。數(shù)據(jù)分析的目的是把隱沒(méi)在一大批看來(lái)雜亂無(wú)章的數(shù)據(jù)中的信息集中、萃取和提煉出來(lái),以找出所研究對(duì)象的內(nèi)在規(guī)律。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當(dāng)行動(dòng)。數(shù)據(jù)分析是組織有目的地收集數(shù)據(jù)、分析數(shù)據(jù),使之成為信息的過(guò)程。這一過(guò)程是質(zhì)量管理體系的支持過(guò)程。在產(chǎn)品的整個(gè)壽命周期,包括從市場(chǎng)調(diào)研到售后服務(wù)和最終處置的各個(gè)過(guò)程都需要適當(dāng)運(yùn)用數(shù)據(jù)分析過(guò)程,以提升有效性。例如J.開(kāi)普勒通過(guò)分析行星角位置的觀測(cè)數(shù)據(jù),找出了行星運(yùn)動(dòng)規(guī)律。又如,一個(gè)企業(yè)的領(lǐng)導(dǎo)人要通過(guò)市場(chǎng)調(diào)查,分析所得數(shù)據(jù)以判定市場(chǎng)動(dòng)向,從而制定合適的生產(chǎn)及銷(xiāo)售計(jì)劃。因此數(shù)據(jù)分析有極廣泛的應(yīng)用范圍。
而數(shù)據(jù)分析包括的內(nèi)容從需求識(shí)別、獲取數(shù)據(jù)、整理數(shù)據(jù)、觀察數(shù)據(jù)到分析數(shù)據(jù)、數(shù)據(jù)展現(xiàn)的各個(gè)環(huán)節(jié)。
第一步就是要準(zhǔn)確識(shí)別需求,定位到問(wèn)題的核心所在和需要哪些數(shù)據(jù)來(lái)支撐你的觀點(diǎn),這樣為收集數(shù)據(jù)、分析數(shù)據(jù)提供清楚的目標(biāo)。區(qū)分一個(gè)高級(jí)數(shù)據(jù)分析師和一般數(shù)據(jù)分析師,能夠第一眼就識(shí)別問(wèn)題的所在,掌握數(shù)據(jù)庫(kù)的熟練程度,第一時(shí)間通過(guò)數(shù)據(jù)的校驗(yàn)驗(yàn)證自己的觀點(diǎn)。
第二步獲取數(shù)據(jù),將需求轉(zhuǎn)變成具體的數(shù)據(jù)要求,明確哪些數(shù)據(jù)是需要的,他們?cè)谑裁吹胤剑梢酝ㄟ^(guò)誰(shuí)來(lái)獲取。
第三步就是觀察數(shù)據(jù),通過(guò)加工、整理分析成有用的信息,通常結(jié)合時(shí)間序列、對(duì)比、趨勢(shì)等。
第四步分析數(shù)據(jù),結(jié)合現(xiàn)有的業(yè)務(wù)和數(shù)據(jù)發(fā)現(xiàn)的問(wèn)題,提出建議和意見(jiàn)。
最后往往還要再回過(guò)頭看看數(shù)據(jù)分析方法是否正確、是否數(shù)據(jù)質(zhì)量上還有什么問(wèn)題、收集到的數(shù)據(jù)是否真實(shí)等。
2. 數(shù)據(jù)分析與數(shù)據(jù)挖掘的區(qū)別?
在接觸數(shù)據(jù)分析和數(shù)據(jù)挖掘的時(shí)候,也會(huì)遇到數(shù)據(jù)分析和數(shù)據(jù)挖掘是什么,之間區(qū)別有哪些。從實(shí)際工作中來(lái)看數(shù)據(jù)分析和數(shù)據(jù)挖掘也是兩件不同的事情,但是兩者有很強(qiáng)的相關(guān)聯(lián)性。
從概念上講,數(shù)據(jù)分析是在統(tǒng)計(jì)數(shù)據(jù)的基礎(chǔ)上通過(guò)結(jié)合分析方法論得出一定的結(jié)論,而數(shù)據(jù)挖掘更多是對(duì)歷史數(shù)據(jù)進(jìn)行未知結(jié)果的探索。像我們最常見(jiàn)的“啤酒與尿布”的故事,我們結(jié)合數(shù)據(jù)只能分析出啤酒和尿布的銷(xiāo)量都很高,但是這其中為什么啤酒和尿布是有相關(guān)聯(lián)的,那就需要通過(guò)數(shù)據(jù)挖掘的方法來(lái)挖掘,從中發(fā)現(xiàn)去買(mǎi)尿布的男士都會(huì)順便去買(mǎi)啤酒。再比如我們通過(guò)數(shù)據(jù)分析發(fā)現(xiàn)電商購(gòu)物的人群70%都是女性,所以結(jié)論就是女性更喜歡購(gòu)物,而通過(guò)數(shù)據(jù)挖掘我們發(fā)現(xiàn)由于女性天生喜歡逛街購(gòu)物、大部分時(shí)間會(huì)去關(guān)注比較漂亮的商品、沒(méi)有太多目的性,導(dǎo)致女性在電商中的購(gòu)物比例很高。
在工作內(nèi)容上,數(shù)據(jù)分析的工作偏重對(duì)業(yè)務(wù)層面的理解,能夠結(jié)合具體的業(yè)務(wù)和已有的數(shù)據(jù),給出自己有力的觀點(diǎn),給到業(yè)務(wù)決策的支持。數(shù)據(jù)挖掘的工作偏重系統(tǒng)工程,通過(guò)歷史數(shù)據(jù)樣本召回、數(shù)據(jù)特征工程和模型算法,對(duì)未來(lái)結(jié)果預(yù)測(cè)。所以在工作內(nèi)容上兩者的差別也是比較巨大,但又有聯(lián)系。舉個(gè)例子,在公司做數(shù)據(jù)分析師的階段,日常的工作是整理網(wǎng)站流量趨勢(shì)變化的報(bào)表,如果流量上漲或者下跌要能夠分析這其中的原因是什么,可能是業(yè)務(wù)方有營(yíng)銷(xiāo)活動(dòng)的動(dòng)作,也有可能是系統(tǒng)層面的數(shù)據(jù)問(wèn)題。而在公司做數(shù)據(jù)挖掘的平時(shí)工作就在某一個(gè)小點(diǎn)上,如果利用數(shù)據(jù)挖掘來(lái)預(yù)測(cè)明天可能有哪些用戶(hù)會(huì)來(lái)登陸。涉及登陸頻次、用戶(hù)的個(gè)人屬性情況、用戶(hù)使用網(wǎng)站的周期、網(wǎng)站的活動(dòng)因素等各方面的數(shù)據(jù)特征。利用模型去訓(xùn)練和預(yù)測(cè)明天登陸用戶(hù)的概念。最后在實(shí)際的業(yè)務(wù)場(chǎng)景中去應(yīng)用。
因而不難發(fā)現(xiàn),數(shù)據(jù)分析更多是對(duì)已有數(shù)據(jù)進(jìn)行觀察分析,數(shù)據(jù)挖掘更多是對(duì)知識(shí)的規(guī)律探索總結(jié)。在方法論上數(shù)據(jù)分析更多憑借人結(jié)合數(shù)據(jù)經(jīng)驗(yàn),數(shù)據(jù)挖掘會(huì)結(jié)合算法模型分析。
3. 數(shù)據(jù)分析和做報(bào)表的區(qū)別?
過(guò)去BI一直被人認(rèn)為就是做報(bào)表的,所以不管是業(yè)務(wù)部門(mén)還是技術(shù)部門(mén)一有報(bào)表需求就會(huì)去找BI部門(mén)。而B(niǎo)I部門(mén)也不想把自己定位成做報(bào)表的部門(mén),所以一直在接這方面的需求沒(méi)有太多積極性。
咨詢(xún)行業(yè)內(nèi)有一個(gè)經(jīng)典的故事:
一個(gè)農(nóng)民趕著羊群在草原上走,迎面碰到一個(gè)人對(duì)他說(shuō):“我可以告訴你,你的羊群有幾只羊。”隨即,他用衛(wèi)星定位技術(shù)和網(wǎng)絡(luò)技術(shù)將信息發(fā)到總部的數(shù)據(jù)庫(kù)……片刻后,他告訴農(nóng)民羊群共有1460只羊,并且要求農(nóng)民給他一只羊作為報(bào)酬,農(nóng)民答應(yīng)了。隨后,農(nóng)民對(duì)他講:“如果我能說(shuō)出你是干嘛的,你能否把羊還給我?”那人說(shuō),“行”。農(nóng)民說(shuō):“你是一個(gè)咨詢(xún)顧問(wèn)。”那人很驚訝,問(wèn)農(nóng)民是怎么知道的。農(nóng)民說(shuō):“有三個(gè)理由足以讓我知道:1.我沒(méi)有請(qǐng)你,你自己就找上門(mén)來(lái);2.你告訴了我一個(gè)早已知道的東西,還要向我收費(fèi);3.一看就知道你不懂我們這一行,你抱的根本不是羊,而是一只牧羊犬。”
這個(gè)笑話在咨詢(xún)界廣為流傳,并有不同的公司版本,和前段時(shí)間“友誼的小船說(shuō)翻就翻”一樣在微博和朋友圈被人轉(zhuǎn)發(fā)。而有意思的是,許多資深咨詢(xún)顧問(wèn)看到這個(gè)笑話并不感到惱怒,而是會(huì)心地一笑。公開(kāi)場(chǎng)合下,他們一定會(huì)非常自信地說(shuō),咨詢(xún)非常深刻地影響企業(yè)的戰(zhàn)略,因此具有非常重要的價(jià)值。不過(guò)私底下,他們對(duì)于是否真的“能改變世界”這一點(diǎn)并不夠自信。作為定位于公司輔助決策的數(shù)據(jù)分析部門(mén)而言,BI也在接受這樣的調(diào)整。名稱(chēng)叫商業(yè)智能,指導(dǎo)公司的高層,而在具體的實(shí)際行動(dòng)中,因?yàn)楦邔硬欢當(dāng)?shù)據(jù)或者數(shù)據(jù)部門(mén)不理解業(yè)務(wù),再或者沒(méi)有足夠的數(shù)據(jù)能夠支撐你去做很多的分析,導(dǎo)致最終的很多公司數(shù)據(jù)部門(mén)變成了一個(gè)“做報(bào)表”的部門(mén)。而報(bào)表作為管理層經(jīng)常需要看的媒介,又不可或缺。值得高興的是,現(xiàn)在有很多可視化的數(shù)據(jù)工具來(lái)幫助傳統(tǒng)企業(yè)在做報(bào)表的過(guò)程中提高效率和優(yōu)化美觀,與過(guò)去需要數(shù)據(jù)分析師專(zhuān)門(mén)每天去重復(fù)拉取excel報(bào)表來(lái)說(shuō)明顯進(jìn)步很多。但對(duì)于一些更加深入的分析還是需要資深的數(shù)據(jù)分析師來(lái)結(jié)合業(yè)務(wù)單獨(dú)分析,并非是簡(jiǎn)單的報(bào)表的能夠解決的情況。所以資深的數(shù)據(jù)分析師還是一種是眾多公司爭(zhēng)搶的資源。
如今在市場(chǎng)方面,數(shù)據(jù)分析、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘、大數(shù)據(jù)等概念熱得發(fā)燙,數(shù)據(jù)分析師被認(rèn)為是萬(wàn)眾仰慕的職場(chǎng)新寵,關(guān)于數(shù)據(jù)分析師技能、職責(zé)、職業(yè)素質(zhì)、發(fā)展前景等的討論不絕于耳。就像“姚黑”一樣,數(shù)據(jù)分析的質(zhì)疑聲也不斷傳出和放大,數(shù)據(jù)分析、挖掘到底能否產(chǎn)生價(jià)值,多大價(jià)值?
數(shù)據(jù)分析員、數(shù)據(jù)分析師不應(yīng)當(dāng)只會(huì)“數(shù)羊”!不應(yīng)當(dāng)只是發(fā)現(xiàn)本應(yīng)該發(fā)現(xiàn)的“經(jīng)驗(yàn)”!而應(yīng)當(dāng)掌握數(shù)據(jù)探索,發(fā)現(xiàn)潛在的價(jià)值,預(yù)見(jiàn)可能將發(fā)生的某種“壞的未來(lái)”!
4. 數(shù)據(jù)分析難不難學(xué)?特別是背景非理工科的。
只要有恒心就會(huì)學(xué)會(huì),而且這個(gè)目前也是一個(gè)熱門(mén),因?yàn)楝F(xiàn)在數(shù)據(jù)量越來(lái)越大了,所以對(duì)這方面的需求也越來(lái)越多。學(xué)習(xí)數(shù)據(jù)分析,先要打好理論基礎(chǔ),《概率論與數(shù)理統(tǒng)計(jì)》、《統(tǒng)計(jì)學(xué)》、《深入淺出數(shù)據(jù)分析》等。然后就是主流的數(shù)據(jù)分析軟件,關(guān)于數(shù)據(jù)分析主流軟件有(從上手度從易到難):Excel,SPSS,Stata,R,Python,SAS等。
如果是理工科背景的,了解數(shù)據(jù)分析并掌握相對(duì)來(lái)說(shuō)比較好上手。重點(diǎn)是對(duì)統(tǒng)計(jì)學(xué)知識(shí)的熟練掌握,另外就是在編程方面能夠有一定的基礎(chǔ),在處理數(shù)據(jù)和查詢(xún)數(shù)據(jù)、分析上面能夠自己操作,特別推薦像R、python這樣比較好上手的語(yǔ)言,基本能夠解決目前80%的數(shù)據(jù)分析需求。
如果是非理工科的,那可能還是需要在高等數(shù)據(jù)、微積分這些上面先花段時(shí)間學(xué)習(xí)一下,了解數(shù)學(xué)方面的基本方法論。學(xué)習(xí)常用的數(shù)據(jù)分析方法論都有哪些,比如趨勢(shì)分析、對(duì)比分析、關(guān)聯(lián)分析、預(yù)測(cè)分析等。常用的市場(chǎng)分析方法論,如SWOT、PEST、4P、波士頓矩陣、5W2H等。
最后還是需要大量的項(xiàng)目和工作案例來(lái)鍛煉,學(xué)會(huì)怎樣操作那些數(shù)據(jù)分析軟件,學(xué)習(xí)從哪些角度去思考分析常見(jiàn)的指標(biāo)問(wèn)題。然后是利用軟件從數(shù)據(jù)的清洗開(kāi)始一步步進(jìn)行處理,分析,最后輸出結(jié)果,檢驗(yàn)及解讀數(shù)據(jù)。
5. 數(shù)據(jù)分析可以有哪些應(yīng)用?
隨著互聯(lián)網(wǎng)、電信、金融等行業(yè)的數(shù)據(jù)爆發(fā)式的增長(zhǎng),對(duì)海量數(shù)據(jù)的分析和處理的需求也非常多,重點(diǎn)集中在電商領(lǐng)域的人群偏好和客戶(hù)畫(huà)像、社交領(lǐng)域的關(guān)系模型分析、內(nèi)容搜索排序、金融的反作弊反欺詐、保險(xiǎn)定價(jià)分析、用戶(hù)賬戶(hù)安全登錄、個(gè)人征信數(shù)據(jù)分析等都是很典型的應(yīng)用案例。
在電商領(lǐng)域像最早接觸的網(wǎng)站分析,其中包括流量分析,每天的流量的PV/UV的監(jiān)控,用戶(hù)路徑流量的入口出口,用戶(hù)特征分布情況,交易數(shù)據(jù)的記錄詳情,會(huì)員交叉銷(xiāo)售和推薦等。后面就陸續(xù)開(kāi)始做用戶(hù)的畫(huà)像研究,包括用戶(hù)的基本屬性、購(gòu)買(mǎi)能力、行為特征、社交網(wǎng)絡(luò)、心理特征、興趣愛(ài)好,像有些比如有沒(méi)有生孩子、有沒(méi)有結(jié)婚、具體職業(yè)都需要做模型分析預(yù)測(cè)。再后來(lái)就是接入具體商品庫(kù)和營(yíng)銷(xiāo)平臺(tái),嘗試做各種各樣的個(gè)性化營(yíng)銷(xiāo)和商品推薦。
在社交領(lǐng)域結(jié)合好友之間的個(gè)人屬性相似度、互動(dòng)程度、內(nèi)容排序做用戶(hù)間的社交平臺(tái),社交網(wǎng)絡(luò)中充斥著用戶(hù)的潛在需求、熱點(diǎn)資訊信息、用戶(hù)關(guān)系,這里面大量的信息對(duì)于企業(yè)來(lái)說(shuō)具有巨大的價(jià)值,如果掌握了這些數(shù)據(jù)之后加上分析,無(wú)論對(duì)于現(xiàn)有產(chǎn)品的改進(jìn)還是對(duì)未來(lái)產(chǎn)品的走勢(shì)都有十分幫助,像我們?cè)趯?shí)際模型中應(yīng)用到的社區(qū)圈子的識(shí)別、人物影響力的計(jì)算、社交網(wǎng)絡(luò)上的信息傳播、僵尸賬號(hào)和垃圾信息的識(shí)別、基于社交對(duì)熱點(diǎn)內(nèi)容的輿情監(jiān)控分析等。
在金融反作弊領(lǐng)域同樣數(shù)據(jù)分析扮演著重要的作用,識(shí)別賬號(hào)的交易是否符合正常的范圍,有沒(méi)有存在虛假交易、刷單等行為。
保險(xiǎn)定價(jià)中像車(chē)險(xiǎn),可以根據(jù)車(chē)主平時(shí)的行車(chē)路線、里程、行車(chē)習(xí)慣、出險(xiǎn)記錄、職業(yè)、年齡、性別等給出不同的定價(jià),比如你開(kāi)一個(gè)緊湊型車(chē)的兩個(gè)人,在平時(shí)的駕駛習(xí)慣上一個(gè)比較急躁,那這個(gè)人出險(xiǎn)的概率就是另一個(gè)人的幾倍,那么如果兩個(gè)人的車(chē)險(xiǎn)定價(jià)是一樣的很明顯不合理,對(duì)于前者來(lái)說(shuō)對(duì)保險(xiǎn)的損失更大,而后者是相對(duì)來(lái)說(shuō)比較優(yōu)質(zhì)的客戶(hù)。
6. 厲害的數(shù)據(jù)分析都是什么樣?
就像剛剛介紹到的數(shù)羊的故事,如果年輕人走入羊群進(jìn)行考察,并用各種統(tǒng)計(jì)方法和不同工具進(jìn)行了全面的判斷,然后,他告訴農(nóng)民羊群共有1460只羊,僅有10只公羊、其余為母羊,可以繁殖的母羊有1000只,其余為羊仔,根據(jù)一些特征,羊群可以分為“肯吃型”、“瘋跑型”、“活蹦亂跳小仔型”三類(lèi)。農(nóng)民聽(tīng)后既驚訝又失望,驚訝的是一個(gè)沒(méi)放過(guò)羊的人和他一樣了解羊群,失望的是他所聽(tīng)到的都是他早已知道的。
而如果回答是“羊群共有1460只羊,僅有10只公羊、其余為母羊,可以繁殖的母羊有1000只,其余為羊仔。因此,當(dāng)務(wù)之急是賣(mài)掉長(zhǎng)肥的小羊,馬上引進(jìn)更多的種公羊,以解決當(dāng)前種羊和母羊比例嚴(yán)重失調(diào)的問(wèn)題;根據(jù)對(duì)市場(chǎng)的預(yù)估,5月份每賣(mài)掉一只小羊?qū)⒈?月份多賺150元,因此,我們必須把握先機(jī),4月前育肥,5月清欄;對(duì)于“瘋跑型”羊,有必要采取兩條腿綁繩的方法限制其大范圍跑動(dòng),對(duì)于“活蹦亂跳小羊”應(yīng)采取與成年羊隔離的放養(yǎng)的方式。”
厲害的數(shù)據(jù)分析師就是在大量數(shù)據(jù)集中發(fā)現(xiàn)有用關(guān)系的系統(tǒng)性的方法,在開(kāi)始之前,你不必知道尋找的是什么,你可以通過(guò)擬合不同模型和研究不同關(guān)系來(lái)探索數(shù)據(jù),直到你發(fā)現(xiàn)有用的信息為止。通過(guò)數(shù)據(jù)分析的方式來(lái)幫助業(yè)務(wù)快速的成長(zhǎng)。
能力:一定要懂點(diǎn)戰(zhàn)略、才能結(jié)合商業(yè);一定要漂亮的presentation、才能buying;一定要有g(shù)lobal view、才能打單;一定要懂業(yè)務(wù)、才能結(jié)合市場(chǎng);一定要專(zhuān)幾種工具、才能干活;一定要學(xué)好、才能有效率;一定要有強(qiáng)悍理論基礎(chǔ)、才能入門(mén);一定要努力、才能賺錢(qián);最重要的:一定要?jiǎng)?wù)實(shí)、才有reputation;不懂的話以后慢慢就明白了。
目標(biāo):1-做過(guò)多少個(gè)項(xiàng)目?2-業(yè)務(wù)背景有哪些,是否跨行業(yè)?3-做過(guò)多少種類(lèi)型的模型?做了多少個(gè)模型?4-基于模型做過(guò)多少次完整的marketing閉環(huán)?
7. 數(shù)據(jù)分析方面有哪些好書(shū)值得推薦的?
這個(gè)我在知乎上也發(fā)表過(guò),像《深入淺出數(shù)據(jù)分析》、《R語(yǔ)言實(shí)戰(zhàn)》、《數(shù)據(jù)之美》、《數(shù)據(jù)之魅》、《大數(shù)據(jù)時(shí)代》、《集體智慧編程》、《從0到1》、《失控》等都是比較熱門(mén)且實(shí)用的。
具體的書(shū)單可以參考:
——小白篇——
1.大數(shù)據(jù)時(shí)代
2.浪潮之巔
3.互聯(lián)網(wǎng)創(chuàng)業(yè)密碼
4.從0到1
5.決戰(zhàn)大數(shù)據(jù)
6.塊數(shù)據(jù)
7.大數(shù)據(jù)預(yù)測(cè):告訴你誰(shuí)會(huì)點(diǎn)擊、購(gòu)買(mǎi)、死去或撒謊
8.信號(hào)和噪聲
9.數(shù)據(jù)之巔
10.跨界:開(kāi)啟互聯(lián)網(wǎng)與傳統(tǒng)行業(yè)融合新趨勢(shì)
11.刪除:大數(shù)據(jù)取舍之道
12.互聯(lián)網(wǎng)思維:工作、生活、商業(yè)的大革新
——入門(mén)篇——
1.數(shù)據(jù)化管理:洞悉零售及電子商務(wù)運(yùn)營(yíng)
2.轉(zhuǎn)化:提升網(wǎng)站流量和轉(zhuǎn)化率的技巧
3.社交網(wǎng)站的數(shù)據(jù)挖掘與分析
4.數(shù)據(jù)分析 :企業(yè)的賢內(nèi)助
5.淘寶大數(shù)據(jù)
6.網(wǎng)站數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動(dòng)的網(wǎng)站管理.優(yōu)化和運(yùn)營(yíng)
7.人人都是網(wǎng)站分析師:從分析師的視角理解網(wǎng)站和解讀數(shù)據(jù)
8.大數(shù)據(jù)營(yíng)銷(xiāo):定位客戶(hù)
9.數(shù)據(jù)挖掘與數(shù)據(jù)化運(yùn)營(yíng)實(shí)戰(zhàn) :思路.方法.技巧與應(yīng)用
10.大數(shù)據(jù)分析:決勝互聯(lián)網(wǎng)金融時(shí)代
11.分析的力量
12.網(wǎng)站數(shù)據(jù)挖掘與分析:系統(tǒng)方法與商業(yè)實(shí)踐
——菜鳥(niǎo)篇——
1.誰(shuí)說(shuō)菜鳥(niǎo)不會(huì)數(shù)據(jù)分析(工具篇+入門(mén)篇)
2.EXCEL圖表之道/如何制作專(zhuān)業(yè)有效的商務(wù)圖表
3.決策分析:以Excel為分析工具
4.Word/Excel/PPT
2013商務(wù)辦公從新手到高手
5.實(shí)用數(shù)據(jù)分析
6.深入淺出數(shù)據(jù)分析
7.構(gòu)建高效數(shù)據(jù)分析模板:職場(chǎng)必學(xué)的Excel函數(shù)與動(dòng)態(tài)圖表高級(jí)
8.SAS統(tǒng)計(jì)分析與應(yīng)用從入門(mén)到精通(第2版)
9.IBM
SPSS數(shù)據(jù)分析與挖掘?qū)崙?zhàn)案例精粹
10.從零進(jìn)階!數(shù)據(jù)分析的統(tǒng)計(jì)基礎(chǔ)
11.Excel
2010函數(shù)與公式
12.Excel高效辦公.數(shù)據(jù)處理與分析
——高手篇——
1.集體智慧編程
2.利用Python進(jìn)行數(shù)據(jù)分析
3.數(shù)據(jù)挖掘與R語(yǔ)言
4.R語(yǔ)言與數(shù)據(jù)挖掘最佳實(shí)踐和經(jīng)典案例
5.R的極客理想工具篇
6.數(shù)據(jù)挖掘 :實(shí)用案例分析
7.R與Hadoop大數(shù)據(jù)分析實(shí)戰(zhàn)
8.深入理解大數(shù)據(jù):大數(shù)據(jù)處理與編程實(shí)踐
9.數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)工具與技術(shù)
10.R語(yǔ)言與網(wǎng)站分析
11.Mahout算法解析與案例實(shí)戰(zhàn)
12.算法心得:高效算法的奧秘
——大神篇——
1.大數(shù)據(jù)管理:數(shù)據(jù)集成的技術(shù)、方法與最佳實(shí)踐
2.HADOOP技術(shù)內(nèi)幕系列
3.MYSQL技術(shù)內(nèi)幕
4.Storm
實(shí)時(shí)數(shù)據(jù)處理
5.Spark快速數(shù)據(jù)處理
6.Oracle數(shù)據(jù)庫(kù)性能優(yōu)化的藝術(shù)
7.Oracle達(dá)人修煉秘籍:Oracle 11g數(shù)據(jù)庫(kù)管理與開(kāi)發(fā)指南
8.Hadoop應(yīng)用開(kāi)發(fā)技術(shù)詳解
8. 數(shù)據(jù)科學(xué)家具備哪些特質(zhì)?
如果從廣義的角度講,從事數(shù)據(jù)處理、加工、分析等工作的數(shù)據(jù)科學(xué)家、數(shù)據(jù)架構(gòu)師和數(shù)據(jù)工程師都可以籠統(tǒng)地稱(chēng)為數(shù)據(jù)科學(xué)家;而從狹義的角度講,那些具有數(shù)據(jù)分析能力,精通各類(lèi)算法,直接處理數(shù)據(jù)的人員才可以稱(chēng)為數(shù)據(jù)科學(xué)家。
最后引用 Thomas
H. Davenport(埃森哲戰(zhàn)略變革研究院主任) 和 D.J. Patil(美國(guó)科學(xué)促進(jìn)會(huì)科學(xué)與技術(shù)政策研究員,為美國(guó)國(guó)防部服務(wù))的話來(lái)總結(jié)數(shù)據(jù)科學(xué)家需要具備的能力:
數(shù)據(jù)科學(xué)家傾向于用探索數(shù)據(jù)的方式來(lái)看待周?chē)氖澜纭#ê闷嫘模?/p>
把大量散亂的數(shù)據(jù)變成結(jié)構(gòu)化的可供分析的數(shù)據(jù),還要找出豐富的數(shù)據(jù)源,整合其他可能不完整的數(shù)據(jù)源,并清理成結(jié)果數(shù)據(jù)集。(問(wèn)題分體整理能力)
新的競(jìng)爭(zhēng)環(huán)境中,挑戰(zhàn)不斷地變化,新數(shù)據(jù)不斷地流入,數(shù)據(jù)科學(xué)家需要幫助決策者穿梭于各種分析,從臨時(shí)數(shù)據(jù)分析到持續(xù)的數(shù)據(jù)交互分析。(快速學(xué)習(xí)能力)
數(shù)據(jù)科學(xué)家會(huì)遇到技術(shù)瓶頸,但他們能夠找到新穎的解決方案。(問(wèn)題轉(zhuǎn)化能力)
當(dāng)他們有所發(fā)現(xiàn),便交流他們的發(fā)現(xiàn),建議新的業(yè)務(wù)方向。(業(yè)務(wù)精通)
他們很有創(chuàng)造力的展示視覺(jué)化的信息,也讓找到的模式清晰而有說(shuō)服力。(表現(xiàn)溝通能力)
他們會(huì)把蘊(yùn)含在數(shù)據(jù)中的規(guī)律建議給 Boss,從而影響產(chǎn)品,流程和決策。(決策力)
9. 作為創(chuàng)業(yè)公司怎么去做數(shù)據(jù)分析?
對(duì)于創(chuàng)業(yè)公司來(lái)說(shuō)也想利用數(shù)據(jù)來(lái)解決實(shí)際中的業(yè)務(wù)問(wèn)題,可是又沒(méi)有像BAT那樣的成熟技術(shù),怎么才能做好數(shù)據(jù)分析的工作呢?
首先就是要解決數(shù)據(jù)源的問(wèn)題,一方面自己要積累用戶(hù)的信息,另一方面像app或者網(wǎng)站的log日志都需要有人清洗沉淀。同時(shí)也可以借助第三方數(shù)據(jù)平臺(tái),積攢數(shù)據(jù)的同時(shí)學(xué)習(xí)別人的經(jīng)驗(yàn),根據(jù)自己的需求為用戶(hù)和產(chǎn)品貼標(biāo)簽。
沒(méi)有強(qiáng)大的數(shù)據(jù)庫(kù)可以租用服務(wù)器,建立自己對(duì)應(yīng)的數(shù)據(jù)分析框架。例如日?qǐng)?bào)表月報(bào)表這些都OUT了,應(yīng)該明確適合公司的格式,如果需要這些定制需求的報(bào)表,目前流行的大數(shù)據(jù)的解決方案大部分都是以Hadoop為基礎(chǔ)架構(gòu)。什么是Hadoop?簡(jiǎn)單來(lái)說(shuō)Hadoop是一個(gè)分布式計(jì)算的解決方案,分布式通俗來(lái)說(shuō)就是把一件事分布到幾臺(tái)計(jì)算機(jī)上運(yùn)行。由多臺(tái)計(jì)算機(jī)同時(shí)運(yùn)行和存儲(chǔ)數(shù)據(jù),比一臺(tái)計(jì)算機(jī)運(yùn)行速度快,而且如果數(shù)據(jù)量大了,或者報(bào)表復(fù)雜導(dǎo)致運(yùn)算速度慢,只要再加計(jì)算機(jī)就解決了。
當(dāng)每臺(tái)計(jì)算機(jī)運(yùn)算完畢后,會(huì)把中間結(jié)果集中到一臺(tái)計(jì)算機(jī)上,再把這些中間結(jié)果匯總起來(lái)得出最終結(jié)果。把手頭的數(shù)據(jù)進(jìn)行預(yù)處理,包括將不同數(shù)據(jù)庫(kù)的數(shù)據(jù)導(dǎo)入到一個(gè)數(shù)據(jù)庫(kù)中,數(shù)據(jù)的粗選,分析,分類(lèi),會(huì)用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。先別頭大,如果你不是淘寶京東這樣的巨頭沒(méi)有那么大數(shù)據(jù)量可以不這么麻煩,剔除那些和其他數(shù)據(jù)差別很大的就行。
最后就是搭建自己的一套數(shù)據(jù)運(yùn)營(yíng)管理體系,從管理層到業(yè)務(wù)層都需要關(guān)注的數(shù)據(jù)指標(biāo)、統(tǒng)一口徑、數(shù)據(jù)分析報(bào)表、數(shù)據(jù)結(jié)合應(yīng)用等。
10. 數(shù)據(jù)分析師怎么去培養(yǎng)商業(yè)感覺(jué)?
商業(yè)無(wú)外乎兩點(diǎn),一是業(yè)務(wù)模式,二是用戶(hù)。對(duì)于業(yè)務(wù)模式來(lái)說(shuō),你需要明白其中的整個(gè)流程,包括盈利模式是什么,運(yùn)營(yíng)手段有哪些,有什么風(fēng)險(xiǎn)和防范點(diǎn)。特別是像我們當(dāng)時(shí)做電子商務(wù),從線下到線上的運(yùn)作流程是什么樣子,都需要哪些部門(mén)的協(xié)調(diào)合作,中間可能會(huì)發(fā)生什么問(wèn)題,平時(shí)的廣告投放都是哪些渠道,搜索引擎關(guān)鍵詞的效果和硬廣的投放效果哪個(gè)好,運(yùn)營(yíng)活動(dòng)哪些是做的好、以及為什么做的好的原因是什么。
第二點(diǎn)就是去理解用戶(hù),懂人性。像百度現(xiàn)在做的捆綁營(yíng)銷(xiāo)被很多人吐槽,而微信的清爽界面很受大家的點(diǎn)贊,伴隨著這樣的用戶(hù)體驗(yàn)導(dǎo)致微信的日活可以做到5億多。你要明白用戶(hù)關(guān)注的是什么,他們需要的是什么,而不是給用戶(hù)一堆東西讓他自己去做選擇。不尊重用戶(hù)的后果就是用戶(hù)也離你而去。還有就是像9158、YY視頻這些女主播,做的模式也非常好,就是抓住了屌絲的心理。
常見(jiàn)的數(shù)據(jù)分析問(wèn)題明白之后,會(huì)有效地指導(dǎo)你在后續(xù)的數(shù)據(jù)分析入門(mén)。