數據分析是在當今每個企業都所需要涉及的一門學科,數據分析的書隨便一搜就會有太多教大家如何的去使用。大致能把搜到的書分為兩類:第一類講數據理論統計學相關的,第二類就是數據分析工具應用類型的。而大部分我們所購買的書基本都是某一類工具如何使用去進行數據分析,但是看完過后還是不太懂什么是數據分析,應用到實際工作場景中照樣很迷茫不知道該如何下手,這是什么原因呢?有的小伙伴會說:我想分析的根本沒有數!拿到的這個數也就只能做做折線圖,同比環比兩組數對比一下!業務當中發生了什么數據好像不能看出來!不知道一個函數得出的結果代表什么!還有可能我根本不會用一些工作等等。。。
那為什么很多伙伴都想學數據分析呢?我想原因可能很簡單:就是數據分析相關的崗位工資高啊!現在進入大數據時代不會點數據分析你具備核心競爭力嗎?
本文就以個人愚見來探討一下如何去做數據分析。文章大致分四個層次分別為:需求層、數據層、分析層、輸出層。也是數據分析按重要順序排的大體步驟。
需求層
需求層為什么是最重要的呢?因為需求是數據分析的開始,也是你要分析的目標方向。如果你都不知道你要分析什么,還怎么談如何分析?數據分析需求的來源往往有3種場景:1.監控到現有的指標出現了異常情況需要通過數據分析去找原因;2.公司要對現有的運營模式或者某個產品進行評估確定是否需要進行調整或者優化;3.公司下達了戰略目標或短期目標需要通過分析看如何達成。要確定需求就必須與需求方進行溝通,清楚的確認需求的內容或者自己要分析前必須要清楚你想要的結果是什么方向。舉個簡單的例子:年底將近,雙十一大促銷在即,數據分析師們又到了一年最辛苦,最悲催的時間段。然而,有多少無意義的加班,是因為業務部門不會提需求所導致的。需求提的不合理,業務部門看了不解決問題,就會反反復復的再提需求。導致數據分析師們辛苦加班還不落好,背上一個:“分析沒深度啊!”的壞名聲。其實這不能怪需求方不會提需求,而是你作為數據分析人員要用你的經驗,你的專業技能,你的溝通技巧去引導,去確定,去達成一致。
所有要做到清晰的確定需求,需要自身具備:1、對業務、產品、需求背景有比較深的了解。了解的足夠對你才能去引導去判斷這個需求;2、光了解需求方是還不夠的,你需要從獲得的需求快速的去結合你所掌握的技能組工具有個初步的分析思路;3、綜合判斷后你再決定是否需要分析,應該怎么分析,與需求方溝通確定清楚兩方理解是否一致。如果無法做到就會出現很多無法避免的問題。
理論上數據分析師所從事的工作是給出業務方相應的數據結果,而不是解決方案。雖然也有分析兩個字,但是如何設計解決方案是業務部門的事。運營部門就該做活動方案,產品經理就該出產品方案,銷售部門就該想東西怎么賣。這才是業務部門的本職工作。吵吵著:“你說我不行,你行你上啊”是玩忽職守的扯皮表現。如果連具體的業務方案都讓分析師來想了,分析師也干脆把業務部門的工資領了算了。但是當下專業的數據分析師是需要比業務方更了解業務,你不了解業務下的結論領導或者需求方感信任嗎?所以,一個業務技術雙精通的數據分析師,是可以替業務方搞定上邊所有問題的,不依賴業務方的判斷,因為他自己就是個業務高手,有豐富的實戰經驗與業務能力。但這種人是可遇不可求的。大部分數據分析師還是70%時間處理數據的技術男。
在需求層我總結一下我們所需要了具備的能力:1、對業務、產品、需求背景有足夠的了解,如果不了解說明你在這塊應該先去充充電;2、然后當你無法想到分析方法的時候說明你對現有的數據不夠了解。你同樣該去了解了解數據的來源,數據的流轉,數據的定義。
數據層
目標需求確定過后,現在的你就需要開始準備相關的數據了。數據層大致分為:數據獲取、數據清洗、數據整理。有的伙伴會問,數據應該從哪來呢?數據來源取決于你分析需求,有直接從企業數據庫通過SQL進行取數、有通過各統計網站進行數據下載,有通過爬蟲技術在互聯網進行數據抓取,也有通過企業已經加工好的數據報表,這里主要去講在大數據時代如何去準備數據。因為利用數據庫才能實現大數據下的真正核心分析,你才能配上數據分析師這次名稱。
大數據(Big Data)是指“無法用現有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數據集合。大數據挖掘商業價值的方法主要分為四種1.客戶群體細分,然后為每個群體量定制特別的服務;2.模擬現實環境,發掘新的需求同時提高投資的回報率;3.加強部門聯系,提高整條管理鏈條和產業鏈條的效率;4.降低服務成本,發現隱藏線索進行產品和服務的創新。
為什么大數據能實現這些場景?因為大數據的類型大致可分為三類:1.傳統企業數據(Traditional enterprise data):包括 CRM systems的消費者數據,傳統的ERP數據,庫存數據以及賬目數據等;2.機器和傳感器數據(Machine-generated /sensor data):包括呼叫記錄(Call Detail Records),智能儀表,工業設備傳感器,設備日志(通常是Digital exhaust),交易數據等;3.社交數據(Social data):包括用戶行為記錄,反饋數據等。如Twitter,Facebook這樣的社交媒體平臺等。通過數據庫你能取到已加工好的報表EXCEL所無法做到的多樣性及細節化,你才能通過這些詳細的數據找出數據背后存在的問題。
現在的數據庫主要分為關系類型數據,分布式數據庫。關系類型數據代表產品為mysql(免費開源的),分布式數據庫代表hadoop。兩種都是實用sql語言進行數據提取,在數據分析中你將提取出來與分析相關的數據這步就是數據獲取。這里你需要具備基礎的sql語言能力,要從海量的數據中找到你想要的部分。這個環節你也能對數據進行初步的清理,這里取決于數據庫中的數據存儲是否完整規范。這里有一篇說數據庫數據質量的文章推薦給大家數據質量管理。當你數據清理好也整理好后就可以開始進行數據分析了。
分析層
分析的工具有很多,平民版的分析工具有excel、非專業的專業分析工具有spss、專業資深的分析工作有sas/R/python。我的個人建議是在整個分析過程需要掌握的工具中為sql、excel、python。為什么是這三個,我先來說一下各個工具的特點。sql上文講當它是數據獲取的一個主要語言,而excel可以進行一下快速的數據展示(手動拖動點選快),Python功能強大幾乎可以做你想做的任何事情不止局限于數據分析,學習優勢絕對大于其他分析工具python能做的事情。
好了,那我們就利用Python來進行數據分析,分析的思路都是由”淺到深“。數據分析一般的步驟為:描述分析——鎖定方向——建模分析——模型測試——迭代優化——模型加載——洞察結論。
描述分析是最基本的分析統計方法,在實際工作中也是應用最廣的分析方法。描述統計分為兩大部分:數據描述和指標統計;
數據描述:用來對數據進行基本情況的刻畫,包括:數據總數、時間跨度、時間粒度、空間范圍、空間粒度、數據來源等。如果是建模,那么還要看數據的極值、分布、離散度等內容。
指標統計:用來作報告,分析實際情況的數據指標,可粗略分為四大類:變化、分布、對比、預測;變化:指標隨時間的變動,表現為增幅(同比、環比等);分布:指標在不同層次上的表現,包括地域分布(省、市、區縣、店/網點)、用戶群分布(年齡、性別、職業等)、產品分布(如動感地帶和全球通)等;對比:包括內部對比和外部對比,內部對比包括團隊對比(團隊A與B的單產對比、銷量對比等)、產品線對比(動感地帶和全球通的ARPU、用戶數、收入對比);外部對比主要是與市場環境和競爭者對比;這一部分和分布有重疊的地方,但分布更多用于找出好或壞的地方,而對比更偏重于找到好或壞的原因;預測:根據現有情況,估計下個分析時段的指標值;
洞察結論這一步是數據報告的核心,也是最能看出數據分析師水平的部分。一個年輕的分析師和一個年邁的分析師拿到同樣的圖表,完全有可能解讀出不同的內容。
舉個例子:
例子來源Data Science with R&Python
年輕的分析師:2013年1月銷售額同比上升60%,迎來開門紅。2月銷售額有所下降,3月大幅回升,4月持續增長。
年邁的分析師:2013年1月、2月銷售額去除春節因素后,1月實際同比上升20%,2月實際同比上升14%,3月、4月銷售額持續增長。
看到兩者的區別了嗎?2013年春節在2月,2012年則在1月,因此需要各去除一周的銷售額,再進行比較。如果不考慮這一因素,那么后續得出的所有結論都是錯的。挖掘數字變化背后的真正影響因素,才是洞察的目標。
輸出層
都到這一步了,相信各位對數據報告也不再陌生了。這一步中,需要保證的是數據報告內容的完整性。一個完整的數據報告,應至少包含以下六塊內容:報告背景、報告目的、數據來源、數量等基本情況、分頁圖表內容及本頁結論、各部分小結及最終總結、下一步策略或對趨勢的預測;
其中,背景和目的決定了你的報告邏輯(解決什么問題);數據基本情況告訴對方你用了什么樣的數據,可信度如何;分頁內容需要按照一定的邏輯來構建,目標仍然是解決報告目的中的問題;小結及總結必不可少;下一步策略或對趨勢的預測能為你的報告加分。
這大致就是整個數據分析所涉及的四個大步驟,后面就靠大家自己努力學習和思考了。最后說一下一直激勵我前進的話:科技改變命運,科技掌握自己手中,自己由心出發。