讀書筆記
《數據分析實戰》
1. 什么是數據科學家
書中通過“什么是數據”和“數據在商業中的應用”,推導出數據科學家的定義。
人們通過觀測數據來推測出某種因果關系,再用這種因果關系來預測未來或者控制原因以達到預期的結果。把從事這種工作的人成為數據科學家。
-- 書中摘錄
上面的定義覺得不是很清晰,就百度上找了找:
數據科學家是指能采用科學方法、運用數據挖掘工具對復雜多量的數字、符號、文字、網址、音頻或視頻等信息進行數字化重現與認識,并能尋找新的數據洞察的工程師或專家(不同于統計學家或分析師)。一個優秀的數據科學家需要具備的素質有:懂數據采集、懂數學算法、懂數學軟件、懂數據分析、懂預測分析、懂市場應用、懂決策分析等。
-- 百度百科
我覺得數據科學家就是對于數據相關的所有門類都有一個整體的認識,感覺是個“雜家”,精通算法、什么深度學習、機器學習、AI之類的都是信手拈來,對我就是神一樣的存在了,努力吧,同學。
2. 3中類型的數據科學家
書中將數據科學家分成了3類,主要從所在領域分類:
- 商業領域出身
- 統計學出身
- 工程領域出身
這應該也是數據科學家成長的3條路線,從不同的路線出發,最終殊途同歸。當然,這3個領域需要綜合,才稱得上是合格的數據科學家。
書中的技能配圖,可以瞻仰下
3. 數據分析的5個流程
書中,將數據分析分為5個步驟,看完后,感覺很靠譜,真的很實用,這里分享下
商業數據分析的目的是解決問題,要解決問題,需要使用統計分析、機器學習、數據挖掘等各種方法。
3.1 現狀和預期
首先我們要確認“什么才是數據分析中的問題”。
比如,“某種商品銷售額下降”,這是一個現象,但它是不是一個問題呢?
如果,該產品不是公司主打商品,并且就要下架了,那銷售額下降并不是一個問題,或者,該商品處于正常的波動,或是季節、市場環境的外部因素導致的,可能都不是一個問題;
相反,如果該商品是公司主打商品,并且沒有其他外部因素導致,那銷售額下降就是個問題了。
這里記錄下,其實,還需要確認下,銷售額取數邏輯是否有問題,確保數據沒有問題,并且要知道這個下降是怎么定義的,是和什么商品,或時間段對比發現下降的。
有對比,才會有差距,既然下降了,說明他心里一定有個預期,即現狀和預期之間是有差距的
3.2 發現問題
有了上面的“現狀和預期”,我們需要區別”現象和問題“。
像“銷售額下降”,“顧客流失”,這都是一個現象,我們需要從中去發現問題
現象 | 前提 | 預期 | 是否有問題 |
---|---|---|---|
銷售額下降 | 銷售額比例低 | 維持現狀 | 無 |
銷售額下降 | 銷售額比例高 | 將銷售額恢復到良好狀態 | 有 |
銷售額上升 | 廣告費用高 | 降低廣告費用 | 有 |
銷售額上升 | 廣告費用適當 | 維持現狀 | 無 |
從3個角度發現問題
發現問題的關鍵是思考并理解現狀和預期之間的差距。
那怎樣發現、理解這個差距呢?
觀察數據大小
首先考慮有哪些因素會導致這些差距,并明確這些因素的影響程度大小,即找到影響最大的因素。
將數據分解后觀察
指從多個角度觀察發生的現象,分解出構成這種現象的因素。在分解的時候,必須遵循MECE原則:
- Mutually 相互性
- Exclusive 排重性
- Collectively 完整性
- Exhaustive 全面性
我感覺這個很抽象,不是很理解,書上有一個例子,說的還不錯,
常用的拆分方法是因數分解,比如:
銷售額=人均銷售額*購買人數
拆解后,找到容易調控的因子,才方面后面去解決問題
將數據比較后觀察
指的是將發生問題是的數據和沒發生問題時的數據相互比較,并找出問題出現的原因。
比如,按時間對比,看看同比、環比(使用時間序列)
- 昨天和今天比較
- 上周和本周比較
- 同一個商業活動前、后比較
- 與競爭對手數據比較
- 公司內部服務之間利益比較
- 年齡段差異
- 性別差異
- 地域差異
3.3 數據收集和整理
通過前面,對現狀和預期的對比,發現影響最大的因素后,我們就需要開始收集數據,來驗證問題。
數據收集的話,還會涉及到怎樣去采集數據,比如想要的數據,并沒有保存下來。
已保存下來的數據,通常會保存在文件、數據庫或者是Hadoop(HDFS)中
收集完數據,我們就需要對數據進行加工,變成我們后面分析需要的格式,比如使用SQL進行處理,或者Python、R進行整合;我們再加工數據的同時,為了方便我們后面的分析,可能還需要增加一下自定義的變量,比如一些標志位,像“已消費(1),未消費(0)”;或者是一些離散變量,類似于區間段:
- 消費金額較大用戶(1)
- 消費金額一般用戶(2)
- 消費金額較小用戶(3)
3.4 數據分析
書中把數據分析按目的,分為兩大類:“決策支持和自動化、最優化”。
其中,“決策支持”使用簡單求和、交叉列表的方式分析,還會涉及預測模型;
“自動化、最優化”則涉及機器學習、構建算法。
3.5 解決對策
通過上面兩種分析思路,我們需要針對分析的結果,來判斷是否要采取對應的決策,不同的對策, 又會產生不同的溝通成本。