《決戰(zhàn)大數據》讀書筆記

在今年5月份《經濟學人》的封面文章中提到,數據已經取代石油成為當今世界最有價值的資源。無論準確與否,的確可以發(fā)現(xiàn)數據的重要性正隨著科技的發(fā)展而不斷凸顯。

移動端熱潮的興起,數據收集的成本不斷下降,這些都是催生大數據的因素。不過就個人看來,如今談論大數據的書籍類著作更多地還是集中描述大數據所帶來的或美好或危險的前景。比如機器學習的算法帶來的預測,人工智能和神經網絡等場景描繪。打個比方,如今談論大數據的人,更像是在描述桌上的大餐,有著哪些色香味俱全的美食,但是很少人會討論原料的問題,比如餐具,比如菜的原料如何處理,如何做菜的技巧。當然也有一部分技術類書籍關注數據分析與應用的問題,但這部分數據常常脫離了具體的商業(yè)環(huán)境和業(yè)務問題,只集中介紹數據分析的具體方法和技術。

《決戰(zhàn)大數據》這本書的價值在于,作者是從實踐中根據自身的經歷來談論,并沒有簡單地跳過關于在數據應用最初階段所遇到的難題,同時也分享了自己在企業(yè)中從事數據分析的經驗和心得。因此對于大數據應用方面有著更切身的體會。這些無論是數據分析的新手還是資深者都會有不少的啟發(fā)。

作者在書中沒有迷信大數據,反而對大數據保持著一種警惕。不時強調數據可能帶來的誤導。這也是當前在談論大數據時少見的一種態(tài)度。不少人認為大數據,只需要相關性,不需要因果,這個觀點值得商榷。大數據的確不是免費的午餐,如果說大數據是浪潮,但并不是每個人都能在這股浪潮中暢游。在書中一開始,作者就連續(xù)提到在大數據應用中的基礎性問題,比如數據的存儲,使用。這些問題看似基礎,但是如果沒能很好地解決,那么大數據的應用也無從談起。更重要的是,作者同時也談到,大數據的噪音問題。

除了數據應用的基礎問題,人也是決定性因素之一。不管是企業(yè)經營者還是數據分析人員,對于數據的收集方式來源,數據的應用,模型的建構,數據的價值。企業(yè)管理者只是模糊地意識到數據的潛力,卻沒有清晰明確的方向,如何讓數據真正為企業(yè)做出貢獻?如何讓數據分析真正落地?

作者在書中前半部分集中談到了大數據所面臨的一些問題,一方面是從數據方面來談,另一方面則是從數據以及所在的企業(yè)來談。在后半部分,作者以阿里巴巴在數據應用的實踐,分別闡述了阿里數據化運營的內外三板斧。

在《數據挖掘與數據化運營實戰(zhàn)》一書里面提到,數據化運營實施的前提包括企業(yè)級海量數據存儲的實現(xiàn)、精細化運營的需求、數據分析和數據挖掘技術的有效應用等,并且還要得到企業(yè)決策層和管理層的支持及推動。

伴隨著大數據熱潮的到來,關于大數據和書畫運營的一些新問題層出不窮。比如大數據會夾雜著虛假信息;大數據的數據量很大,但有用的信息不一定多,甚至還會破壞核心信息;大數據的來源是多種渠道的,偏倚、隨機的誤差總是存在的。當下,“不敢、不知,不會”成為大數據應用的難題。從數據到應用,作者認為人這一因素成為了數據應用的斷層。如今人們對于大數據不敢用,不會用,不知如何用,談論得太多而卷起袖子做大數據的人太少,使得大數據虛火旺盛,大家躍躍欲試,但是一旦真的開始,卻無從下手,一些人開始懷疑數據的價值也不足為奇了。

數據從來不是單獨存在的,或者說,單一的數據并不能發(fā)揮其真正的作用。在書中的第二章,作者就不斷強調場景的重要性。把數據的產生還原到最初的場景,由于目前移動互聯(lián)網的興起,移動端的出現(xiàn)給數據收集乃至數據分析應用都帶來了極大的挑戰(zhàn)。作者認為大數據的本質就是還原用戶的真實需求。這個更多的是從商業(yè)角度來說的。因此作者在提到,思考數據價值的三個維度:

  • 能否清楚地識別用戶的身份
  • 能否搞清楚收集的數據對你的價值
  • 收集數據時的場景是什么?

要真正做到活用數據,前提是敏銳的商業(yè)意識。書中提到儀表盤數據,前端數據和后端行為數據。一方面,對于各種商業(yè)模式的熟悉和了解,另一方面,需要結合不斷的階段。數據指標紛紜復雜,所以除了構建一個整體的框架結構,另外也需要在不同階段都存在各自的重點指標。活的數據才是大數據。——在數據的自循環(huán)中,有兩個核心的關鍵點:一個是“活”做數據收集,另一個是活看數據指標。

作者在書中提到將數據劃分為前端行為數據和后端商業(yè)數據,并談到了數據的5大價值:

  • 識別與串聯(lián)價值
  • 描述價值
  • 時間價值
  • 預測價值
  • 產生數據的價值

在我看來,數據的這5大價值是數據應用的基礎,在數據應用的環(huán)節(jié)無論采用什么樣的框架來決策,都是從這5大價值來展開的。另外,在利用框架進行決策時,作者提到了以下四點:

  • 首先確定有什么問題,從解決問題的角度出發(fā)去收集數據
  • 把收集到的數據整理好,放入一個“數據框架”內(這個框架是用來幫助決策者做決定的)
  • 看框架與做決策的關系
  • 根據決策行動,然后檢查行動是否達到目的

數據框架,我認為這其實就是數據分析的方法論。個人比較傾向于以下這個常見的分析路徑:做假設、定標準、做比較、看趨勢、觀全局、辨真?zhèn)巍⑾陆Y論

1、所謂做假設,就是搞清楚分析的目的是什么。任何一個數據分析一定是有目的的,或者驗證某個判斷,或者找出有效區(qū)分的閾值,或者給出一個效果總結等,不管怎樣,都應該有明確的目的。

2、所謂定標準,就是指在分析中要統(tǒng)一數據口徑,明確對比的有效性和可比性。數據口徑不統(tǒng)一,就沒有分析的基礎。定標準,就是要求數據分析師在分析之前要想清楚,如何才能保證比較的合理性。

3、作比較。世界上的萬事萬物都是相互依存的,任何判斷和結論也都是相對的、可比較的。通常在數據分析商業(yè)實踐中的比較包括:跟目標(KPI)的比較、跟時間的比較(同比、環(huán)比等)、跟不同部門(競爭對手)的比較、跟活動前后的比較、產品使用與否的比較等,不一而足。

4、看趨勢。看趨勢是一個有效的通用總結點,也是一個重要的思考方向。通過以往數據的分布和趨勢圖,可以發(fā)現(xiàn)事物的發(fā)展走向,而這個走向將會是一個很重要的分析結論。

5、觀全局。數據從來就不是孤立的,如果我們只是關注冰山一角,得到的結論往往是錯誤的。所以,觀全局就是要求數據分析師將眼光放遠點,眼界擴大點。

6、辨真?zhèn)巍=y(tǒng)計數據往往會“說謊”,對于從數據中得到的結果不能無條件地接受,而是需要慎重地分析和判斷。

在第6和第7章中,稍微展開了如何從用數據到養(yǎng)數據,但其實論述得并不夠清晰,有不少還是停留在用數據。第7章則是提到數據的盲點。這種盲點一方面是數據自身所存在的,另一方面則是人自身造成的。數據都是關聯(lián)起來才能看出意義,問題在于,我們所需要的指標,最初在建構指標的時候真的合理嗎?這個指標能夠代表我們想要了解的東西嗎,指標的變化意味著什么?另外,數據是死的,人的活的。人往往需要根據各種外在因素來對數據進行判斷,在這過程中,經驗有時候卻會帶來一種所謂的專家陷阱,形成邏輯上的認知盲點。

在第8章一開始,作者就點出了數據化運營實踐過程中的問題:堵、獨、慢、漏。這四點的具體表現(xiàn)如下:

  • 日常報表信息量大,難以捕捉有效信息
  • 信息分散在不同部門,缺少有效整合
  • 業(yè)務異動的處理往往是自上而下來推動
  • 關鍵分析成果取得實效,但未實現(xiàn)沉淀

點出了數據化運營所存在的問題后,作者用案例的形式對比了數據化運營和運營數據,即用數據到養(yǎng)數據之間的差異對比。當然這兩者并非割裂開來,而是形成一個閉環(huán)。可以說,是一個從簡單到復雜,從初級到高級的進化過程。

阿里巴巴數據化運營的內功強調從人出發(fā)。書中提到,只有具備商業(yè)敏感的數據分析師,才會懂得使用什么數據來驅動公司實現(xiàn)經營目標。數據部的人要和業(yè)務部的人經常“混”在一起。

在“混”這一階段修煉完成后,就需要強調“通”。“通”有兩個場景,一方面要注重商業(yè)模式和數據彼此的通,我們可以稱之為“數據中間層”,簡單來說,它就是能夠敏感的反映出商業(yè)變化的數據群。另一種更深入的通,就是存在于公司組織中的數據。要實現(xiàn)數據的打通,建立合理的系統(tǒng)是不二之選。在我看來,“通”不止數據的打通通,還有企業(yè)人員之間的溝通。數據化運營是跨專業(yè)、跨團隊的協(xié)調與合作,在內部的溝通之中,分析師需要深入業(yè)務背景,發(fā)現(xiàn)、傾聽業(yè)務需求,有效判別分析需求價值并提供分析解決方案,跟蹤落地應用效果,最終修正或優(yōu)化方案及模型。

“曬”這一內功,并不僅僅是實現(xiàn)數據的展示,而是能夠實現(xiàn)數據在獲取、使用、分享、協(xié)同、連接、組合之上都變得簡單便捷,能夠產生實際的應用價值。曬數據無非就要做到兩點:發(fā)現(xiàn)當前業(yè)務的問題并提出改進之法;發(fā)現(xiàn)潛藏的機會并創(chuàng)造新價值。如何更好的“曬”數據,或者說充分發(fā)揮曬這一階段的作用/功能,作者在書中討論了一些具體的方法:

混、通、曬是一個連續(xù)的過程,每一個階段都對后一個階段產生影響。在“混、通、曬”三步之后就是“存、管、用”的外三板斧。“存”作為數據收集的開始,不能陷入為收集而收集的錯誤境地,而是要提前清楚收集的目的以及數據的用途,當然這件事往往是說起來容易做起來難,或許能夠提前知道一些基本的用戶和價值,但是卻不可能完全梳理清楚那些潛在的應用。

在完成數據的收集之后,數據的存儲就成為需要關注的問題,尤其是對于所謂的大數據。大數據的管理目前看來并沒有形成比較一致的意見,數據管理和存儲的工具多樣,而影響數據管理的因素也多種多樣。正如作者所言,數據管理,是大數據行業(yè)的臟活、苦活和累活。是最悲催和最難解決的事情。

“用”,個人覺得需要結合業(yè)務環(huán)節(jié)及場景,業(yè)務主體,比如商品/服務,顧客/潛在消費者依據具體的行為場景。借助前面提到的數據框架作為數據應用或數據分析的思路,在描述性的數據分析過程中,采用化整為零的策略;在統(tǒng)計推斷的分析環(huán)節(jié),則根據實際需求來進行建模。

無可否認大數據會成為未來商業(yè)的利器。但是在成為利器之前,大數據仍需要打磨。臟數據無可避免,這也是為什么數據清理在整個數據分析環(huán)節(jié)占據這么多時間的原因之一。另外,數據的標準化、數據的標簽化管理、數據的實時化處理這些實際的問題也會成為大數據落地不得不認真應對的問題。

最后把書中提到的數據十戒摘抄在這里:

  • 好的問題,答案就在里面
  • 在實踐中提煉數據
  • 讓數據變成科技,惠及更多人
  • 讓數據跟著“人”走
  • 木有數據質量,神馬數據都是浮云
  • 以“假定數據是可獲取的”去思考問題
  • 大數據安全,不是監(jiān)管
  • 利用數據拿到更有用的數據
  • 建立數據的數據,才有進步
  • 讓人做擅長做的事,讓機器做機器擅長做的事

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容