-
個人數據管理標簽格式
個人數據管理標簽格式
以前,我們都是有問題找數據,而大數據時代,其最核心的特質則是“用數據找機會”。
在阿里巴巴,我學習到一個很重要的經驗——人和事是分不開的。企業要想成為一家數據化的公司,文化的培養必不可少。“混、通、曬”及“存、管、用” 兩套內功是讓企業的血液(數據)流動起來的關鍵。
以“假定數據是可獲取的”去思考問題。
目前,在大數據方面,無法深入應用的原因在于,從收集到使用的大數據價值鏈出現了問題。
用數據的人不知道大數據從哪里來,做數據的人不知道大數據如何使用。用的人不敢用,因為大數據的真實性;做的人不知道怎么用,因為大數據的復雜性。
我們也需要客觀地認識到,大數據現在面臨的這些問題,其實就是把小數據中的一些問題放大了。
斷層才是大數據所面臨的最嚴重的問題。現在,收集數據的人并不清楚未來使用數據的人要做什么,這是目前大數據的一大關鍵命門。
創建模型的人也不知道自己所采用的數據在未來是否穩定,而使用模型的人也不知道整個數據的來路或加工過程。
創建模型的人可能不知道此種模型效果好不好,而使用模型的人也不知道該怎么去反饋使用的結果。這樣一來,這種信息不對稱會越來越嚴重。
中層管理者大都不知道數據能幫助他們做什么,他們沒有管理者的視野,相比之下,你只需要告訴他們數據能解決什么問題即可。相反,數據分析師可能就會更加困惑不解:“我做了這么多東西,為什么你們不用?”
當我們講到數據價值時,沒有人能對此給出一個合理的定位,原因就在于有幾個關鍵問題沒有區分清楚。一是要明確這是誰心里的數據價值,投資人、管理者、中層、數據分析師們心中對數據的價值自然不同;二是要明確數據的分類,不同類型的數據所產生的價值各不相同。
數據本身的問題——大數據需要更主動的管理,也需要更多的創新。
現在你所在的公司,面對的3大問題是什么?公司未來3個月中,要解決的問題是什么?在過去的1個月中,你做對了什么,做錯了什么? 我現在給你5分鐘時間,如果你說不出來公司目前面臨的3大問題,而你作為商業智能部的負責人,就基本上不該繼續坐在這個位置上了。
在知道自己的思考有盲點的情況下,即便問題問得不好也并不丟人。但如果自視很高,什么問題都不問,盲點注定會相伴一生。我曾經見識過一位頂級CEO,其厲害之處就是,凡事都說:“我不懂,麻煩你再解釋一下。”
最重要的是思考,盡管你懂,但如果在問問題、看問題的角度上沒有拓寬視野的話,想解決問題依然很難。就好像詠春拳里的“問手”,它并不能用于過招,而是尋找答案的一種方式。你一碰,它就有答案。你不動,它不動,而且它會避開,你只能尋找破綻再出擊。“問題”是用數據來拿數據,而“問手”就是用一個問題引出另一個問題。
在大數據的商業環境里,要既懂數據,又懂商業,還要擁有一套好的思維方法,而數據化思考正是這樣一個嶄新的事物。
答案不重要,思考的角度才重要。可見,要習得一套巧妙的數據化思考方式,三分靠想法,七分靠實踐。所以,切勿空談。
在思考數據的價值時,我認為,可以從三個維度來考慮。 首先,你能否清楚地識別(Identify)用戶的身份?其次,你能否搞清楚收集的數據對你的價值(Value)是什么?最后,收集數據時的場景(Situation)是什么?
是否知道用戶是誰,決定了企業數據收集行為的意義大小。
數據收集的價值包含兩個維度。一方面,你是否能衡量這個數據對企業產生的價值——你不會將用戶的所有行為都記錄下來,而是記錄那些對企業自身有幫助的數據,即企業價值;另一方面,你是否能衡量這個數據對顧客的價值——這個數據如何幫助企業為客戶提供更好的服務,即客戶價值。
當我們談大數據價值的時候,第一點要注意的就是角色不一樣,對于數據價值的看法也就不同,所以在衡量價值時要考慮到受眾和給予者這兩個對立面的不同看法。
場景與還原并行——前端還原消費者場景,后端還原業務需求。
數據的本質就是還原,這是收集元數據的關鍵方法。
我曾經在一次電商大會的圓桌論壇上提出了一個觀點,當時與會者都很認同,就是我建議把一些以前用來觀察用戶忠誠度的框架,比如RFM模型[2]來做收集數據的瞄準器。有什么數據能讓我更好地看到R,更好地看到F,更好地看到M?RFM是一個收集維度,個人PC、手機、平板電腦是另一個終端場景維度,PC能更好地收集R,手機能更好地收集M,這樣就可以通過場景的不斷變換來收集更多的數據。
現在做數據分析報告,最后的一個問題變成了:“無線變了,這個報告的結果還是一樣嗎?你的報告應不應該也變一下?”
數據的本質就是還原,這是收集元數據的關鍵方法。如果沒有這個概念,你就不知道未來你需要什么數據,就更不懂得什么是重要的數據,到最后只會產生越來越多的無從辨別的數據。一旦數據多到了連你的公司都沒有辦法處理的時候,那么其他會處理的人、公司和國家就會把你毫不留情地擠出市場。
如何更好地識別各個設備的使用者是否為同一個人,如何更好地理解用戶在各個不同場景下表現出來的不同需求,如何更好地理解數據融合后產生的價值,將是未來商業中每一個企業都必須考慮的問題。
作為數據分析師的你首先要想的是CEO會關注什么數據,是長期的,還是短期的?是風險最大的,還是風險一般的?或者是最近發生了什么事情?以及給CEO提供的數據要有什么注意事項,等等。
,在沒有解決一個問題的內涵之前,任意給出的一個指標,必錯無疑。
作為一名數據分析師如果你不把自己的分析與當下結合,是沒法進步的。
答案不是結果,方法才是。
“死”數據就是單純存儲在數據庫中,無法進行分析和使用,并且不能夠產生價值的數據。
大數據的真正價值是將數據用于形成主動收集數據的良性循環中,以帶動更多的數據進入這個自循環中,并應用于各個行業。
多樣的自循環方式打開了大數據之門,而進入這個循環的關鍵就是,從解決問題出發。
在數據的自循環中,有兩個核心的關鍵點:一個是“活”做數據收集,另一個是“活”看數據指標。所謂“活”做數據收集,就是指企業不要局限于只收集自己用戶產生的數據,還要把“別人”的數據收集過來進行綜合分析;“活”看數據指標,就是指企業不要局限于已有的數據框架,而應該結合用戶需求的不同場景來靈活應用收集到的“活”數據。
每個人都知道在收集消費者數據時最好是觀察直接用戶,但如果沒有這個數據,你觀察什么數據?答案就是,去觀察行業內對這個數據最敏感的那些人。
媒體常用的“克強指數”是“活”做數據收集非常好的案例,通過耗電量、鐵路運貨量和銀行貸款發放量三大數據的結合來觀察經濟的發展,有助于剔除GDP統計數據中存在的水分。
同樣的人在搜索商品時可能會表現出不一樣的行為特點,而這些不一樣的行為就是我所說的場景,結合場景應用數據就是“活”用數據。
在梳理阿里巴巴的數據時,我們驚訝于為什么阿里巴巴會有18個性別標簽。乍一聽,很不可思議。
哪一個能更多地證明你是“本我”,而哪一個能更多地證明你是“被別人影響的我”?
但是,如果用戶在做一個比較重要的購買決定時,真實性別、真實職業以及一些描述個人的靜態數據對于企業來說就更具有參考性了。對消費者來說,購物就是決策,凡是決策,都是要對比、細分、溯源、看趨勢。所謂的沖動消費是“什么都不管了”,直接拍下,那就要分析購物當天的場景了,或許那天是“雙十一”?
如果企業不把數據活用起來,只是死盯一個數據的話,企業的運營必定不會理想。
“活”用數據,就是你是否能看出這個數據本身的局限是什么。一方面,是我們的數據為用戶體驗改善了什么;另一方面,企業在使用數據時,對活數據的運用解決了什么問題或者開創了什么機會。
我常常會說,今日的數據分析師,需要有點軍師的味道——從枯燥的數據中看到解開市場發展密碼的本事。簡單來說,就是具有商業意識的數據分析師,如果監測到網站上擁有6歲之下孩子的用戶群在增加,那么他基本可以預測出奶粉的銷量也可能呈現上升趨勢。
同理,只有具備了商業敏感度的數據分析師,才會懂得用什么數據來驅動公司實現經營目標,而絕不會單憑交易量就決定商品策略。
換個場景看,一家剛踏入市場的B2C和已經占領大部分市場的B2C,它們的關注點會一樣嗎?當然不可能,因為前者看的是流量,賺的是人氣;但流量對于后者的意義就沒有那么大了,因為它們更關注交易率、轉化率和回頭率。
我把數據信息的梳理過程,理解為數據世界里的“儀表盤”。比如,在開車時,如果水溫過高,儀表盤就會亮燈提示;同樣,網站的關鍵信息也可以監控,在電子商務交易中,行為數據和商業模式之間的邏輯關系組成了“儀表盤”——好的儀表盤,對于商業活動中的好現象和壞現象都會有敏銳的反應。
為了方便理解,我想出了兩個名詞:前端行為數據和后端商業數據。前者指的是訪問量、瀏覽量、點擊率及站內搜索等,是反映用戶行為的數 據;而后者更側重于商業數據,比如交易量、投資回報率、客戶終生價值[LTV(Life Time Value)]。
遺憾的是,今天許多電子商務公司,每天都在做“碰巧”游戲:今天推薦A家的產品,明天撤下A家的產品;今天做低價促銷,明天又做線下活動。這些決策的改變,沒有“儀表盤”的指示或良好的監控,都是閉著眼睛在“碰巧”。
我們簡單講解一下無線數據收集的原理。無線基本上分為兩種形式,一種是WAP,另一種是APP。對于WAP來說,整體的工作原理和PC差不多。
APP數據收集的方式包括兩種:一是收集用戶聯網時請求服務器的記錄;二是在將用戶的行為數據記錄下來之后,適時地傳給網站。但不論是什么樣的收集方式,無線數據最終的表現是在沒有賬戶體系的情況下,和PC的用戶行為完全沒有辦法進行關聯,這也就意味著用戶的數據出現了斷層。
面對無線數據,要解決的主要問題有兩個:一是做到高效準確的收集;二是培養數據分析師的多屏思維。
所謂做到高效準確的收集,就是需要建立一套面向多操作系統、多版本、自動、可靈活配置的用戶行為獲取系統。通過這個系統,開發工程師不再需要采用人工寫代碼的方式來收集數據,從而也就保證了數據的純凈無噪音。但是,這套系統還需要應對一個問題,那就是可能出現的因操作系統的變化而使用戶識別失效的情形。因此,企業需要能夠建立自己的用戶識別方式,能夠建立獨立于設備號之外的識別代碼。同時,這套系統還需要做到多系統的適配,要保證同一個版本在安卓和iOS上面的數據具有一致性。
在無線出現之后,很多數據倉庫工程師則將無線也作為一個并列于用戶屬性或者瀏覽行為的主體進行保存。 其實,這種做法的誤區是沒有真正理解無線的含義,無線應當是作為一種橫向的基礎模型穿插于各個垂直的主題模型之中的,如果將無線作為一個獨立的模型,在進行用戶行為還原和用戶分析的時候則會變得很困難。
從數據化運營角度來看,云是計算,端是應用。“云+端”的模式使數據科技的價值得到了極大的發揮, 就像“INTEL inside”一樣。從運營數據的角度來看,端是傳感器,云是“儲存+管理”,而“多屏+移動端口”就是未來數據創新的孵化器。
當我們分析一份數據的時候,一定要問自己:“樣本的背后有什么是我們不知道的。”
樣本數量是否足夠和是否平衡的問題,是另一個常見的“偏見”。
另外一個影響樣本的因素是時間。
偏見還會因為我們抽樣時的詢問方式出現。
值得注意的是,樣本跟大數據不同。大數據相信全量數據,而非樣本;是分析得出,而不是抽樣獲得。
在調研過程中,如果這個樣本在你調研前就是有目的的,那么這份有偏見的數據也是有價值的,比如可以通過交叉信息來驗證結果是否準確。這
如今,數據在企業中已經充當了一種生產原材料的角色,而既然是原材料就要被估值。 從數據角度來說,估值就是通過不同的維度去思考數據的價值。
對于數據的認知,完全取決于我們是否擁有認知自己所擁有數據的能力,是否能夠篩選出到底什么是我的核心數據,到底什么數據會被我們頻繁地使用。
“數據”本來就是一個既清晰又模糊的概念。之所以說“清晰”,是因為每個人對數據都有概念,而且每個人每天都會接觸到各種各樣的數據;而說“模糊”,則是指數據本身包含了各種不同的類型,能夠產生完全不一樣的價值。
一個好的工匠必然對各種材料的性質及使用方法了如指掌,而一個好的數據從業者則必須要對各個數據的價值和穩定性洞若觀火。
今天,我們多數人把自己關注的焦點放在結果上,忽略了過程,而事實上這些過程其實也蘊含了數據管理的過程和數據分類的過程。有些關鍵數據必須做好保護,若這幾個數據變了,或者被污染了,前面的價值也就無法保證了。
今天,我們多數人把自己關注的焦點放在結果上,忽略了過程,而事實上這些過程其實也蘊含了數據管理的過程和數據分類的過程。有些關鍵數據必須做好保護,若這幾個數據變了,或者被污染了,前面的價值也就無法保證了。有人肯定會問,管理數據是一個過程,能不能分解?能不能區分哪些元素是比較重要的?哪些是有代替品的?哪些是無可取代的?哪些是不可或缺的核心?其實,這些問題就包含數據戰略。
按照是否可以再生的標準來看,可以分為不可再生數據和可再生數據。
對于用戶日志類等不可再生數據而言,必須要有很完善的保護措施和嚴格的權限設置。現在,很多系統都有備份多份數據的功能,理想情況應該是,因為磁盤損壞而造成數據丟失的案例應該越來越少。但是,因為系統升級失敗和誤操作等失誤造成的數據丟失在各家公司都屢見不鮮,見怪不怪了。
對不可再生的數據而言,已有的數據要嚴格保護,想要但是還沒有的數據就要及早收集。
對于可再生數據而言,要及早做好業務的預判和數據處理的規劃,這樣一來,數據在需要的時候就能夠快速地獲得應用,我們把這一數據叫作數據中間層。
按照數據所處的存儲層次來看,可以分為基礎層、中間層和應用層。
基礎層通常與原始數據基本一致,也就是僅僅存儲最基本的數據,不做匯總,以盡量避免失真,從而用作其他數據研究的基礎;中間層是基于基礎層加工的數據,通常也被認為是數據倉庫層,這些數據會根據不同的業務需求,按照不同的主體來進行存放;應用層則是針對具體數據問題的應用,比如作為解決具體問題的數據分析和數據挖掘的應用層的數據。
在存儲層這個層面上,最大的問題就是數據的冗余和管理的混亂。
我給出的建議是,基礎層必須統一,因為這是最基本的數據,而且基本數據是原始數據。除了備份的需求外沒有必要在各個場合保留多份數據。只要保證這個數據有良好的元數據管理方式,就能極大地降低成本。而對于中間層和應用層而言,則要視具體情況而定:如果公司的業務相對單一且成本壓力比較大,則建議集中式管理;如果公司的業務量非常大,則可以由多個數據團隊來進行分散式管理和應用,以保證基礎層單位有最高的靈活性。
照數據業務歸屬來看,可以分為各個數據主體。按照業務歸屬分類的意思就是,將數據按照不同的業務主體分門別類地進行歸納。就好像倉庫一樣,將不同的物料進行分類存放,可以提高其使用和管理的效率。
對于數據的分類主體,則要根據業務特點進行歸類,并沒有一個特別的硬性規定。總體的原則就是讓數據的存儲空間更少,分析及挖掘的過程更簡單、快捷。
照是否為隱私來區分,可以分為隱私數據和非隱私數據。
數據從安全的角度可以進行兩種類型、四個層次的數據分層。兩種類型就是企業級別和用戶級別。企業級別的數據,包括交易額、利潤、某大型活動的成交額等;個人級別的數據就像是剛才提到的身份證號碼、密碼、用戶名、手機號等。四個層次是對數據進行分類,分別有公開數據、內部數據、 保密數據、 機密數據。
而數據安全工作的推動,初期往往會受到一線員工的反對,因為任何一個安全系統都意味著已有的權限被收回,也會因為改變工作方法而降低效率。所以,擁有大數據的企業高管必須要關注數據安全,否則數據越大,對“惡人”的吸引力就越大,最終用戶和公司的損失也就越大。
能夠辨別關系、身份的數據是最重要的。這些數據應該是有多少存多少,永遠不要放棄。在大數據時代,越能夠還原用戶真實身份和真實行為的數據,就越能夠讓企業在大數據競爭中保持戰略優勢。
數據價值1:識別與串聯價值
在一般的場景下,有多個賬號可能不會是什么特別的問題,但是一旦涉及反欺詐等需要識別到“人”的場景時,則必須要將之識別出來。
我認為有些人把自己的生日放在SNS(社交網絡)上,是非常不妥的做法。
數據價值2:描述價值
在通常情況下,描述數據是以一種標簽的形式存在的,它們是通過初步加工的一些數據,這也是數據從業者在日常生活中做的最為基礎的工作
對于企業來說,數據的描述價值與業務目標的實現并不呈正比關系,也就是說,描述數據不是越多越好,而是應該收集和業務緊密相關的數據。
用來描述數據最好的一種方式就是分析數據的框架,在復雜的數據中抽象出核心的點,讓使用者能夠在極短的時間里看到經營狀況,同樣,又能夠讓使用者看到更多他想看的細節數據。分析數據的框架是對一個數據分析師的基本要求——基于對數據的理解,對數據進行分類和有邏輯的展示。通常,一般優秀的數據分析師都具備非常好的數據框架分析能力。
數據價值3:時間價值
時間價值除了體現歷史的數據之外,還有一個價值是“即時”——互聯網廣告領域的實時競價(RTB,Real Time Bidding),它是基于即時的一種運用。
數據價值4:預測價值
凡是能夠產生數據,能夠用于推薦的,就都會產生預測價值。比如,推薦系統推薦了一款T恤,它有多大的可能性被點擊,這就是預測價值。預測價值本身沒有什么價值,它只是在估計這個商品是有價值的,所以預測數據可以讓你對未來可能出現的情況做好準備
預測價值的第二部分就是數據對于經營狀況的預測,即對公司的整體經營進行預測,并能夠用預測的結論指導公司的經營策略。
作為無線團隊的負責人,到底怎么判斷現在的經營狀況和目標之間存在著多大的差距呢?這就需要對數據進行預測。通過預測,將活躍用戶分成新增和留存兩個指標,進而分析對目標的貢獻度分別是多少,并分別對兩個指標制定出相應的產品策略,然后分解目標,進行日常監控。這種類型的數據能夠對公司整體的經營策略產生非常大的影響。
店鋪評分系統(DSR),
現實中,把自己放在一個很低的位置去提問,這是很聰明的做法,但這對于很多人來說其實很難做到,特別是在擁有一定的地位、一定的能力后,他們更不愿意去承認“我不知道”。但你要知道,只有你知道“我不知道”,才能理所當然地說:“對不起,我不懂,你能再重復一遍嗎?”
當我們看得長遠以后,許多東西就公平了許多。同樣的道理,在人生里,有大愛。學會幫助別人,你會發現,整個世界的時間仿佛都被拉長了,很多東西都變得公平了,而選擇就變得容易了。
過去收集數據很難,而現在獲取數據資源變得越來越容易,但是如果收集數據的出發點不是為了解決問題,那么收集再多的數據也沒有什么意義。 同時,許多企業還有一個疑問:“現在收集數據不難,成本也不高,為什么不先收集了數據再說呢?等以后需要數據來解決問題時,再拿出來用不是也可以嗎?”這位高人同樣也給出了這個問題的答案,他對此持否定觀點,并指出用這樣的理念來設計數據應用注定會失敗。
在收集數據時,我們必須知道這些數據未來可以用來做什么,如果今天都想象不出來的話,日后就更不可能了。
重復購買率
數據應用因小而美 “小”不是指數據量,而是指應用的目標很具體。
許多人在沒有獲取足夠的數據,并且缺乏對數據理解的情況下做出決策,其實是在“享受”自己的無知。打個比方來說,對于一款數據應用,如果我的目的是分辨兩種決策誰更好以及差異在哪里,這就是一個很具體的問題;但如果我的目標是想知道如何讓公司贏利,這就是一個空泛的目標。
當開發數據應用的時候,數據就等于原材料;當原材料一直處于變化的情況下,做出來的產品就很容易出問題。體會到數據和應用的關系之后,我最后決定從小角度切入,先把小應用做出來,這就是很好的瞄準器。
把數據放進“框”之中 在大數據的背景下,必須考慮數據之間的關聯性。一個單獨的數據是沒有意義的,要把數據放在一個“數據框架”(場景)之中,才能看出存在的問題。
做數據框架的時候,要特別注意框架不是靜態的,而是存在博弈的,需要把競爭對手的因素考慮進來。
用數據”更多的是一種方法論,而“養數據”則是一種數據戰略,是基于深入業務理解的更高層次的商業決策。 “養數據”還有一個重要的含義,就是要決定收集哪些數據。
被動收集數據的行為是“收集”,而主動收集數據的行為則是“養數據”。
養數據通常有兩類,一類是網站自身沒有的數據,需要用戶主動提供的;另一類是公司擁有的,但沒有進行收集的數據。
“用數據”更多的是一種方法論,而“養數據”則是一種數據戰略,是基于深入業務理解的更高層次的商業決策,,數據養的時間越早,積累的數據也就越多。養數據同樣也是一種管理和商業藝術,在養之前可能誰也不確定最終會出現什么后果,但一旦養成,則會產生非常大的商業價值。
如果你要做一名數據分析師,你腦海里就要長期裝著這樣一個想法:“這個數據是怎么來的?”你要打破局限,不要把自己封閉在狹隘的思想中。在未來商業中,誰被逼到“或”式選擇境地,往往誰吃虧。
品覺的書主要講的是決戰!那么咱們就從兵法的角度來看大數據!只講三點: 第一,對“道”的理解:就是分析師對人和事物基本規律的詮釋。分析問題千萬不要從分析大數據開始,而是要從對人、世界、產品或者商業行為最基本的認知著手! 第二,對“計”的理解:計就是計謀!交戰之前用“商業智能”的一個重要作用就是要造成信息情報不對等,然后進一步造成了戰略優勢的不對稱,從而造就取得優勝的“勢態”。 第三,對“勝”的理解:決戰的目的是要勝利,兵法上取勝的一些基本的要領比如以快打慢、以少勝多、以眾擊寡,在大數據分析上完全適用,要做到分析得快速而精準、大規模部署以及產品化等。
在數據中,盲點可以分為兩類:一類是物理盲點,另一類是邏輯盲點。
所謂的物理盲點,就是指在數據庫中不存在這樣的數據,即企業沒有收集到應該收集的數據,這一類數據問題的產生通常是數據收集策略出了問題。
邏輯盲點就是有數據但是沒有被很好地發掘出來。數據邏輯盲點的出現很多時候與數據分析師或者數據使用者的經驗和敏感度都有關系。在分析數據時,相關從業者需要對數據抱有敬畏之心,不可輕易放過任何一個可能產生問題的點。
在邏輯盲點中,最大的盲點是將PC數據和無線終端數據混著看。
數據除了物理和邏輯盲點,甚至還有一些是人為制造的“盲點”。人為制造的盲點就是故意把數據進行掩蓋,或者人為地調整數據的口徑。
面對數據的盲點,正能量思考告訴你怎么做可以到達成功的終點,負能量思考則告訴你怎么做才不會失敗。
高風險能讓一個人對不可預見性非常敏感,那時候的負能量思考和避免風險的能力就自然而然地出現了。
如果我們平時也懂得用這樣的“思維”思考,我們就會避免很多錯誤。如果這時我們再站在“壞人”的角度去做負能量思考,覺得別人出錯就是你的機會,很多人出錯就是你的大機會,這甚至會產生一條很有價值的產業鏈。
無意識地培養負能量思考,就叫亂想。如果你為了一個目的去規范訓練的話,你就會成為一個很厲害的“小偷”;對于日常生活來說,叫作很厲害的“觀察者”;而對于數據世界來說,你就是一個很厲害的“數據分析師”。
我們觀察數據的時候容易只將焦點放在正面數據上,而忽略掉負面數據。
以我的日常工作為例,在團隊給高管們做報告的時候,我通常不看報告,而是主要記錄高管們“什么時間點頭”、“什么時間針對性地做了筆記”和“什么時間沒怎么聽在看手機”。你不要小看這三個數據,當與當時報告的內容對應(關聯)起來時,我就能容易地知道在剛才做的報告中哪一部分是不吸引人的和哪一部分是需要改進的。尤其是高管看手機的時間,完全可以算是理論上的“負能量”數據,但對報告的改進其實非常有價值。
錯誤的經驗會讓你不斷地犯錯誤。
經驗會成為盲點,還有一個重要的原因是你沒有注意到環境變化的趨勢。
在海量的大數據面前,我們面對的最大盲點就是,衡量應該收集多少數據才算足夠,即存;如何管理從未見過的如此多和廣的數據,即管;如何使用它們實現更大的價值,即用。
如果要觀察出一個人時態的差異,就必須了解這個人的常態。常態是什么呢?常態分為以下6種:弱、狂、嘩、周旋、慵懶、媚。所謂弱態,是指言語輕細、動作溫柔、包容性強,像小鳥依人一般。所謂狂態,則是指不修邊幅、倔強好勝、言談舉止旁若無人。我們可以對比自己身邊的朋友,就可以輕易判斷出他的常態。一個屬于狂態的人在被問及意見時,通常愿意主動地表達觀點,并堅信自己是對的。一個屬于弱態的人則不會表露太多意見,會給出模棱兩可的意見。嘩態的人,通常遇到事情會大手一揮:“你們都別說,讓我來說。”周旋態的人被問及選擇時,說到A會說A很好,說到B會說B其實也不錯。慵懶態則比較漫不經心,什么都不是很在乎。媚態則意指諂媚。
從數據化運營到運營數據是不斷運行的循環。在這樣的循環中,會容納許多新的、不同維度的數據,這些數據經過在整個循環中的適應過程,然后再運用到數據化運營中,并且改變原有的運營方式,這個過程就是我認為的大數據落地的方法。
我們做數據化運營,其前提是假定數據是穩定的;而運營數據,則是假定數據都是可以獲取的,而且是不穩定的
假定數據是穩定的,也意味著我們習慣于不去尋找一些新數據。
從企業的角度來講,數據化運營一般是自上而下的——管理者強調KPI指標,員工們按照目標進行分解。所以,數據化運營是計劃性的,但凡計劃性的一定都是穩定且結構化的。 運營數據卻是自下而上的,經過了無數的錯誤和無數的實驗,慢慢地向上追溯。就像阿里巴巴有18個性別這件事情,這18個性別不是管理層憑空想象出來的,而是將眾人發現的性別經過交叉比對,分析到底在什么場景下更適合。可見,這樣的結果是試出來的。
從假定數據可以獲取的角度來思考問題,是數據化運營里很重要的一個方法,
現在,最常見的一種“數據拿數據”的方法就是“A/B Test” 。原理是,我本來知道你對某種東西很感興趣,今天我給你做一個測試,本來是A頁面,我給你一個B頁面,然后看看你有什么樣的反應(有點像功夫里的假動作)。其實,B頁面拿到的數據肯定是基于A頁面拿到的數據的。
我們在大數據環境里運營數據時,有可能走不通的原因是,現在的數據已經龐大到需要管理才能到創新的數據化運營。這個循環能否成型,往往需要很長時間的努力。
我經常聽到很多淘寶賣家說:“先開槍,后瞄準。”我常常思忖,這句話在邏輯上怎么能講得通呢?正常的邏輯應該是“先瞄準,后開槍”啊。后來我知道了,其實這句話是有前提的,那就是:當你沒有數據的時候,如何在探索之中尋找到有參考價值的數據,并且最后發現目標,做出決策。所謂開槍,就是在一堆海量數據里盲選,而瞄準則是在海量數據里盲選出出有價值的數據。這樣,“先開槍,后瞄準”才是有價值的。 將這一觀點進行延伸,有關開槍和瞄準的順序問題,就像現實中,很多人容易把目標和目的混為一談,目的和目標區別在于:“目的”是要到達的終點;而“目標”則是衡量到達終點的價值標準。
用一句話來總結野蠻生長就是:“是,但不是;不是,但是。” 這句話又怎么理解呢?我們用“是,但不是”舉一個例子,我們常常會這么評價一個人,“他是一個好人,他也是一個壞人。他是好人是因為他在外面對朋友很好;他是壞人,是因為對自己的家人很壞。”再說“不是,但是”,比如說某個人創業失敗了,但是不是完全失敗了呢,這其中還是有很多數據價值的。
我很贊賞他說的 “發現交易量急速上漲的時候,就要停掉廣告” 。這句話體現了他作為一名科學家的思維邏輯——當交易量急速上漲時,對訂單的處理能力就會下降,所以減少廣告可以很好地控制局勢。
只有具備商業敏感的數據分析師,才會懂得使用什么數據來驅動公司實現經營目標。數據部的人要和業務部的人經常“混”在一起。
如果數據分析師缺乏商業意識,那么公司就成了“盲人”——分析師不知道該使用怎樣的邏輯去分析數據,而公司的決策層也得不到任何有價值的參考意見。
CEO是沒有多余精力來解讀頁面瀏覽量(PV)和獨立訪客(UV)等數據的。他們只需要知道數據是否有問題、反映了什么問題、最近有什么新的發現以及需要我們做出什么樣的改變。
商業敏感是要靠“混”出來的,它并不會憑空出現在你的面前。
堅持帶著業務問題來觀察數據或者帶著數據來觀察業務,兼備二者的敏感,就是做到了“通”。
“通”有兩個場景。比如說,現在有一個商業場景和一堆數據,這兩者產生關系時,就是商業模式和數據彼此的“通”,我們可以稱它為“數據中間層”,簡單來說,它就是能夠敏感地反映出商業變化的數據群(Smart Data Set)。
另外一種更深入的“通”,就是存在于公司組織中的數據。譬如,有一個商業問題,但是需要數據A和B、C、D互通,才能解決。
現實中的“不通”,也有兩種:一種是從人的角度來說的,比如說人在思考上的“不通”;另一種則是從公司的角度來說的,比如在架構上的“不通”。這兩者角度不同,造成的損失也會有差別。大部分的公司都會出現“不通”的情況,比如,部門與部門的隔離打亂了整個流程的連貫性,財務部門對產品、市場和運營等的不敏感,可能會把數據打散,這樣一來,商業活動就根本沒有辦法繼續進行。
想做到數據的積累和沉淀,想要打通數據,建立合理的系統是不二之選。首先,做好數據安全工作,以保證公司內部不同職位的員工可以察看不同的數據;然后,統一不同部門的數據標準,使公司內部數據有統一的接口,避免混亂;最后,關聯不同部門的數據,創造機會讓數據的運營可以擴散至數據部門之外。
“通”是“混、通、曬”里最關鍵的連接點。以前,數據量沒這么大的時候,公司“混”完就“曬”了,完全憑借商業敏感去運營數 據。而現在海量數據成為主流,“通”也就成為了運營數據不可或缺的一部分。
數據能不能做到在獲取、使用、分享、協同、連接、組合之上讓自己變得超級簡單和便捷,這是數據化運營里面非常重要的一點,這也正是“曬”的內容。
在“曬”數據層面上,通常是通過數據來回答這幾個問題:業務好還是不好,數據如何改變可以讓業務更好,如何利用數據幫助業務發現機會,甚至產生出新的商業價值。這些問題看起來是遞進關系,其實不然,因為具體應該用數據解決什么問題,要根據業務的場景來決定。
數據需要有框架可依:數據如何來證明業務好還是不好 這個問題用更專業的語言來說,就是如何搭建數據的框架,并通過數據框架來解答業務水平的好壞。所謂的框架就是,對一個業務進行指標化的分解,并通過有限多個指標來客觀描述業務的狀況。指標化的分解是為了能夠快速地定位到問題。
在電子商務領域,評價業務水平通常有兩套指標,一套是常用的計算成交額的方法,即流量×轉化率×客單價=成交額,它能夠評價一個類目、一個商品的健康度。另外一套指標在商品大促的時候使用居多,即預熱期加入購物車的商品數×商品單價×經驗轉化率×經驗成交額占比=大促成交額,因為經驗轉化率和經驗成交額占比通常是兩個固定的數據,所以只要看看購物車有多少商品及其價值,基本上就能算出來大概會有多少成交額了。這就是數據框架的作用,它使我們分清楚了業務的狀況。
業務需要進行比較才能判斷好壞,而比較的前提就是要不斷地去尋找比較對象,
如果業務場景是要查找精確的數據時,用圖,就錯了;如果業務場景要觀察變化趨勢卻用了表,那也錯了。一個好的分析師,不論是設計數據產品還是做圖表都需要有很好的“曬”的意識,而且還要讓“曬”出去的數據能夠吸引到更多人的注意。
利用數據幫助業務發現機會就涉及具體數據在業務場景中的應用了,這里最核心的價值點就是使數據變成人人都要用,而且是人人都必須用。
其核心就是通過業務和數據的結合,將數據“曬”出來,從而形成一種競爭力。
在我的談話過程中,我的大腦中始終會有幾個問題被放在首位,這幾個問題不會隨著談話的進程而隨意改變,這些問題包括:我這次要解決的是什么問題?對方(包括客戶、同事等)要的是什么?現在提出的方案解決了這個問題嗎?在只開一扇“窗”的前提下,如果會議中出現了不符合主題的內容,我一般不會過多參與,或者有意識地去結束這些與會議無關的話題。
收集數據不是目的,讓收集起來的數據如何產生價值才是最終的目的。
就數據的收集而言,最重要的不是看我們收集了什么數據,而是要思考這些數據如何使用以及收集這些數據到底能夠起到什么樣的作用。用一句話來說,就是收集數據不是目的,收集起來的數據如何產生價值才是最終的目標。不過,如何收集在未來具有價值的數據的確是一個難題,當中就需要一些經驗的判斷了。
數據存儲下來之后,數量和廣度都很大,就需要對之進行完善的管理。數據管理的內容包括很多方面,比如,數據的來源、如何讓數據不丟失、如何保護數據的安全、如何讓數據準確和穩定以及如何更好地運用數據,這些都是數據運營中的“管”。但是,“管”并沒有一個標準可循。在我和一些投資人以及國外互聯網公司的數據專家們的交流中,他們都認同我的一個觀點:大數據管理到底要怎么做?答案就是“沒有準確答案”。
我覺得,在我職業生涯的這些年,最值得反思的就是這句話。因為沒有一家公司可以讓你無止境地收集數據,然后再使用,這根本是不現實的。 而這就是“不做決定的代價”。因為,在這個世界上,有一些決定是我們一定要做的。從運營數據的角度來說,如果我們只收集數據而不做分析和應用的話,代價就是很沉重的存儲成本。
在面對“決定放什么數據進‘冷庫’”和“決定什么數據在緊急情況下一定要保護”的問題時,你就會發現以前我們所講的觀點——數據先收集起來,將來再使用,完全是一個偽命題。
數據管理,是大數據行業的“臟活”、“苦活”和“累活”,是最悲催和最難解決的事情。 如果沒有這些背景作鋪墊,我對很多公司在做所謂的大數據的運營就持有懷疑態度了。所以,我覺得很多所謂的“大數據專家”都是作家,而非真正的數據人。
“存、管、用”也是一個反復驗證的過程。
通過業務規則結合數據分析來建立標簽。
2.通過模型來建立標簽。
3.通過模型的組合來生成新的標簽
標簽的使用,最核心的就是數據中間層和前臺業務層的對接,并且能夠讓運營人員非常方便地進行商品的設置。這里涉及兩個核心點:一是中間層和業務層的對接,二是中間層的易用性。下面分別就這兩個內容來做一些探討。
中間層和業務層的對接。目前,對接是在互聯網廣告中非常熱的概念,典型的應用之一就是DMP(Data Management Platform)。
一方面,要找到本質問題,就需要我們在思考時排除過多的東西,使我們能夠更好地集中精力去解決重要的問題;另一方面,我們要有方法去發現本質問題。 能夠透過現象看本質是一個非常重要的方法,對這個方法最簡單的描述就是,不斷地用邏輯方法將問題進行分解,直到不能分解為止,然后從根本處去解決這個問題。
在分析問題本質的時候,有一個很好的方法可以用,叫作MECE(Mutually Exclusive Collectively Exhaustive),意思是彼此獨立、完全窮盡。這是一個麥肯錫方法,這個方法很像圖10—1至圖10—2這兩個對銷售額分析的分解圖,只有在解決問題的時候要做到彼此獨立且完全窮盡,這樣才能夠找到問題最深層次的本質原因,才能夠就這個原因找到合適的解決方案。
總的來說,當我們遇到一個問題之后,一定要問自己這到底是現象還是本質,如果是現象那就一定要找到本質。被表面現象迷惑是很多人都會犯的錯誤,而所謂的成功,就是少犯錯誤,就是早一點從本質出發去思考問題。
,過去,我們更多地是帶著問題去尋找能夠驗證自己觀點的數據,而今天我們卻可以使用數據去預測可能出現的問題。
假定數據是臟的 在處理數據的時候,會像污水處理廠一樣,每一步都問自己要如何處理這些污水。這種情況的出現,到底是因為數據源臟了,還是因為數據提煉過程做得不好?
假定數據是“臟”的來處理數據,在大數據時代將是一個非常重要的趨勢。
學會慢慢淡化數據 數據是有優先值的,在數據中有些是特別核心的,有些即使缺失了也沒有多大問題。所以,我們要學會真正坐下來盤點那些對公司最有價值、對用戶最有價值的數據。
數據的標簽化管理 數據的屬性標簽是人類經驗判斷的數據,是數據后的數據。
在屬性管理中,假如屬性是“×”,那么我們一定要定義清楚什么是“×”,在沒有清楚定義的情況下,這個數據的屬性是毫無價值的,而且,將來你也依然不知道怎么使用這一數據。
屬性管理的層級化十分有必要,但是在使用數據前,必須要了解數據的場景、數據是如何放進去的和數據的場景是什么。在這一切未知之前,就說數據如何好用的話,是不可能的。所以,現在企業運營數據的趨勢是,我們應該找出一些屬性進行歸類,然后再慢慢地考慮如何提煉,這對于未來非常重要。
重要的是數據和數據之間的關系,而不是數據本身 大數據價值的實現,在于數據與數據的連接。
數據的實時化與實時性分層 我們千萬不要把所有的能力都用來處理實時化的問題,因為我們依然會有大量的數據需要在恰當的時機(Right Time)處理,有的數據是重要的,但不緊急。
Real Time是“實時”,Right Time是“恰當的時機”。但是,據我看來,數據處理不一定要實時。
很多人會問,大數據目前發展到什么階段了?我的答案是——水分太多的階段。但毋庸置疑,大數據已經極大地影響了我們的社會,但還遠遠沒有達到它的爆發點。
人和機器的結合,或者人和數據的結合將是未來的一種進步模式,人類將通過數據變得更加智能。 最后我想用兩句話來總結: 當下,我們要學會人機分工,讓人做人最擅長的事情,讓機器做機器最擅長的事情; 未來,我們要相信人機結合,人機的界線已經模糊,無人駕駛汽車已經變成可能。未來人類的身上流動著的是血液以及數據。
為什么經驗有時會使人犯低級錯誤呢?在這里,我們應該將其分成兩種情況來看待:一種是信息不對稱;另一種則是邏輯錯誤。
一般而言,數據分析師對于信息是很有潔癖的,也就是在對于經驗的累積上,他們對質量把控得十分嚴格,如對于數據信息的排序、分析可靠的信息源進行多次使用、了解信息的出處和知道信息的提供者等。根據這些,數據分析師在它們的輔助下做出了決定。這意味著,你所有的信息來源都需要有正確的途徑和渠道,不然,這個決策也會出現偏差。
經驗是對過去的度量,但不是所有經驗信息的質量都很好。
還有一個因素導致經驗使人變笨,那就是在分析時忽略了趨勢,
成功路上,有4種東西是可以積累的,分別是財富、人際關系、知識以及思維方式。
思維方式與你所做的選擇和決策密切相關,冥冥之中決定了“運”的走向。
我要對數據做一個積累,我要對我所在行業中呈現出的信息進行積累。
在我的微博關注里,我按照兩個維度來分類我關注的人:一是他們懂什么東西,即有什么特長;二是根據重要性,進行5~20分鐘,或者45分鐘關注度的劃 分。這樣劃分的意思是,如果今天早上我只有5分鐘,那我就只看重要朋友發布的信息;如果我有10多分鐘,我會把重要性為5分鐘和20分鐘的朋友發布的信息都看完。
我現在已經對數據積累與決策質量之間的關系具備了一種直覺,所以我開始對電子商務有“覺”了。這一過程就如同前面所說的內三板斧中的 “混、通、曬”,我每天“混”在電子商務的環境中,不斷地吸收和尋找規律,這是“混”;每天我將收集來的數據和我每天所處的電子商務場景進行打通,則是“通”;至于“曬”,就是這些數據如何影響到了我在工作中的決策。
在“養數據”的過程中,關鍵詞標簽是進行數據管理最重要的工具,透過標簽我們可以快速定義一篇報告的內容,而數據每次調用的順暢情況則可以用來衡量這一標簽是否有效。
越有效的標簽就越能讓我快速地調取數據。 標簽的用途多樣,比如做知識分類的、識別來源的、情景和人物描述的以及表明時序的,等等。 ● 要注意知識范疇的培養。 例如,在電子商務中,我運用了各種分類標簽, 其中有行業標簽:B2B、B2C、C2C、外貿B2C、外貿B2B,最新的還有O2O;技術支持方面的標簽有:大數據、營銷方法、 用戶體驗、 微營銷等。 ● 場景的標簽我把它分為公司與人物,再加上時間。 可見,由時間鏈、共識面(公司、人物、來源)、 知識體系(標簽)和格式(內容)所構成的一張知識圖譜是解碼決策分析的依據。
數據分析師都有變態的數據潔癖,他們對數據的來源極為看重。所以,我將人和公司進行區別對待。人是特別的,可以離開某家媒體和公司,是流動的,但是如果我將數據管理定位在人之上,就是表示我認為人更重要。如果定位在了公司和媒體的背景之上,那么公司或媒體就更重要了。
首先,你所選定的題目,一定要是你感興趣的,或者跟你的職業相關的。比如你喜歡寵物,你要成為養貓的專家,你就會每天收集養貓的數據,當別人問到怎么養貓時,你就能很快地知道某個專家說過相關的內容。 其次,個人大數據管理和做大數據一樣,一定要從小處著眼,比如說你的目標是要成為電子商務專家,這個目標在一開始就顯得過大了。從我來說,一開始,我只收集海外出口的相關資料和數據,在這個小領域里形成了一個小的大數據循環,然后走熟這個循環,再涉獵手機支付行業方面,然后是C2C和B2C行業等。在經歷過小的循環之后,我才允許自己去觀察別的領域。現在,在別人眼里,我是一個數據運營的專家,其實我也是這樣“混”出來的。即便是現在,我也在一直訓練這個循環。 再者,就是盡量讓數據的收集變得簡單。當你發現有用的知識后,一定要跟自己說,不要多做思考先收集,現在就收集,不是明天,更不是后天。有人在講PPT,有價值的內容立即拍下來,而不是待會跟他索要PPT。知識的收集永遠都是“現在時”,而且這個操作越方便越好,越快越好。我的收集就很簡單,設置一個熱鍵一下就能夠將數據抓取過來。 最后,你一定要把這個“運營數據—數據化運營—運營數據”的循環打通成閉環,也要利用今天社會化的優勢,學會借助別人的力量。我認為這才是真真正正的大數據管理——形成一個有效的循環,形成一個可以不斷獲取數據和反饋的動態循環。可見,個人大數據管理能夠為個人產生力量,讓知識形成積累,成為你在人生道路上,從“命”到“運”最重要的分水嶺(
對于電商企業,衡量變動時需要有兩個大的前提,一個前提是要保證數據是能夠被有效地記錄下來的,另一個前提是數據是能夠被有效地解讀的。
如果說格斗中的穩定來自于動態,那么思考中的穩定就來自于變化環境下的不斷反饋。
所謂持續的反饋,就是在衡量的基礎上,評價某一個變動到底是不是起到了很大的作用,并確定數據的變化確實是因為這次改變而出現的。
我認為,未來的數據角色對企業而言就像決斗一樣,如果兩個人的水平差不多,多“算”的人就勝利了,而數據就是“算”的核心。
在尋找戰機和“算”的過程中,還有一個需要非常注意的點,即分析方法一定要客觀和理性,在經驗不是特別豐富的情況下,千萬不能盲目地用數據去觀察問題,要保持相當清醒的頭腦,不能讓潛意識迷惑自己。
別人的主干問題不是你的主干問題,所以簡單套用解決方案的做法可能會害死自己