未來幾年里數據的發展趨勢:應用無線化、信息數據化、交易無紙化、人類智能化、決策實時化、線上線下化;大數據是被需求驅動的,而需求來自于現有已知或未知問題的解決;不同行業對數據的應用各有側重和不同,只有抓住重點,仍然能從中挖掘商機;一定要把運營數據—數據化運營—運營數據的循環打通形成閉環;
大數據處理理念:要全體不要抽樣,要效率不要絕對精確,要相關不要因果;大數據核心是預測;大數據不是要教機器人像人一樣思考,而是把數學算法運用到海量的數據上來預測事情發生的可能性;
系統可以通過一種“反饋學習”機制,利用自己產生的數據判斷自身算法和參數選擇的有效性并實時進行調整,持續改進自身的表現;比如亞馬遜可以幫助我們推薦想要的書,谷歌可以為關聯網站排序,Facebook知道我們的喜好,而Linkedln可以猜出我們認識誰;
以往用數據要“混、通、曬”養數據要“存、管、用”就是用技術而不是人工方法做資產或材料管理;怎么樣評估是不是做好呢?得看看數據有沒有、細不細、全不全、穩不穩、快不快;所以一旦把數據管理好了,就會很快靈活做出數據;數據分為公有數據與專有數據;
傳統的數據科學家常常是博士或博士后,研究的方向是機器學習;幾年前的企業數據都是看多用少,不夠直接也很少涉及機器學習、算法等領域;數據科學是科學不是工程,工程追求效率,科學追求真理.
如果數據科學家做得太實操就會變成一個數據挖掘工程師,因為今天的技術跟以前技術不一樣了,技術更新迭代升級很快;
以前我們是有問題找數據,而在大數據時代,其最核心的特質則是用數據找機會;數據量不是最重要的問題而是有“質”的量才是關鍵;現在大多數情況下用數據的人不知道大數據從哪里來,做數據的人不知道大數據如何使用;
想用數據的人不敢用,因為擔心大數據的真實性;做數據的人不知道怎么用,因為大數據的復雜性;目前市面上大數據量是很大但是有用的信息不一定多,甚至還會破壞核心信息;如果數據沒有加以加工處理整合集合形成有價值信息輸出報告也就沒有多大的用處;大數據意義在于鏈接與大與質量;
斷層才是大數據所面臨的最嚴重的問題,收集數據的人并不清楚未來使用數據的人要做什么,這是目前大數據運用的一大關鍵命門;有人詢問如何衡量大數據價值?最直接衡量標準就是在經營上它為你賺了多少錢,帶來了多少實際的利潤提升;
現在很多人欣向使用的方法是計算“在用了大數據之后點擊率提高了多少,轉化率提高了多少”但是轉換率和點擊率提高的數據不是投資人與公司管理者對大數據的期望,對業務員來說就有效;搞數據建模的人也不知道這些數據有什么用;
收集數據的人不知道將來的人怎么使用數據,創建模型的人不知道自己所采用的數據在未來是否穩定,使用模型的人不知道整個數據的來路或加工過程;因為每一個層級和功能部門都是一個斷層,而且對數據的價值內在衡量都不一樣;
西方式的思考側重于系統分析,大都用數據進行細分/歸類、對比、溯源;一般流程是:假設什么目的、怎么樣定義問題、怎么樣量化各種指標、怎么樣評估這些指標的達標率;所以在大數據的商業環境里,要既懂數據又懂商業,還要擁有一套好的思維方法,而數據化思考正是這樣新的事物;我一直覺得答案不重要,重要的是思考的角度;
從企業價值來看,數據收集實現的是企業資源的合理分配;從客戶價值來看,數據收集實現的是顧客體驗的提升;場景與還原并行—前端還原消費場景,后段還原業務需求;數據的本質就是還原,這是收集元數據的關鍵方法;
現在很多企業有數據或收集數據都是死數據而不是活數據,死數據就是單純儲存數據庫中,無法辨別分析和使用 并且不能夠產生價值數據;把數據激活,從靜態數據變成動態數據,必須要用場景來驗證,靜態數據是沒有用的;
只有具備了商業敏感度的數據分析師才會懂得用數據來驅動公司實現經營目標,而絕不會單憑交易量就決定商品策略;
數據儀表盤可以分為前端行為數據和后端商業數據;前者指的是訪問量、游覽量、點擊率及站內搜索等反應用戶行為的數據,而后者更側重于商業數據,比如交易量、投資回報率、客戶終身價值;
數據存儲分為基礎層、中間層和應用層;我覺得基礎層必須統一,因為這是最基本的數據,而且基本數據是原始數據;除了備份的需求外沒有必要在各個場合保留多份數據;
只要保障這個數據良好的元數據管理方式就能極大的降低成本;企業業務單一適合數據集中化管理,業務多元化適合分散管理;
如果收集數據出發點不是為了解決問題,那么收集再多的數據也沒有什么意義;數據本身有生命周期的;在大數據的背景下,必須考慮數據之間的關聯性;一個單獨的數據是沒有意義的,要把數據放在一個數據框架中去,才能看出存在的問題;知識圖譜不是數據而是數據和數據之間的關系;知識圖譜知別人不知;
人和機器的結合或者人和數據的結合是未來的一種進步趨勢;信息化和數據化區別在于,信息化為我們提供了參考,而數據化讓我們可以直接行動;未來產品經理需要懂得如何用數據來增值,這其中三個關鍵點在于產品化、數據化、商業眼光;而眼下很多產品經理更多關注產品化而忽略了數據化;
信息技術的革命不在于分析數據的機器而是在于數據本身和我們如何運用數據;大數據告訴我們是什么而不是為什么,在大數據時代,我們不必要知道現象背后的原因,我們只要讓數據本身發出聲音;
數據分析者太沉浸于模擬數據時代的設想,模擬時代數據收集和分析耗時耗力,新問題出現要求我們重新收集和分析數據;大數據采集與處理及分析不是隨機樣本而是全體數據;采樣分析的精確性隨著采樣隨機性的增加而大幅度提高,但與樣本數量的增加關系不大;
千萬不要奢望采樣的數據還能回答你突然意識到的問題;執迷于精確性是信息缺乏時代和模擬時代的產物;只有5%的數據是結構化且能適應于傳統數據庫的;對小數據而言要的就是減少錯誤和保障質量;
大數據的簡單算法比小數據的復雜算法更有效;谷歌的翻譯之所以好并不是擁有了一個更好的算法機制而是采取了全球互聯網的機制獲取各種各樣的數據;也就是用網頁排名來獲得更多的數據;
如果用根據過去數據來預測未來數據,那未來的數據就不是信息了!當今這個時代競爭無處不在,其核心是綜合實力的比拼;
專業分析需要得到更多信息,而重要的信息需要進入特定圈子或高危現場才能取得;在中國做分析需要自學、靠自己觀察、積累,歸納總結市場環境下的經濟信息分析規律;如果一個人對生活沒有熱情,沒有很多愛好,就無法擁有分析工作中需要的好奇心和敏銳的觀察能力;
分析工作需要保持對信息持久的新鮮感,這種新鮮感來自分析者內在的熱情,而熱情產生于生活和工作態度;
數據營銷比的不是數據規模大小,不是統計技術,也不是強大的計算能力,而是對核心數據的解讀能力;如果數據永遠躺在會議桌上的一堆報表,那你永遠無法從這些數據中學到任何事情;營收=有效客戶*顧客活躍度*客單價;
找出10個關鍵指標:新增率、變動率、流失率、轉化率、活躍度、激活率、留存率、注冊率、營業額增長幅度、顧客購買情況、競爭者促銷手法、增加銷售量方法(降價促銷、增加廣告、舉辦活動刺激銷量);大數據比的是點子而不是銀子,贏家需要數據洞察力;
什么樣的人才才能在下一個時代存和發展?答案無非就是掌握數據和運用大數據的人;在下一個時代里:自動化、定量化和個性化會成為主要的時代特征取向;