略去大數據分析背景與價值部分,言簡意賅的介紹如何進行數據資產管理運營。
數據資產管理運營 = 數據資產盤點 + 數據治理 + 數據價值實現
管理和運營是一個全流程的事情,首先我們需要知道我們有哪些數據(盤點),轉化為能夠發揮價值的數據資產(治理),再實現數據應用層面的價值(價值實現),也就是最終要能指導業務產出價值。
數據資產盤點
1.數據源
內部源數據(業務數據,管理數據,IT方面的OA數據/系統監控數據)+ 外部數據(第三方數據,互聯網爬取的數據)
---------? 經過數據交換? ---------
ODS貼源層?:和源系統保持一致,可能會做一些數據標準化/數據清洗,如果源系統沒法改造的話,需要在這一步對數據進行標準化改造,確保到數倉層面是符合標準的。
數倉層面:按主題進行構建(比如產品,客戶,機構主題),加工(進行反范式,標準化等 )
一般數倉分為貼源層、標準化層、匯總層、指標層、集市層(關于數據倉庫和數據集市在本篇不詳細展開介紹)
數據集市:針對具體應用,高并發數據查詢,把數倉層面加工完之后的數據導出到數據集市,便于進行小規模的應用
-----(上述結構化數據)+? -----
半結構化數據?(例如 日志文件)
非結構化數據?(例如 音頻視頻 郵件 (所以要引入 hadoop spark框架))? ?
--------- (構建成了)?=??--------
大數據平臺
2.數據分級分類
在完成了數據梳理,了解數據分布后,同時要明確保密和敏感數據的分布情況。
數據分類:依據數據的來源、內容和用途對數據進行分類。
數據分級:根據已分類的數據資產由業務部門根據數據的價值、敏感程度、影響范圍進行敏感分級,將分類的數據資產劃分公開、內部、敏感等不同的敏感級別。
3.數據認責
完成數據梳理與分級分類后,針對數據的歸屬權需要進行確認,有利于之后的權限梳理以及數據治理和運營。
4.數據權限梳理
主要涉及到訪問控制以及對于敏感信息的保護,例如身份證號手機號脫敏等等,此處需要結合數據分級分類與數據認責。
數據治理
1.元數據
在表中看到一個數據時,我們僅看到這個數據的值,但是對于這個數據的身份背景從哪里來到哪里去我們都一無所知,所以我們需要元數據。元數據指的是用來描述數據的數據。那我們需要描述哪些方面呢?
業務元數據:是描述數據的業務含義、業務規則等。起碼讓你知道這一項數據的含義是什么,是通過什么規則運算加工出來的,避免大家各自對數據發揮想象...自說自話。通常包括:業務定義、業務規則、業務指標等。
技術元數據:進行技術定義和描述是為了便于識別數據的存儲、傳輸和交換,常見的技術元數據包括:存儲位置、數據模型、字段長度、字段類型、ETL腳本、SQL腳本、接口程序等
管理元數據:描述了數據的管理屬性,包括管理部門、管理責任人等。內容主要包括:與元數據管理相關的組織、崗位、職責、流程、項目、版本等。
那有了這些元數據之后我們可以做什么呢?
了解數據來自哪里并經過了哪些加工(血緣分析),數據與其他數據之間的關系(關聯度分析),哪些數據是屬于企業的常用數據(冷熱度分析)等等。
2.數據標準
有了元數據之后,我們還需要制定相應的數據標準,來規范我們對于數據的使用。比如為了支持數據交互,我們需要對格式標準進行定義,為了避免混淆和歧義,需要對數據項名稱標準,數據項值的標準進行定義。元數據是數據標準的基礎,元數據需要有對應的數據標準。例如業務元數據(增長率),標準應該定義清楚是同比還是環比,例如技術元數據(字段類型),可能每一個數據庫制定的表的標準不一樣,男女就會出現male/female,1/0...這種情況,則需要我們需要按照一個統一的標準進行定義與輸入。
3.數據質量
數據標準則又服務于數據質量,我們進行數據治理的目的也是為了提高數據質量,從而提供更為精準的決策分析數據。數據標準的評價維度示例如下:
一般情況下產生數據質量問題的原因可能是錄入錯誤,需要通過報表核對查出來并進行整改,知道哪些部門的數據質量是怎樣的,代碼問題 采用了錯誤的邏輯判斷,數據缺失 數據在流轉過程中導入導出過程中,由于編碼規則不一樣導致的數據被丟棄,可以在每個流轉環節加入校驗機制。
4.主數據
主數據是企業系統間共享性高的數據,跨越各業務部門經常被使用,且相對穩定。常見的主數據有客戶、產品、機構人員等。
主數據具備3個主要特征有:
①高價值:主數據是所有業務處理都離不開的實體數據,與大數據相比價值密度非常高。
②高共享:主數據是跨部門、跨系統高度共享的數據。
③相對穩定:與交易數據相比主數據是相對穩定的,變化頻率較低。
這些特征同時也反映出來主數據通常存在數據入口眾多、重復錄入、信息不一致、填寫不規范、存在數據孤島等問題。因為主數據的上述特點,因此管理方式也會有些不同。
通常有3種管理形式:
1.以單獨系統進行管理,比如CRM系統就是客戶數據的主數據平臺,能夠保證數據在各個地方交互的時候都是一致的。
2.集中管控 集合客戶、產品、等所有主數據,構建主數據平臺進行統一維護。方式是通過數據同步機制,將其他各地方比如財務系統的主數據(客戶數據)同步到主數據平臺。
3.數倉層面? 建一個主題 比如客戶數據 再同步到源系統? 這種方式會比較麻煩。
5.數據安全
數據安全是貫穿數據使用全流程的,尤其在一些數據敏感度高的例如政府、軍事、銀行等機構,會對數據安全有較高的要求。
數據存儲安全:包括物理安全、系統安全存儲數據的安全,主要通過安全硬件的采購來保障數據存儲安全。
數據傳輸安全:包括數據的加密和數據網絡安全控制,主要通過專業加密軟件廠商進行規范設計和安裝。
數據使用安全:需要加強從業務系統層面進行控制,規范數據的訪問、下載、共享、銷毀等過程。
數據價值實現
現在數據已經整整齊齊準備好了,能夠通過什么服務實現價值呢?一般可以分為三種。
基礎數據服務:查詢、多維分析等,以SQL的方式來進行數據獲取和指標分析。支持簡單的條件查詢,數據化運營中的路徑分析、漏斗模型等等。
標簽畫像服務:通過使用標簽數據,進行客戶畫像、精準營銷等服務。像是關聯分析、RFM模型都是比較常用的模型。
算法模型服務:包括推薦系統、風險控制等,通過將算法模型部署為在線API。這一部分根據行業不同有不同的需求,如投研分析,文本語義分析,交通路線優化等不同場景下的應用。
以上就是關于數據管理的全流程,后續會將其中的單個重要模塊展開。