關于元數據與主數據 - TechRunner - 博客頻道 - CSDN.NET http://blog.csdn.net/pierre_/article/details/50542882
三類元數據:技術元數據、業務元數據和管理元數據。這三種元數據的具體描述如下:
技術元數據 技術元數據是描述數據系統中技術領域相關概念、關系和規則的數據,主要包括對數據結構、數據處理方面的特征描述,覆蓋數據源接口、數據倉庫與數據集市存儲、ETL、OLAP、數據封裝和前端展現等全部數據處理環節;
業務元數據 業務元數據是描述數據系統中業務領域相關概念、關系和規則的數據,主要包括業務術語、信息分類、指標定義和業務規則等信息;
管理元數據 管理元數據是描述數據系統中管理領域相關概念、關系和規則的數據,主要包括人員角色、崗位職責和管理流程等信息。
企業數據管理的內容及范疇通常包括交易數據、主數據以及元數據。
交易數據:用于紀錄業務事件,如客戶的訂單,投訴記錄,客服申請等,它往往用于描述在某一個時間點上業務系統發生的行為。
主數據:主數據則定義企業核心業務對象,如客戶、產品、地址等,與交易流水信息不同,主數據一旦被記錄到數據庫中,需要經常對其進行維護,從而確保其時效性和準確性;主數據還包括關系數據,用以描述主數據之間的關系,如客戶與產品的關系、產品與地域的關系、客戶與客戶的關系、產品與產品的關系等。
元數據:即關于數據的數據,用以描述數據及其環境的結構化信息,便于查找、理解、使用和管理數據。
主數據管理使得企業能夠集中化管理數據,在分散的系統間保證主數據的一致性,改進數據合規性、快速部署新應用、充分了解客戶、加速推出新產品的速度。從 IT 建設的角度,主數據管理可以增強 IT 結構的靈活性,構建覆蓋整個企業范圍內的數據管理基礎和相應規范,并且更靈活地適應企業業務需求的變化。
企業數據管理的內容和范疇通常包含交易數據、主數據以及元數據。以下主要討論主數據、元數據的概念及應用。
主數據和主數據管理的概念
企業主數據是用來描述企業核心業務實體的數據,比如客戶、合作伙伴、員工、產品、物料單、賬戶等;它是具有高業務價值的、可以在企業內跨越各個業務部門被重復使用的數據,并且存在于多個異構的應用系統中。
企業主數據可以包括很多方面,除了常見的客戶主數據之外,不同行業的客戶還可能擁有其他各種類型的主數據,例如:對于電信行業客戶而言,電信運營商提供的各種服務可以形成其產品主數據;對于航空業客戶而言,航線、航班是其企業主數據的一種。對于某一個企業的不同業務部門,其主數據也不同,例如市場銷售部門關心客戶信息,產品研發部門關心產品編號、產品分類等產品信息,人事部門關心員工機構,部門層次關系等信息。
數據管理的范疇和主數據管理的概念
企業數據管理的內容及范疇通常包括交易數據、主數據以及元數據。
交易數據:用于紀錄業務事件,如客戶的訂單,投訴記錄,客服申請等,它往往用于描述在某一個時間點上業務系統發生的行為。
主數據:主數據則定義企業核心業務對象,如客戶、產品、地址等,與交易流水信息不同,主數據一旦被記錄到數據庫中,需要經常對其進行維護,從而確保其時效性和準確性;主數據還包括關系數據,用以描述主數據之間的關系,如客戶與產品的關系、產品與地域的關系、客戶與客戶的關系、產品與產品的關系等。
元數據:即關于數據的數據,用以描述數據及其環境的結構化信息,便于查找、理解、使用和管理數據。
主數據管理是指一整套的用于生成和維護企業主數據的規范、技術和方案,以保證主數據的完整性、一致性和準確性。
主數據管理的意義
集成、共享、數據質量、數據治理是主數據管理的四大要素,主數據管理要做的就是從企業的多個業務系統中整合最核心的、最需要共享的數據(主數據),集中進行數據的清洗和豐富,并且以服務的方式把統一的、完整的、準確的、具有權威性的主數據分發給全企業范圍內需要使用這些數據的操作型應用和分析型應用,包括各個業務系統、業務流程和決策支持系統等。
主數據管理使得企業能夠集中化管理數據,在分散的系統間保證主數據的一致性,改進數據合規性、快速部署新應用、充分了解客戶、加速推出新產品的速度。從 IT 建設的角度,主數據管理可以增強 IT 結構的靈活性,構建覆蓋整個企業范圍內的數據管理基礎和相應規范,并且更靈活地適應企業業務需求的變化。
以客戶主數據為例,客戶主數據是目前企業級客戶普遍面臨的一個問題,在大多數企業中,客戶信息通常分散于 CRM 等各個業務系統中,而每個業務系統中都只有客戶信息的片斷,即不完整的客戶信息,但卻缺乏企業級的完整、統一的單一客戶視圖,結果導致企業不能完全了解客戶,無法協調統一的市場行為,導致客戶滿意度下降,市場份額減少。因此,建立客戶主數據系統的目的在于:
整合并存儲所有業務系統和渠道的客戶及潛在客戶的信息:一方面從相關系統中抽取客戶信息,并完成客戶信息的清洗和整合工作,建立企業級的客戶統一視圖;另一方面,客戶主數據管理系統將形成的統一客戶信息以廣播的形式同步到其他各個系統,從而確保客戶信息的一致;
為相關的應用系統提供聯機交易支持,提供客戶信息的唯一訪問入口點,為所有應用系統提供及時和全面的客戶信息;服務于 OCRM 系統,充分利用數據的價值,在所有客戶接觸點上提供更多具有附加價值的服務;
實現 SOA 的體系結構:建立客戶主數據系統之前,數據被鎖定在每一個應用系統和流程中,建立主數據管理系統之后,數據從應用系統中被釋放出來,并且被處理成為一組可重用的服務,被各個應用系統調用。
主數據管理系統與數據倉庫系統的關系
主數據管理系統與數據倉庫系統是相輔相成的兩個系統,但二者絕不是重復的,也不是互斥的。它們有很多共同之處:
首先二者對企業都具有相同的價值,可以減少數據冗余和不一致性、提升對數據的洞察力,二者都是跨部門的集中式系統;
其次二者都依賴很多相同的技術手段,都會涉及到 ETL 技術、都需要元數據管理、都強調數據質量;
第三就是二者建設手段類似,都需要數據治理的規范作為指導、都需要不同系統、不同部門的協作、需要統一的安全策略。
但是,主數據管理系統和數據倉庫 / 決策支持系統二者之間也存在很多不同:
處理類型不同:主數據管理 (MDM) 系統是偏交易型的系統,它為各個業務系統提供聯機交易服務,系統的服務對象是呼叫中心、B2C、CRM 等業務系統;而數據倉庫是屬于分析型的系統,面向的是分析型的應用,是在大量歷史交易數據的基礎上進行多維分析,系統的使用對象是各層領導和業務分析、市場銷售預測人員等;
實時性不同:與傳統的數據倉庫方案的批量 ETL 方式不同,主數據管理系統在數據初始加載階段要使用 ETL,但在后續運行中要大量依賴實時整合的方式來進行主數據的集成和同步;
數據量不同:數據倉庫存儲的是大量的歷史數據和各個維度的匯總數據,可能會是海量的,而 MDM 存儲的僅僅是客戶和產品等信息。
雖然主數據管理系統和數據倉庫系統異同共存,但是二者卻有著緊密的聯系,并且可以互為促進、互為補充。舉例而言,數據倉庫系統的分析結果可以作為衍生數據輸入到 MDM 系統,從而使 MDM 系統能夠更好地為操作型 CRM 系統服務。
主數據管理系統和 ODS 的關系
在某些情況下,主數據管理系統和 ODS 系統可能容易被混淆,的確,從實時上來看,主數據管理系統和 ODS 系統存儲的都是實時數據,但是二者存儲的數據內容是全然不同的,主數據管理系統中不存儲交易數據,比如銀行客戶的交易流水信息是不應該放在主數據管理系統中進行管理的,這與 MDM 與 ODS 的一個很大區別。舉一個航空公司的例子,比如某個客戶在電子商務網站上定了一張機票,產生一個訂單,然后他又通過呼叫中心要求改簽,這個場景中,兩個系統之間要實現客戶信息和訂單信息的共享,其中客戶信息共享通過MDM 系統來實現,而訂單信息則需要采用 ODS 或其它手段進行共享,我們是不推薦把此類信息交由 MDM 系統來管理的。
主數據管理典型應用
主數據管理的典型應用有客戶管理與產品管理,主數據管理在金融行業典型的應用就是企業級客戶信息整合系統(Enterprise Custome Information Facility,簡稱ECIF),其目標是整合全行現有業務系統中的客戶信息,保留客戶的最新信息,為各應用系統提供完整的、共享的、一致的客戶信息,建立企業級客戶單一視圖,在全行范圍內為客戶信息的使用和管理提供服務,為全行從“以產品為中心”的業務流程向“以客戶為中心”的業務流程整合提供強有力的支持。
基于元數據的主數據管理
元數據管理作為企業數據資產管理中的一項核心技術,也將為主數據管理提供有力支撐,具體表現在:
為業務實體的定義、關系和業務規則到IT實現之間提供清晰、標準的語義轉換,提高業務和IT之間的一致性,保障IT系統能夠真實反映業務事實;
為主數據管理的各個數據處理階段提供數據標準、數據映射關系和數據規則的描述,保障主數據管理的數據質量;
為主數據庫和其他系統之間的數據交互提供有關數據標準、數據映射關系和數據規則的描述。
元數據管理的概念
元數據定義
元數據(Meta Data)是關于數據的數據,當人們描述現實世界的現象時,就會產生抽象信息,這些抽象信息便可以看作是元數據,元數據主要用來描述數據的上下文信息。通俗的來講,假若圖書館的每本書中的內容是數據的話,那么找到每本書的索引則是元數據,元數據之所以有其它方法無法比擬的優勢,就在于它可以幫助人們更好的理解數據,發現和描述數據的來龍去脈,特別是那些即將要從OLTP系統上升到DW/BI體系建設的企業,元數據可以幫他們形成清晰直觀的數據流圖,元數據是數據管控的基本手段。
元數據是為了提升共享、重新獲取和理解企業信息資產的水平,元數據是企業信息管理的潤滑劑,不對元數據進行管理或管理不得當,信息將被丟失或處于隱匿狀態而難以被用戶使用,數據集成將十分昂貴,不能對業務進行有效支撐。終端用戶要識別相關的信息將十分困難,最終用戶將失去對數據的信任。
元數據分類
元數據管理的范圍將涵括數據產生、數據存儲、數據加工和展現等各個環節的數據描述信息,幫助用戶理解數據來龍去脈、關系及相關屬性。按其描述對象的不同可以劃分為三類元數據:技術元數據、業務元數據和管理元數據。這三種元數據的具體描述如下:
技術元數據 技術元數據是描述數據系統中技術領域相關概念、關系和規則的數據,主要包括對數據結構、數據處理方面的特征描述,覆蓋數據源接口、數據倉庫與數據集市存儲、ETL、OLAP、數據封裝和前端展現等全部數據處理環節;
業務元數據 業務元數據是描述數據系統中業務領域相關概念、關系和規則的數據,主要包括業務術語、信息分類、指標定義和業務規則等信息;
管理元數據 管理元數據是描述數據系統中管理領域相關概念、關系和規則的數據,主要包括人員角色、崗位職責和管理流程等信息。
元數據管理的范圍
元數據管理范圍的不應僅僅局限于企業數據倉庫、數據集市以及管理分類應用的數據,還應該將企業的業務系統的元數據納入進來就行統一的管理,真正做到從源頭對元數據進行管理,作為對數據的完整生命周期進行管理。
元數據應用
數據地圖
數據地圖展現是以拓撲圖的形式對數據系統的各類數據實體、數據處理過程元數據進行分層次的圖形化展現,并通過不同層次的圖形展現粒度控制,滿足開發、運維或者業務上不同應用場景的圖形查詢和輔助分析需要。
元數據分析
血緣分析
血緣分析(也稱血統分析)是指從某一實體出發,往回追溯其處理過程,直到數據系統的數據源接口。對于不同類型的實體,其涉及的轉換過程可能有不同類型,如:對于底層倉庫實體,涉及的是ETL處理過程;而對于倉庫匯總表,可能既涉及ETL處理過程,又涉及倉庫匯總處理過程;而對于指標,則除了上面的處理過程,還涉及指標生成的處理過程。數據源接口實體由源系統提供,作為數據系統的數據輸入,其它的數據實體都經過了一個或多個不同類型的處理過程。血緣分析正是提供了這樣一種功能,可以讓使用者根據需要了解不同的處理過程,每個處理過程具體做什么,需要什么樣的輸入,又產生什么樣的輸出。
影響分析
影響分析是指從某一實體出發,尋找依賴該實體的處理過程實體或其他實體。如果需要可以采用遞歸方式尋找所有的依賴過程實體或其他實體。該功能支持當某些實體發生變化或者需要修改時,評估實體影響范圍。
實體關聯分析
實體關聯分析是從某一實體關聯的其它實體和其參與的處理過程兩個角度來查看具體數據的使用情況,形成一張實體和所參與處理過程的網絡,從而進一步了解該實體的重要程度。本功能可以用來支撐需求變更影響評估的應用.
實體差異分析
實體差異分析是對元數據的不同實體進行檢查,用圖形和表格的形式展現它們之間的差異,包括名字、屬性及數據血緣和對系統其他部分影響的差異等,在數據系統中存在許多類似的實體。這些實體(如數據表)可能只有名字上或者是在屬性中存在微小的差異,甚至有部分屬性名字都相同,但處于不同的應用中。由于各種原因,這些微小的差異直接影響了數據統計結果,數據系統需要清楚了解這些差異。本功能有助于進一步統一統計口徑,評估近似實體的差異
指標一致性分析
指標一致性分析是指用圖形化的方式來分析比較兩個指標的數據流圖是否一致,從而了解指標計算過程是否一致。該功能是指標血緣分析的一種具體應用。指標一致性分析可以幫助用戶清楚地了解到將要比較的兩個指標在經營分析數據流圖中各階段所涉及的數據對象和轉換關系是否一致,幫助用戶更好地了解指標的來龍去脈,清楚理解分布在不同部門且名稱相同的指標之間的差異,從而提高用戶對指標值的信任。
輔助應用優化
元數據對數據系統的數據、數據加工過程以及數據間的關系提供了準確的描述,利用血緣分析、影響分析和實體關聯分析等元數據分析功能,可以識別與系統應用相關的技術資源,結合應用生命周期管理過程,輔助進行數據系統的應用優化.
輔助安全管理
企業數據平臺所存儲的數據和提供的各類分析應用,涉及到公司經營方面的各類敏感信息。因此在數據系統建設過程中,須采用全面的安全管理機制和措施來保障系統的數據安全。
數據系統安全管理模塊負責數據系統的數據敏感度、客戶隱私信息和各環節審計日志記錄管理,對數據系統的數據訪問和功能使用進行有效監控。為實現數據系統對敏感數據和客戶隱私信息的訪問控制,進一步實現權限細化,安全管理模塊應以元數據為依據,由元數據管理模塊提供敏感數據定義和客戶隱私信息定義,輔助安全管理模塊完成相關安全管控操作。
基于元數據的開發管理
數據系統項目開發的主要環節包括:需求分析、設計、開發、測試和上線。開發管理應用可以提供相應的功能,對以上各環節的工作流程、相關資源、規則約束、輸入輸出信息等提供管理和支持。