????????數(shù)據(jù)治理,作為企業(yè)數(shù)據(jù)管理的一部分,治理程度,直接影響企業(yè)數(shù)據(jù)資產(chǎn)業(yè)務(wù)價(jià)值的實(shí)現(xiàn)
? ? ? ? 一個(gè)企業(yè)的數(shù)據(jù)治理應(yīng)該以數(shù)據(jù)質(zhì)量為核心、數(shù)據(jù)標(biāo)準(zhǔn)為基礎(chǔ)、數(shù)據(jù)治理機(jī)制為支撐;
????????何為數(shù)據(jù)治理,簡而言之,“數(shù)據(jù)”的“治”與“理”。“治”為整治,關(guān)注數(shù)據(jù)質(zhì)量,保障數(shù)據(jù)穩(wěn)定性、準(zhǔn)確性,合理控制數(shù)據(jù)生命周期,降低成本;“理”為梳理和管理,數(shù)據(jù)的基本信息、狀態(tài)、關(guān)聯(lián)關(guān)系等,搞清數(shù)據(jù)從哪來到哪去到何處等。
????????從中剖析,一個(gè)數(shù)據(jù)治理架構(gòu),從it設(shè)計(jì)角度,應(yīng)該
????????1、數(shù)據(jù)質(zhì)量管理模塊、
????????2、數(shù)據(jù)生命周期模塊、
????????3、元數(shù)據(jù)管理模塊(數(shù)據(jù)血緣)、
????????4、數(shù)據(jù)安全模塊、
????????5、數(shù)據(jù)架構(gòu)管理模塊
????????6、數(shù)據(jù)標(biāo)準(zhǔn)管理模塊(以上的基礎(chǔ)為數(shù)據(jù)標(biāo)準(zhǔn),也是最重要的)
其中各個(gè)模塊詳細(xì)設(shè)計(jì)如下
一、數(shù)據(jù)質(zhì)量管理
????????對所存儲(chǔ)數(shù)據(jù)的規(guī)范性、準(zhǔn)確性、一致性、完整性、時(shí)效性進(jìn)行持續(xù)監(jiān)控和評(píng)估;其管理的關(guān)鍵內(nèi)容對具體的數(shù)據(jù)元素指定的若干數(shù)據(jù)質(zhì)量檢核規(guī)則。并且數(shù)據(jù)質(zhì)量的整改需要有一個(gè)強(qiáng)有效的組織架構(gòu),需要把業(yè)務(wù)/技術(shù)都圈進(jìn)去,要讓業(yè)務(wù)知道數(shù)據(jù)治理的重要性,要讓技術(shù)明白數(shù)據(jù)治理的必要性;
????????開源組件已有Apache Griffin、微眾的Qualities,其大致實(shí)現(xiàn)就是提供了集成化的數(shù)據(jù)校驗(yàn)規(guī)則,匹配各個(gè)數(shù)據(jù)接口,可定時(shí)調(diào)度形成報(bào)表數(shù)據(jù)。
二、數(shù)據(jù)生命周期管理模塊
????????我們應(yīng)該知道我們存儲(chǔ)的數(shù)據(jù),有沒有人使用,進(jìn)而將我們的數(shù)據(jù)進(jìn)行分類,進(jìn)而可以對我們的數(shù)據(jù)進(jìn)行一個(gè)重要性分級(jí)。
????????可以通過調(diào)度任務(wù)sql進(jìn)行分析,確定數(shù)據(jù)冷熱區(qū),對于一定時(shí)期冷凍的數(shù)據(jù)進(jìn)行壓縮歸檔。
? 三、元數(shù)據(jù)管理
? ? ? ? ? 數(shù)據(jù)字典是基礎(chǔ), 定義并管理這些數(shù)據(jù)元素的業(yè)務(wù)描述、技術(shù)屬性以及業(yè)務(wù)數(shù)據(jù)口徑、加工路徑等內(nèi)容,促進(jìn)及時(shí)、準(zhǔn)確的了解數(shù)據(jù)含義及血緣關(guān)系。其在指標(biāo)梳理、數(shù)據(jù)流向管理中有很大的用處(例如上游系統(tǒng)發(fā)生了字段含義變更,可以快速在數(shù)據(jù)血緣上進(jìn)行確認(rèn)影響范圍)
? ???? 開源的組件有atlas
四、數(shù)據(jù)安全管理
? ???? 對數(shù)據(jù)設(shè)定安全等級(jí),保證其被適當(dāng)?shù)厥褂茫?/p>
? ???? 開源的組件有ranger、sentry。都可以做到顆粒級(jí)權(quán)限控制;
? 五、數(shù)據(jù)架構(gòu)管理模塊
? ???? 從我個(gè)人而言,一個(gè)好的數(shù)據(jù)架構(gòu)應(yīng)該保證全行級(jí)數(shù)據(jù)流向的合理性,統(tǒng)一性,數(shù)據(jù)流向亂了,數(shù)據(jù)質(zhì)量肯定亂,還談什么數(shù)據(jù)治理,先把數(shù)據(jù)架構(gòu)捋清楚。
? 六、數(shù)據(jù)標(biāo)準(zhǔn)管理模塊
? 應(yīng)該建設(shè)一個(gè)平臺(tái),對進(jìn)入數(shù)據(jù)平臺(tái)的所有任務(wù)進(jìn)行校驗(yàn),或者,有一個(gè)平臺(tái),自動(dòng)生成ETL任務(wù)。阿里oneData,執(zhí)行標(biāo)準(zhǔn)統(tǒng)一發(fā)布。
? ? ? ? 數(shù)據(jù)治理,治理誰,作為數(shù)據(jù)資產(chǎn)管理的一部分,數(shù)據(jù)治理應(yīng)該和數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)質(zhì)量管理、元數(shù)據(jù)管理、數(shù)據(jù)安全管理一起協(xié)同。數(shù)據(jù)標(biāo)準(zhǔn)為基礎(chǔ),通過各個(gè)數(shù)據(jù)監(jiān)測渠道獲得數(shù)據(jù)質(zhì)量指標(biāo),去真正推動(dòng)治理,才是最難的。