##數(shù)據(jù)質(zhì)量監(jiān)控

數(shù)據(jù)質(zhì)量監(jiān)控 - 晨柳溪 - 博客園 http://www.cnblogs.com/benchen/p/5852963.html

數(shù)據(jù)質(zhì)量的定義從數(shù)據(jù)使用者的角度定義,高質(zhì)量的數(shù)據(jù)應(yīng)該是能充分滿足用戶使用要求的數(shù)據(jù)。

數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)1:及時(shí)性:數(shù)據(jù)獲取是否及時(shí),主要指數(shù)據(jù)提取、傳送、轉(zhuǎn)換、加載、展現(xiàn)的及時(shí)性。在數(shù)據(jù)處理的各個(gè)環(huán)節(jié),都會(huì)涉及到及時(shí)性。我們一般考慮兩個(gè)方面第一就是接口數(shù)據(jù)是否能夠及時(shí)的抽取過來。第二就是展現(xiàn)層能否及時(shí)的展現(xiàn)出來。
2:完整性:是指數(shù)據(jù)是否完整,描述的數(shù)據(jù)要素,要素屬性及要素關(guān)系存在或不存在,主要包括實(shí)體缺失、屬性缺失、記錄缺失以及主外鍵參照完整性的內(nèi)容。

3:一致性:第一就是原始數(shù)據(jù)即文件接口和入庫(kù)的數(shù)據(jù)記錄條數(shù)是一致的。第二就是同一指標(biāo)在任何地方都應(yīng)該保持一致。

4:有效性:描述數(shù)據(jù)取值是否在界定的值域范圍內(nèi),主要包括數(shù)據(jù)格式、數(shù)據(jù)類型、值域和相關(guān)業(yè)務(wù)規(guī)則的有效性。

5:準(zhǔn)確性:主要是指指標(biāo)算法、數(shù)據(jù)處理過程的準(zhǔn)確性。這個(gè)準(zhǔn)確性主要是通過元數(shù)據(jù)管理中定義的指標(biāo)的算法、數(shù)據(jù)處理順序和人工檢查相結(jié)合的方式來保證。

數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)質(zhì)量檢查接口數(shù)據(jù)的檢查。接口數(shù)據(jù)主要有文件和數(shù)據(jù)庫(kù)接口內(nèi)容本身的數(shù)據(jù)質(zhì)量問題: 及時(shí)性,有效性,完整性
文件接口采集程序的監(jiān)控:文件接口采集程序是否正常啟動(dòng),正常結(jié)束等

數(shù)據(jù)倉(cāng)庫(kù)層面的數(shù)據(jù)數(shù)據(jù)處理過程監(jiān)控:是否按時(shí)調(diào)度,是否成功。
關(guān)鍵指標(biāo)的檢查:基礎(chǔ)指標(biāo)的檢查數(shù)值檢查:主要是通過檢查單個(gè)指標(biāo)的數(shù)值來發(fā)現(xiàn)指標(biāo)的異常和突變等情況。這里需要設(shè)置相應(yīng)的閥值來進(jìn)行。
波動(dòng)檢查:主要是同比或者環(huán)比的檢查。先計(jì)算指標(biāo)的同比或環(huán)比波動(dòng)率,然后與預(yù)定的波動(dòng)率上下限(閾值)進(jìn)行比較。
關(guān)聯(lián)檢查:對(duì)兩個(gè)存在關(guān)聯(lián)關(guān)系的指標(biāo)(如同增、同減正關(guān)聯(lián)關(guān)系),分析變化和波動(dòng)情況。
平衡檢查:通過對(duì)若干個(gè)指標(biāo)值的簡(jiǎn)單四則運(yùn)算(加、減、乘、除),來檢驗(yàn)各個(gè)指標(biāo)間潛在的平衡或其他比較關(guān)系。

加權(quán)波動(dòng)檢查:通過對(duì)單個(gè)指標(biāo)的基礎(chǔ)檢查結(jié)果和影響因素的加權(quán)計(jì)算分析,綜合檢查指標(biāo)的波動(dòng)和變化情況。

數(shù)據(jù)質(zhì)量的評(píng)測(cè)流程數(shù)據(jù)質(zhì)量需求分析
確定評(píng)價(jià)對(duì)象和范圍
選取數(shù)據(jù)質(zhì)量維度及評(píng)價(jià)標(biāo)準(zhǔn)
確定質(zhì)量測(cè)度及評(píng)價(jià)方法
運(yùn)用方法進(jìn)行評(píng)價(jià)
結(jié)果分析和評(píng)級(jí)
質(zhì)量結(jié)果和報(bào)告

數(shù)據(jù)質(zhì)量的評(píng)估方法基本概念模型M=<D,I,R,W ,E,S>
D(Dataset)是需要進(jìn)行評(píng)估的數(shù)據(jù)集
I(Indicator)數(shù)據(jù)集D上需要進(jìn)行評(píng)估的指標(biāo),如完整性、準(zhǔn)確性、一致性等
R(Rule)與評(píng)估指標(biāo)相對(duì)應(yīng)的規(guī)則
W(Weight)賦予規(guī)則R的權(quán)值(大于0的整數(shù)),描述了該規(guī)則在所有規(guī)則中所占的比重。
E(Expectation)對(duì)規(guī)則R給出的期望值(介于0到100之間的實(shí)數(shù)),是在評(píng)估之前對(duì)該規(guī)則所期望得到的結(jié)果。

S(reSult)規(guī)則R對(duì)應(yīng)的最終結(jié)果(介于0到100之間的實(shí)數(shù)),是在檢測(cè)該規(guī)則后所得的結(jié)果。

構(gòu)造技術(shù)構(gòu)造數(shù)據(jù)質(zhì)量評(píng)估模型要經(jīng)過4個(gè)步驟:確定數(shù)據(jù)集評(píng)估應(yīng)用視圖,選擇評(píng)估指標(biāo),制定規(guī)則集,計(jì)算規(guī)則結(jié)果得分。

下面將結(jié)合具體的實(shí)例來說明如何構(gòu)造數(shù)據(jù)質(zhì)量評(píng)估模型。


1****、確定數(shù)據(jù)集評(píng)估應(yīng)用視圖
在進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估時(shí),首先要提出數(shù)據(jù)質(zhì)量評(píng)估的需求,要確定哪些數(shù)據(jù)是用戶感興趣的(包括數(shù)據(jù)庫(kù)、數(shù)據(jù)庫(kù)中的數(shù)據(jù)集和數(shù)據(jù)集上的字段),對(duì)它們建立對(duì)應(yīng)的用戶視圖。
2****、選擇評(píng)估指標(biāo)
對(duì)于每個(gè)給定的數(shù)據(jù)集,選擇所需要的評(píng)估指標(biāo): 對(duì)于Customer,選擇完整性和有效性兩個(gè)指標(biāo)。
3****、制定規(guī)則集
根據(jù)選擇的評(píng)估指標(biāo),制定數(shù)據(jù)質(zhì)量評(píng)估規(guī)則,并確定它們相應(yīng)的權(quán)值和期望值。對(duì)于Customer,針對(duì)完整性和有效性指標(biāo)制定以下規(guī)則:
(1)ID 非空(權(quán)值:5,期望值:90):完整性
(2)ID長(zhǎng)度為18位(權(quán)值:10,期望值:90):準(zhǔn)確性
(3)Sex值為 F 或 M (權(quán)值:10,期望值:98):有效性
4****、計(jì)算規(guī)則結(jié)果得分
對(duì)于規(guī)則集中的每條規(guī)則R,檢查數(shù)據(jù)集上的數(shù)據(jù)實(shí)例,計(jì)算滿足R的數(shù)據(jù)元組的百分比,得到R對(duì)應(yīng)的結(jié)果S。計(jì)算數(shù)據(jù)元組總數(shù)的百分比,就是最終結(jié)果:假設(shè)它們的結(jié)果分別為95,90,90。

參考
http://www.chinaz.com/web/2012/1112/281738.shtml
http://blog.sina.com.cn/s/blog_66239fdb0100z9yf.html
http://www.5ykj.com/Article/xslwqygl/98050.htm

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容