第1章《低劣數據質量的業務影響》

開始之前,先來拆解一下章節題目,看看都有些什么。按照順序,基本上可以拆出“低劣數據”、“數據”、“數據質量”、“業務影響”這幾個關鍵詞來,在每一個詞的后邊加上一個“是什么”就又可以各自追問出一個問題來,再考慮到不同關鍵詞之間的關系又會有新的問題提出。剔除掉顯而易見的和無意義的問題之后,還剩下如下三個問題:

1.數據質量是什么?
2.業務影響具體是指什么?
3.數據質量通過怎樣的方式與業務影響發生聯系?

暫且拋開這些問題,看看書里都說了什么樣的內容。

“當今多數組織以兩種基本方式使用數據:一是,標準業務流程(Standard Business Processes)使用數據執行事務處理,支持日常業務活動;二是,業務分析師(Business Analysts)通過報告和分析引擎考察日常運營結果數據,作為識別新的增長機會?!薄?strong>數據通常被用來支撐常規業務活動,提升業務績效。
如此,就必須有合適的流程來確保數據具有相當的質量以滿足業務需求。

但是,數據的價值往往是從錯誤數據或者說是低劣數據對業務造成的損失中體現出來的,因此,“任何企業的風險管理計劃,如果整合了對低劣數據質量相關風險的評價、測量、報告、應對和控制,就很有價值。”

問題來了,缺陷數據的引入會在多大程度上影響組織的業務行為?如何測量?反過來說,數據質量改進的價值該如何去衡量?書中提供了以下6個步驟:

1.審查與使用信息相關的風險類型;
2.考慮確定數據質量期望指數的方法;
3.開發用于闡明數據質量計劃的流程和工具;
4.定義數據有效性約束;
5.測量數據質量;
6.報告和追蹤數據問題。

乍看起來有點兒不知所云,仔細琢磨好像又有點兒意思,但這點兒意思一時又理解得不那么通透,上不著天下不著地的就那么吊著,折磨又撓心。不過,這種感覺一來,學習的感覺就到位了。而且,學習嘛,也要有個輕重緩急的策略,不必時時事事較真兒,不分時機地鉆牛角尖,總是不好。所以,雖然不甘心,也只好暫且放過,畢竟本章的重點是討論將業務影響與低劣數據的質量問題進行關聯的方法,以及由低劣數據質量造成的風險類型。

很多業務問題通常直接與數據質量低于用戶期望的情況有關??梢苑治鋈绾卫脭祿崿F業務目標,以及當環境中存在缺陷數據時又是如何妨礙這些目標的實現。為達到這一點,就必須考慮:

(1)數據質量的業務期望是什么?
(2)低劣數據質量是如何影響業務的?
(3)如何建立業務影響與具體數據質量問題之間的關聯關系?

基于"數據質量是主觀的"事實,客觀的數據質量度量指標(如無效值的數量或者缺失數據元的百分比)可能與業務績效沒有必然聯系,進而引出以下值得關注的問題:

(1)如何區分高影響和低影響的數據質量問題?
(2)如何隔離數據缺陷的引入源,調整流程而不是糾正數據?
(3)如何建立業務價值與來源數據質量之間的關聯關系?
(4)利用數據質量的最佳實踐解決這些問題的最佳途徑是什么?

這些問題,可由數據質量期望與業務期望之間的基本差別來描述。

數據質量期望指數可以表達為測量數據有效性特征的規則

(1)什么數據是缺失的或不可用的
(2)那些數據值是沖突的
(3)哪些記錄是重復的
(4)缺失了哪些鏈接(Linkage)

業務目標期望指數表達為測量流程績效、生產效率的規則,如以下問題:

(1)錯誤如何導致生產率下降
(2)修改失敗流程花費時間所占的百分比
(3)因缺失數據導致的事務失敗造成的損失有多少
(4)如何能快速響應商業機會

然后,使用相關數據質量規則,測量其與業務期望指數是否符合,確定指出的業務問題是否與數據的使用有關,繼而測量低劣數據質量的業務影響,以及這些影響與其根源的關聯關系,從而將業務影響與數據的質量問題關聯起來,為衡量數據問題對業務的影響程度提供了框架。

數據問題可能發生在不同的業務流程中。分析低劣數據質量阻礙業務成功的程度,所使用的方法應包括:詳細描述業務影響,對這些影響分類,然后根據影響的嚴重程度對問題排序。但是,數據分析師通常不會精通、熟悉所有的業務場景,當遭遇陌生的業務場景問題時,如何對業務影響進行合理的分類評估就成了一問題。為解決這個問題,書中提出了一種對數據錯誤導致的業務影響進行分類的方法。

該分類方法試圖支持數據質量分析流程,并且幫助區分造成嚴重業務后果的數據問題和不嚴重的數據問題。該分析方案是一個簡單的分類系統,通過評價與數據錯誤相關的負面影響,或改進數據質量帶來的潛在機會,列出主要類別:

(1)對財務的影響,如增加了運營成本,降低了利潤,錯失了機會,縮小或延遲了現金流,或者增加了處罰、罰金或其他開支;
(2)對置信度和滿意度的影響,如客戶、員工或供應商的滿意度以及整個市場滿意度,下降了組織的信譽,低的預測置信度,不一致的運營與管理報表,厭惡的或者錯誤的決策;
(3)對生產率的影響,如增加了工作量,降低了產量,增加了處理時間,或者降低了最終產品質量;
(4)對與信用評級相關的風險與合規性的影響,包括投資風險,競爭風險,以及與資本有關的投資、開發、詐騙和泄密現象,還包括與正負規章、行業期望指數或者自愿接受的政策(如隱私政策)的合規性。

總結,書中通過對比數據質量期望與業務期望之間的匹配情況,可以實現將數據問題與業務影響關聯起來的目的;低劣數據對業務的影響也給出了簡單的分類方案;但是,針對“數據質量是什么”的問題,書中卻沒有進行論述,留待以后展開。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容