永遠(yuǎn)在路上的數(shù)據(jù)質(zhì)量管理

? ? ? ?13年入行大數(shù)據(jù)開始,從熱點(diǎn)技術(shù),到架構(gòu)、再到技術(shù)體系、算法應(yīng)用、線上產(chǎn)品運(yùn)維,方方面面做了很多事情。經(jīng)過幾年的實(shí)戰(zhàn)經(jīng)驗(yàn),對(duì)數(shù)據(jù)應(yīng)用類系統(tǒng)“70%的精力在ETL”有了切身的體會(huì):對(duì)任何期望通過數(shù)據(jù)指導(dǎo)或者數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)而言,最重要的、最核心的競(jìng)爭(zhēng)力還是數(shù)據(jù)質(zhì)量。拋開準(zhǔn)確性、完整性、一致性、實(shí)效性談數(shù)據(jù)業(yè)務(wù),無異于沙地起廈,一句空話。所以,數(shù)據(jù)質(zhì)量管理應(yīng)該是數(shù)據(jù)團(tuán)隊(duì)的核心工作,可以說其是生命線也不為過。

? ? ? ? 管理是一件很細(xì)碎的活,管理要求流程化、規(guī)范化,對(duì)具有浪漫主義情懷的新派互聯(lián)網(wǎng)工程師來說,確實(shí)不是一件有意思的事情,這里推薦一本工具書《數(shù)據(jù)質(zhì)量征途》,其中有一段話做了非常切實(shí)的描述:

每一個(gè)組織都希望自己擁有高質(zhì)量的數(shù)據(jù),但是常常不知道如何實(shí)現(xiàn)這個(gè)目標(biāo)。一類常見的做法是開發(fā)一個(gè)新系統(tǒng)來取代舊系統(tǒng),然而常常會(huì)在實(shí)施之后立即后悔。這是因?yàn)楣緦?shí)施此類方案時(shí),總是重建一套全新的系統(tǒng),卻很少在第一時(shí)間考慮原系統(tǒng)存在困難的真正原因--數(shù)據(jù)質(zhì)量問題。比如信息系統(tǒng)部門往往熱衷于使用最新的技術(shù),開發(fā)更流行或更常見的軟、硬件解決方案,我們將這種方法稱為系統(tǒng)驅(qū)動(dòng)型解決方案。此時(shí),公司采取的方案的真實(shí)目標(biāo)退化為開發(fā)新系統(tǒng),而非修正數(shù)據(jù)質(zhì)量問題以提供高質(zhì)量的數(shù)據(jù)。顯然,這種舍本逐末的新系統(tǒng)非但不能解決原有問題,而且很有可能加劇數(shù)據(jù)質(zhì)量問題。即使某個(gè)解決方案偶爾會(huì)有成效,通常真正造成問題的原因卻更容易被掩蓋或進(jìn)一步隱藏。

? ? ? ? 多數(shù)的數(shù)據(jù)從業(yè)者應(yīng)該都會(huì)對(duì)這段話的產(chǎn)生共鳴。數(shù)據(jù)質(zhì)量的管理問題,與軟件質(zhì)量、項(xiàng)目質(zhì)量的管理本質(zhì)一樣,市面上無數(shù)的項(xiàng)目管理的理論和書籍,從來沒有誰提出可用依靠技術(shù)升級(jí)來解決項(xiàng)目質(zhì)量問題,或許技術(shù)能夠提升項(xiàng)目管理的效率,但是一味追求技術(shù)無疑是舍本逐末。指導(dǎo)軟件系統(tǒng)開發(fā)過程管理的方法論有CMMI、Scrum等,在數(shù)據(jù)質(zhì)量管理領(lǐng)域,實(shí)際上近年來也已經(jīng)有成體系的方法論了,比如同屬CMMI Institute旗下的Data Management Maturity (DMM), 以及國(guó)內(nèi)官方正在推的《數(shù)據(jù)能力成熟度評(píng)價(jià)模型》,由中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院牽頭,拉了一些企業(yè)、銀行在制定推廣,傾向于敏捷的也有Linstedt和Inmon推的Data Vault,有興趣的同學(xué)可以自行搜索研究。當(dāng)然,所有這些理論、方法、模型都承認(rèn)數(shù)據(jù)質(zhì)量管理是一個(gè)過程,只要業(yè)務(wù)還在運(yùn)轉(zhuǎn),數(shù)據(jù)質(zhì)量相關(guān)的工作就必須要繼續(xù)。

? ? ? ? 對(duì)中小型公司,特別是互聯(lián)網(wǎng)行業(yè)的團(tuán)隊(duì)而言,考慮到項(xiàng)目周期、成本、投資回報(bào)、人員流動(dòng)等各種因素,要照搬上述的大部頭理論并不實(shí)際。不過如果期望能夠?qū)?shù)據(jù)質(zhì)量進(jìn)行管理并持續(xù)改進(jìn),工作的核心原則應(yīng)該是一致的:

灌輸持續(xù)管理的態(tài)度;建立數(shù)據(jù)應(yīng)用業(yè)務(wù)模型,明確數(shù)據(jù)質(zhì)量的指標(biāo),包括:準(zhǔn)確性、完整性、全面性、一致性、實(shí)效性等等;通過工作不斷優(yōu)化上述指標(biāo);

? ? ? ? 這里首先提到態(tài)度,有兩層意思:

? ? ? ? 1、需要在公司層面認(rèn)識(shí)到數(shù)據(jù)質(zhì)量管理很重要。實(shí)際上目前多數(shù)公司要明確認(rèn)識(shí)到這一點(diǎn)并不容易,在進(jìn)入大數(shù)據(jù)時(shí)代之前,數(shù)據(jù)只是多數(shù)公司的附屬產(chǎn)物,數(shù)據(jù)分析更多的傾向于戰(zhàn)略、政策等宏觀層面,公司領(lǐng)導(dǎo)層對(duì)數(shù)據(jù)工作的印象更多的是一周或者一個(gè)月一次的周報(bào)、月報(bào),這種情境下業(yè)務(wù)人員對(duì)指標(biāo)浮動(dòng)的容忍度比較高,因?yàn)椤安蓸印薄ⅰ案怕省薄ⅰ摆厔?shì)”這些概念深入人心,人們會(huì)傾向于認(rèn)可某些環(huán)節(jié)出問題會(huì)影響數(shù)據(jù)質(zhì)量,只要處理得當(dāng)并合理控制,就不會(huì)影響最終的統(tǒng)計(jì)結(jié)果和決策。大數(shù)據(jù)技術(shù)的推動(dòng),使得大部分公司全面使用數(shù)據(jù)構(gòu)建BI系統(tǒng)成為現(xiàn)實(shí),這時(shí),數(shù)據(jù)應(yīng)用業(yè)務(wù)就已經(jīng)具體而微了,例如廣告投放、進(jìn)銷存、ROI經(jīng)營(yíng)等都對(duì)數(shù)據(jù)的準(zhǔn)確性、實(shí)效性要求極高,各級(jí)業(yè)務(wù)人員對(duì)數(shù)據(jù)變化的敏感度顯著提高,顯然數(shù)據(jù)質(zhì)量管理的級(jí)別就必須要提升到相應(yīng)的標(biāo)準(zhǔn),仍然把數(shù)據(jù)當(dāng)做附屬產(chǎn)品會(huì)帶來相當(dāng)負(fù)面的影響。

? ? ? ?2、要有持續(xù)管理的認(rèn)知。這里需要談一下數(shù)據(jù)團(tuán)隊(duì)與業(yè)務(wù)系統(tǒng)研發(fā)團(tuán)隊(duì)在開發(fā)工作上的區(qū)別,傳統(tǒng)的業(yè)務(wù)系統(tǒng)研發(fā),是從產(chǎn)品經(jīng)理手中拿到產(chǎn)品需求,在一個(gè)迭代周期內(nèi)不傾向于更改需求,下一個(gè)版本的需求有它的排期和計(jì)劃,這個(gè)套路已經(jīng)玩的很深并且著實(shí)有效。但是數(shù)據(jù)團(tuán)隊(duì)的工作顯然還沒有實(shí)踐出這樣的工作模式,除了明確的數(shù)據(jù)產(chǎn)品需求外,數(shù)據(jù)團(tuán)隊(duì)更多的是需要承接隨機(jī)分析、業(yè)務(wù)變化引起的不可預(yù)知的數(shù)據(jù)變化、數(shù)據(jù)源版本變化、人工填報(bào)錯(cuò)誤排查,以及相應(yīng)的數(shù)據(jù)修復(fù)等工作,也就是大名鼎鼎的“70%在ETL”原理。顯然數(shù)據(jù)團(tuán)隊(duì)的很多工作是無法提前計(jì)劃的(或者說絕大部分公司還無法提供這么大的財(cái)力去支持?jǐn)?shù)據(jù)團(tuán)隊(duì)做所有數(shù)據(jù)源的需求管理、版本控制、測(cè)試),這樣的特質(zhì)使得數(shù)據(jù)質(zhì)量管理更需要連續(xù)性,而非周期性。

? ? ? ? 一言以蔽之,就是:“數(shù)據(jù)質(zhì)量管理永遠(yuǎn)在路上”,只有認(rèn)真的思考并且明確這樣的態(tài)度,才能明確技術(shù)架構(gòu)、組織結(jié)構(gòu)、管理體系的設(shè)計(jì)原則,并持續(xù)改進(jìn)。一些需要考慮的重要原則包括:

? ? ? ?1、任何數(shù)據(jù)質(zhì)量問題,不能寄希望于“畢其功于一役”,而是應(yīng)當(dāng)換而考慮針對(duì)數(shù)據(jù)源和目標(biāo)數(shù)據(jù)集建立起“監(jiān)控、反饋、自助糾錯(cuò)”的自動(dòng)化流程,并不斷添加規(guī)則進(jìn)行優(yōu)化,以最小化人工排查修復(fù)的工作量為目標(biāo)。

? ? ? ?2、數(shù)據(jù)團(tuán)隊(duì)的組織中,需要明確具有帶“數(shù)據(jù)治理”職能的崗位,例如ETL工程師、數(shù)據(jù)倉庫工程師等。對(duì)數(shù)據(jù)治理職能的工作考核,一定要考慮采用明確的數(shù)據(jù)質(zhì)量?jī)?yōu)化目標(biāo)作為KPI,否則容易導(dǎo)致工作過于發(fā)散無目標(biāo),淪為“分析師助理”、“數(shù)據(jù)系統(tǒng)管理員”。

? ? ? ?3、工作中需要面對(duì)無計(jì)劃的持續(xù)變化,并且需求點(diǎn)細(xì)碎而不復(fù)雜。對(duì)小團(tuán)隊(duì)而言,在技術(shù)選型、系統(tǒng)架構(gòu)、數(shù)據(jù)架構(gòu)乃至庫表設(shè)計(jì)等方面,需要重點(diǎn)考慮穩(wěn)定和非穩(wěn)定業(yè)務(wù)內(nèi)容的分離,非穩(wěn)定業(yè)務(wù)的實(shí)現(xiàn)方式應(yīng)支持快速開發(fā)、易于修改。

? ? ? ?4、正視反復(fù)修正等枯燥工作帶來的團(tuán)隊(duì)成員心態(tài)問題并做有效管理,實(shí)際如果認(rèn)識(shí)到這個(gè)問題,解決并不困難。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容