大數(shù)據(jù)從提出概念到四處開花,已經(jīng)歷10年,還未涉足大數(shù)據(jù)領(lǐng)域的企業(yè)在焦慮:如何涉足大數(shù)據(jù)。而已經(jīng)開展大數(shù)據(jù)工作的企業(yè)也在焦慮:我現(xiàn)在有哪些數(shù)據(jù),都存在哪兒?從各個(gè)業(yè)務(wù)系統(tǒng)收集的大量數(shù)據(jù),應(yīng)該選什么存儲(chǔ)方式?數(shù)據(jù)口徑不一致、數(shù)據(jù)質(zhì)量不高的問題如何破解?當(dāng)前數(shù)據(jù)處理流程冗長,如何快速支撐上層應(yīng)用請(qǐng)求……概括起來,就是如何管理好大數(shù)據(jù),真正挖掘出數(shù)據(jù)的價(jià)值。數(shù)據(jù)中臺(tái),或許是化解大數(shù)據(jù)行業(yè)集體焦慮癥的一劑良丹妙藥。
數(shù)據(jù)中臺(tái)的價(jià)值:核心能力開放與共享
筆者提出一種理想中的數(shù)據(jù)中臺(tái)架構(gòu),其簡圖如圖1所示。一個(gè)完善的數(shù)據(jù)中臺(tái),既不限于數(shù)據(jù)倉庫的范圍,也不是全部的大數(shù)據(jù)平臺(tái),更不是簡單對(duì)數(shù)據(jù)治理系統(tǒng)的升級(jí)。它包括了數(shù)據(jù)的采集交換、計(jì)算存儲(chǔ)、治理管控和服務(wù)應(yīng)用于一體,在大數(shù)據(jù)應(yīng)用過程中處于承上啟下的位置。
企業(yè)建設(shè)數(shù)據(jù)中臺(tái),最大的作用就在于實(shí)現(xiàn)了底層數(shù)據(jù)和前端業(yè)務(wù)需求的解耦,避免信息化建設(shè)過程中形成一個(gè)個(gè)數(shù)據(jù)孤島或豎井式系統(tǒng),有利于企業(yè)更高效完成數(shù)據(jù)采集和準(zhǔn)備過程,更快響應(yīng)前端業(yè)務(wù)需求。
建設(shè)數(shù)據(jù)中臺(tái),并不是簡單的搭建一個(gè)新的大數(shù)據(jù)平臺(tái)或大數(shù)據(jù)處理系統(tǒng),而在于以數(shù)據(jù)為中心,以抽取、提煉、優(yōu)化加上新建的方式,構(gòu)建一系列公共的大數(shù)據(jù)技術(shù)組件,按照統(tǒng)一的處理邏輯,形成各種基于數(shù)據(jù)的服務(wù)能力,對(duì)外開放和共享,服務(wù)于個(gè)性化、變化快的各類業(yè)務(wù)需求,驅(qū)動(dòng)企業(yè)商業(yè)服務(wù)得到更好創(chuàng)新發(fā)展。對(duì)于建設(shè)數(shù)據(jù)中臺(tái)過程中形成的這些大數(shù)據(jù)服務(wù)能力,經(jīng)過不斷的抽象、沉淀和優(yōu)化,最終成為了企業(yè)開展大數(shù)據(jù)工作中最核心的能力。因此可以說,數(shù)據(jù)中臺(tái)對(duì)于企業(yè)的價(jià)值,就是為了實(shí)現(xiàn)核心能力的開放與共享。
數(shù)據(jù)中臺(tái)應(yīng)當(dāng)具備的核心技術(shù)特性
如果把企業(yè)開展大數(shù)據(jù)相關(guān)工作比如建造一座房子,建設(shè)大數(shù)據(jù)平臺(tái)就好比是自建或購買蓋房子所用的各種工具,以及房子的整個(gè)建造和裝修過程,其中用到的磚頭、沙子、水泥、電線、插板等建筑原材料就是數(shù)據(jù),而數(shù)據(jù)中臺(tái)側(cè)重于定義了整個(gè)工程中的藍(lán)圖、規(guī)劃、架構(gòu)、工序、設(shè)計(jì)、制度、流程、約束,同時(shí)還提供一個(gè)個(gè)模塊化的建造組件,如木制成品、鋁合金門窗、成品家具電器等。
業(yè)界從建設(shè)大數(shù)據(jù)平臺(tái)熱潮到重視數(shù)據(jù)中臺(tái)戰(zhàn)略,實(shí)際上是一種從“技術(shù)優(yōu)先”到“數(shù)據(jù)優(yōu)先”思維的轉(zhuǎn)變。面對(duì)大數(shù)據(jù),大數(shù)據(jù)平臺(tái)強(qiáng)調(diào)的是技術(shù)實(shí)現(xiàn)和平臺(tái)能力構(gòu)建,而數(shù)據(jù)中臺(tái)更側(cè)重于全局規(guī)劃與數(shù)據(jù)賦能業(yè)務(wù)。數(shù)據(jù)中臺(tái)的建設(shè),需要基于大數(shù)據(jù)平臺(tái)能力,數(shù)據(jù)中臺(tái)作為大數(shù)據(jù)平臺(tái)的中樞,以及企業(yè)開展大數(shù)據(jù)管理工作的重要抓手,應(yīng)當(dāng)具備以下四個(gè)核心技術(shù)特性。
第一、大數(shù)據(jù)采集、計(jì)算、存儲(chǔ)等基礎(chǔ)能力共享,提高數(shù)據(jù)應(yīng)用效率。數(shù)據(jù)中臺(tái)戰(zhàn)略提出之前,大數(shù)據(jù)應(yīng)用往往都是采用煙囪式開發(fā)模式,一個(gè)新的項(xiàng)目啟動(dòng),從數(shù)據(jù)的采集、計(jì)算、存儲(chǔ)到應(yīng)用的業(yè)務(wù)邏輯、前端界面、服務(wù)接口開發(fā),都是緊耦合或只有部分模塊可復(fù)用的。這些諸多環(huán)節(jié)的IT能力無法有效復(fù)用和共享,不但導(dǎo)致重復(fù)建設(shè),由于只服務(wù)于本項(xiàng)目需求,項(xiàng)目結(jié)束,往往就會(huì)被廢棄掉,也造成了極大資源浪費(fèi)。基礎(chǔ)能力缺乏共享,受影響的還包括需求響應(yīng)不及時(shí)、數(shù)據(jù)應(yīng)用效率低下。可以說,數(shù)據(jù)中臺(tái)就是為了大數(shù)據(jù)基礎(chǔ)能力共享而生。
第二、統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)模型和元數(shù)據(jù)管理能力,支持大數(shù)據(jù)對(duì)內(nèi)對(duì)外服務(wù)。建設(shè)數(shù)據(jù)中臺(tái)的意義還在于統(tǒng)一管理數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)模型和元數(shù)據(jù),為大數(shù)據(jù)應(yīng)用提供口徑一致的、可理解的數(shù)據(jù),企業(yè)基于大數(shù)據(jù)的應(yīng)用和分析才更準(zhǔn)確和有效。特別是在智能化應(yīng)用場景下,數(shù)據(jù)中臺(tái)的助力能幫助數(shù)據(jù)分析師快速理解數(shù)據(jù),縮短數(shù)據(jù)準(zhǔn)備過程,為算法模型的訓(xùn)練和發(fā)布快速提供可解釋、高可用的“基礎(chǔ)原料”,提高算法模型構(gòu)建效率,提升智能化應(yīng)用對(duì)業(yè)務(wù)發(fā)展情況預(yù)測的準(zhǔn)確性。企業(yè)借助數(shù)據(jù)中臺(tái),保證了數(shù)據(jù)的可獲取、可管理、可理解,才能夠真正有效地挖掘出大數(shù)據(jù)的價(jià)值,對(duì)外提高競爭力。
第三、強(qiáng)化數(shù)據(jù)質(zhì)量稽核能力,準(zhǔn)確發(fā)現(xiàn)業(yè)務(wù)異動(dòng)和各類數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)中臺(tái)戰(zhàn)略的一個(gè)重要成功要素就是保證數(shù)據(jù)準(zhǔn)確性、一致性和完整性,數(shù)據(jù)治理的最重要的目標(biāo)可以認(rèn)為就是為了保證數(shù)據(jù)的質(zhì)量。數(shù)據(jù)中臺(tái)建設(shè)中,加強(qiáng)數(shù)據(jù)質(zhì)量核查能力尤其重要,在傳統(tǒng)數(shù)據(jù)質(zhì)量管理方式下,一般會(huì)通過制定數(shù)據(jù)質(zhì)量規(guī)則,實(shí)現(xiàn)軟件工具支撐下的數(shù)據(jù)合法性校驗(yàn)、數(shù)據(jù)質(zhì)量問題監(jiān)控、數(shù)據(jù)質(zhì)量分析報(bào)告等功能,以實(shí)現(xiàn)企業(yè)數(shù)據(jù)質(zhì)量改進(jìn)提升。在AI大行其道的今天,越來越多的企業(yè)開始借助機(jī)器學(xué)習(xí)算法,通過對(duì)歷史數(shù)據(jù)進(jìn)行訓(xùn)練和優(yōu)化,將算法模型固化到數(shù)據(jù)質(zhì)量核查系統(tǒng)中,實(shí)現(xiàn)對(duì)業(yè)務(wù)數(shù)據(jù)的智能化核查,準(zhǔn)確發(fā)現(xiàn)業(yè)務(wù)異動(dòng)和各類數(shù)據(jù)質(zhì)量問題,數(shù)據(jù)問題一旦出現(xiàn)就及時(shí)通知管理人員給予重視和治理。
第四、大數(shù)據(jù)服務(wù)能力平臺(tái)化、云化、流程化,支撐大數(shù)據(jù)應(yīng)用敏捷開發(fā),快速響應(yīng)業(yè)務(wù)需求。數(shù)據(jù)中臺(tái)最終目標(biāo)是為上層應(yīng)用開放大數(shù)據(jù)服務(wù)能力,開放的目的是為了規(guī)避煙囪式的應(yīng)用建設(shè)開發(fā),滿足不同應(yīng)用對(duì)數(shù)據(jù)的需求,常見的服務(wù)能力開放模式有PaaS模式(平臺(tái)即服務(wù))和SaaS模式(軟件即服務(wù)),業(yè)界還有一種衍生的提法叫DaaS模式(數(shù)據(jù)即服務(wù),指對(duì)應(yīng)用屏蔽不同數(shù)據(jù)來源,以集中化的方式對(duì)數(shù)據(jù)加工處理,如數(shù)據(jù)集成、質(zhì)量稽核、清洗轉(zhuǎn)換等,之后再將處理后數(shù)據(jù)提供給數(shù)據(jù)需求方),也可以以更小粒度來開放大數(shù)據(jù)服務(wù)能力,如API、FTP、數(shù)據(jù)庫接口、WebService接口、Rest接口、Message服務(wù)等。同時(shí),在數(shù)據(jù)中臺(tái)內(nèi)部,分解不同數(shù)據(jù)加工服務(wù),以流程化方式串接,開發(fā)人員能夠快速響應(yīng)新的大數(shù)據(jù)需求,完成應(yīng)用開發(fā)、部署和上線。
綜上,四個(gè)核心技術(shù)特性總結(jié)起來就是:共享基礎(chǔ)設(shè)施,統(tǒng)一數(shù)據(jù)管控,強(qiáng)化數(shù)據(jù)質(zhì)量,開放服務(wù)能力。這些技術(shù)特性的結(jié)合,可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的全生命周期管理,降低人員技能要求,提高數(shù)據(jù)準(zhǔn)備效率,讓數(shù)據(jù)中臺(tái)發(fā)揮中間橋梁作用,與底層基礎(chǔ)數(shù)據(jù)和上層應(yīng)用需求完美銜接,形成一個(gè)良性的大數(shù)據(jù)閉環(huán)生態(tài)體系。
數(shù)據(jù)中臺(tái)支撐企業(yè)大數(shù)據(jù)發(fā)展戰(zhàn)略落地
越來越多的大型企業(yè)開始制定自己的大數(shù)據(jù)發(fā)展戰(zhàn)略,其核心訴求就是利用好大數(shù)據(jù)資源,驅(qū)動(dòng)業(yè)務(wù)發(fā)展和創(chuàng)新,提高企業(yè)在互聯(lián)網(wǎng)時(shí)代的競爭力。一般來說,企業(yè)落實(shí)大數(shù)據(jù)發(fā)展戰(zhàn)略需要經(jīng)歷以下四個(gè)階段:
第一階段,數(shù)據(jù)平臺(tái)建設(shè)。在大數(shù)據(jù)的概念產(chǎn)生之前,業(yè)界用于存儲(chǔ)數(shù)據(jù)的平臺(tái),包括了文件服務(wù)器、數(shù)據(jù)庫(DB)、數(shù)據(jù)倉庫(DW)、數(shù)據(jù)集市(DM)、操作型數(shù)據(jù)存儲(chǔ)庫(ODS)等。在探索對(duì)基礎(chǔ)數(shù)據(jù)平臺(tái)建設(shè)的過程中,隨著數(shù)據(jù)處理技術(shù)的發(fā)展,以及數(shù)據(jù)存儲(chǔ)成本的降低,企業(yè)內(nèi)部各業(yè)務(wù)系統(tǒng)不同應(yīng)用場景下采集的數(shù)據(jù)類型日趨多樣化,結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化、4V(規(guī)模性、多樣性、高速性和價(jià)值性)等概念不斷提出,為了解決數(shù)據(jù)集中化計(jì)算和存儲(chǔ)問題,大數(shù)據(jù)平臺(tái)應(yīng)運(yùn)而生。大數(shù)據(jù)平臺(tái)涵蓋了各類數(shù)據(jù)采集、計(jì)算和存儲(chǔ)系統(tǒng),主要作用在于打通企業(yè)內(nèi)部數(shù)據(jù)孤島,整合各專業(yè)條線現(xiàn)有的系統(tǒng)和數(shù)據(jù)資源,形成統(tǒng)一化數(shù)據(jù)平臺(tái),實(shí)現(xiàn)企業(yè)的數(shù)據(jù)資源集中管理和共享。
第二階段,數(shù)據(jù)資產(chǎn)管理。數(shù)據(jù)平臺(tái)搭建完畢后,要考慮到多種類型數(shù)據(jù)資源統(tǒng)一管理的問題,數(shù)據(jù)治理或數(shù)據(jù)資產(chǎn)管理的理念開始提上日程,對(duì)企業(yè)生產(chǎn)經(jīng)營和發(fā)展創(chuàng)新最為重要的數(shù)據(jù)資源被定義為數(shù)據(jù)資產(chǎn),實(shí)施有效的數(shù)據(jù)資產(chǎn)管理活動(dòng)是數(shù)據(jù)資源轉(zhuǎn)化為數(shù)據(jù)資產(chǎn)的關(guān)鍵。數(shù)據(jù)資產(chǎn)管理的目的主要在于解決數(shù)據(jù)集成過程中,由于數(shù)據(jù)來源不統(tǒng)一、數(shù)據(jù)口徑不一致、數(shù)據(jù)模型不規(guī)范等問題,導(dǎo)致的數(shù)據(jù)不準(zhǔn)確、不完整、不及時(shí)等數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)資產(chǎn)管理階段需要通過開展一系列數(shù)據(jù)管理活動(dòng),包括數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)模型管理、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全管理等,對(duì)數(shù)據(jù)平臺(tái)上的核心數(shù)據(jù)資產(chǎn)實(shí)現(xiàn)全生命周期管理,目的在于理清數(shù)據(jù)資產(chǎn)分布,降低數(shù)據(jù)獲取成本,深度挖掘數(shù)據(jù)價(jià)值。
第三階段,數(shù)據(jù)驅(qū)動(dòng)運(yùn)營。繼第一階段建設(shè)大數(shù)據(jù)平臺(tái),第二階段管理大數(shù)據(jù)資產(chǎn)之后,是數(shù)據(jù)驅(qū)動(dòng)企業(yè)業(yè)務(wù)運(yùn)營和創(chuàng)新發(fā)展的階段。在過去很長的時(shí)間里,“重建設(shè)、輕運(yùn)營”一直是大多數(shù)企業(yè)信息化工作的常態(tài),新項(xiàng)目紛紛上馬,舊系統(tǒng)缺人維護(hù),項(xiàng)目建設(shè)成果重用度低,很多項(xiàng)目都是“一次性”工程,缺乏持續(xù)性運(yùn)營,不能充分發(fā)揮大數(shù)據(jù)價(jià)值。在第三個(gè)階段里,數(shù)據(jù)中臺(tái)概念開始提出,與大數(shù)據(jù)平臺(tái)側(cè)重底層計(jì)算和存儲(chǔ)的基礎(chǔ)設(shè)施建設(shè)不同,規(guī)劃數(shù)據(jù)中臺(tái)的核心在于幫助企業(yè)構(gòu)建自身的數(shù)據(jù)價(jià)值體系。利用數(shù)據(jù)中臺(tái),企業(yè)能夠以數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)行新業(yè)務(wù)運(yùn)營模式的探索,挖掘數(shù)據(jù)價(jià)值,提升運(yùn)營效率,輔助業(yè)務(wù)創(chuàng)新和管理決策,逐步構(gòu)建起從數(shù)據(jù)資源采集、數(shù)據(jù)資產(chǎn)管理到數(shù)據(jù)運(yùn)營和應(yīng)用的全鏈路數(shù)據(jù)生態(tài)環(huán)境。
第四階段,數(shù)據(jù)智能服務(wù)。最后一個(gè)階段,目標(biāo)是基于數(shù)據(jù)中臺(tái),開發(fā)數(shù)據(jù)智能服務(wù)。大數(shù)據(jù)為人工智能發(fā)展提供了基礎(chǔ)資源,人工智能技術(shù)的核心就在于通過計(jì)算找尋大數(shù)據(jù)中的規(guī)律,對(duì)具體場景問題進(jìn)行預(yù)測和判斷。但目前在實(shí)際應(yīng)用中,數(shù)據(jù)流通不暢、數(shù)據(jù)質(zhì)量不高和數(shù)據(jù)安全風(fēng)險(xiǎn)等問題仍然極大制約著人工智能的發(fā)展和應(yīng)用。現(xiàn)在,基于數(shù)據(jù)中臺(tái)的計(jì)算存儲(chǔ)和數(shù)據(jù)治理能力,就可以通過大規(guī)模機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù),對(duì)海量數(shù)據(jù)進(jìn)行處理、分析和挖掘,提取數(shù)據(jù)中所包含的有價(jià)值的信息和知識(shí),使數(shù)據(jù)具有“智能”,并通過建立模型尋求現(xiàn)有問題的解決方案以及實(shí)現(xiàn)預(yù)測等,為企業(yè)提供基于大數(shù)據(jù)的分析、建議、優(yōu)化、決策等智能化服務(wù)。
綜上可以看出,數(shù)據(jù)中臺(tái)在第三個(gè)階段被正式提出,成為數(shù)據(jù)運(yùn)營和智能服務(wù)的基礎(chǔ)。數(shù)據(jù)中臺(tái)的核心是數(shù)據(jù),其對(duì)企業(yè)大數(shù)據(jù)戰(zhàn)略的支撐作用主要在于實(shí)現(xiàn)數(shù)據(jù)和業(yè)務(wù)的解耦,沉淀和提煉公共可復(fù)用的數(shù)據(jù)服務(wù)能力,通過對(duì)數(shù)據(jù)的封裝和開放,能夠快速、靈活滿足上層應(yīng)用的需求。
結(jié)語
在當(dāng)今互聯(lián)網(wǎng)時(shí)代,企業(yè)為了快速響應(yīng)用戶的需求,借助大數(shù)據(jù)的力量往往可以事半功倍。大數(shù)據(jù)的數(shù)據(jù)量大、維度多、數(shù)據(jù)完備等特點(diǎn),使得它從采集到存儲(chǔ)、應(yīng)用,都與過去的數(shù)據(jù)處理方法存在很大不同,因此,要使用好大數(shù)據(jù),也需要在技術(shù)和思維上采用和過去不同的方式。數(shù)據(jù)中臺(tái)理念的提出,能有效降低企業(yè)使用大數(shù)據(jù)的門檻,提高大數(shù)據(jù)應(yīng)用效率,有利于企業(yè)管理好生產(chǎn)經(jīng)營過程中積累的大量數(shù)據(jù)資產(chǎn),挖掘大數(shù)據(jù)價(jià)值紅利,將大數(shù)據(jù)資源更加聚焦在實(shí)現(xiàn)業(yè)務(wù)價(jià)值的目標(biāo)上,助力企業(yè)將大數(shù)據(jù)發(fā)展戰(zhàn)略真正落到實(shí)處。