摘要:
隨著數(shù)據(jù)使用的不斷深入,業(yè)務(wù)分析的不斷完善,越來越多的數(shù)據(jù)需求開始爆發(fā)出來,傳統(tǒng)的數(shù)據(jù)倉庫已無法滿足大數(shù)據(jù)量下的快速查詢與分析響應(yīng)。如何減輕IT人員的數(shù)據(jù)處理工作,提高大數(shù)據(jù)分析的響應(yīng)時間與工作效率,甚至讓用戶可以自助分析數(shù)據(jù),成為了該券商一個急需重點關(guān)注的問題。通過搭建大數(shù)據(jù)平臺來存儲與處理日益增長的交易數(shù)據(jù),日志數(shù)據(jù),并結(jié)合KAP構(gòu)建多維分析模型,以滿足企業(yè)在超大規(guī)模數(shù)據(jù)集上獲得極速洞察的能力。
1. 公司及產(chǎn)品簡介
上海跬智信息技術(shù)有限公司(以下簡稱Kyligence)由Apache Kylin(第一個來自中國的Apache軟件基金會頂級開源項目)核心團(tuán)隊成員組建而成。作為領(lǐng)先的智能大數(shù)據(jù)分析平臺及解決方案供應(yīng)商,Kyligence專注于大數(shù)據(jù)分析領(lǐng)域創(chuàng)新,致力于進(jìn)一步推動Apache Kylin開源項目的發(fā)展和演進(jìn),拓展全球用戶社區(qū);提供基于Apache Kylin的下一代企業(yè)級數(shù)據(jù)倉庫及商務(wù)智能大數(shù)據(jù)分析平臺Kyligence Analytics Platform (以下簡稱KAP)。從私有部署到云計算平臺,KAP都能使用戶在超大規(guī)模數(shù)據(jù)集上獲得極速的交互式分析能力和洞察能力。
Apache Kylin是Hadoop生態(tài)的重要成員,是首個完全由中國團(tuán)隊貢獻(xiàn)和主導(dǎo)的Apache軟件基金會頂級開源項目。開源兩年來,Apache Kylin已經(jīng)被國內(nèi)外超過200家公司所使用,包括eBay、Yahoo、Expedia、百度、網(wǎng)易、京東、美團(tuán)、唯品會等國內(nèi)外大型互聯(lián)網(wǎng)公司,以及電信、金融、高端制造等傳統(tǒng)行業(yè)的領(lǐng)先企業(yè)。Kylin廣泛應(yīng)用于大數(shù)據(jù)分析平臺、OLAP多維分析、數(shù)據(jù)服務(wù)平臺、自助查詢平臺等多種大數(shù)據(jù)分析場景中。
Kyligence推出的大數(shù)據(jù)智能分析平臺KAP,是基于Apache Kylin的,在超大數(shù)據(jù)集上提供亞秒級分析能力的企業(yè)級大數(shù)據(jù)分析產(chǎn)品,定位于為業(yè)務(wù)用戶、分析師及工程師提供簡便、快捷的大數(shù)據(jù)分析工具和產(chǎn)品。在繼承Apache Kylin的超高性能、免編程開發(fā)、多協(xié)議支持、非侵入式部署等突出優(yōu)點的同時,KAP在企業(yè)用戶所關(guān)注的應(yīng)用場景豐富、實施效率、安全可控、存儲效率、性能優(yōu)化、自助式敏捷BI、系統(tǒng)監(jiān)控等方面進(jìn)行了全方位的完善和創(chuàng)新,被譽(yù)為目前最為成熟的OLAP on Hadoop產(chǎn)品。
2. 背景概述
我國證券交易以互聯(lián)網(wǎng)為主,隨著非現(xiàn)場開戶等政策出臺以及移動終端的普及,證券移動互聯(lián)網(wǎng)化發(fā)展迅猛,已經(jīng)成為各券商的主要發(fā)力方向。行業(yè)傭金率的不斷降低和一人一戶制度的取消,更是使得互聯(lián)網(wǎng)證券業(yè)務(wù)成為各券商開源節(jié)流、聚焦投資用戶、服務(wù)長尾用戶的有力手段和創(chuàng)新方向。
深度的用戶洞察和良好的用戶體驗是互聯(lián)網(wǎng)證券的核心競爭力。券商業(yè)務(wù)屬性天然適應(yīng)大數(shù)據(jù)概念,與其他產(chǎn)業(yè)相比,證券業(yè)的產(chǎn)品、服務(wù)與流程都能體現(xiàn)出充分的虛擬化特征,這一點與互聯(lián)網(wǎng)的基因完全適應(yīng)。多年積累形成了豐厚的數(shù)據(jù)資產(chǎn),但在大數(shù)據(jù)場景下,需要進(jìn)一步提升在數(shù)據(jù)處理、數(shù)據(jù)分析及數(shù)據(jù)挖掘等能力,充分利用海量用戶行為數(shù)據(jù),進(jìn)一步提升核心競爭力。
本案例中的券商是國內(nèi)最大綜合類證券公司之一,注冊資本60億元以上,經(jīng)營業(yè)績穩(wěn)居業(yè)內(nèi)前三,經(jīng)營管理、風(fēng)險控制、合規(guī)體系、信息技術(shù)等水平領(lǐng)先,是國內(nèi)最早開展各類創(chuàng)新業(yè)務(wù)的券商之一。憑借全方位的業(yè)務(wù)創(chuàng)新、服務(wù)創(chuàng)新和管理創(chuàng)新,成就了一系列市場第一。
伴隨著大量線上交易操作的完成,該證券企業(yè)的業(yè)務(wù)系統(tǒng)已經(jīng)積累了豐富的后臺數(shù)據(jù)和信息。如何了解客戶的交易習(xí)慣,掌握理財產(chǎn)品的銷售狀況,以及完善客戶畫像,識別潛在客戶成為了證券行業(yè)急切依賴大數(shù)據(jù)去解決和發(fā)現(xiàn)的問題。充分利用好這些數(shù)據(jù),將對業(yè)務(wù)的改進(jìn)和市場擴(kuò)展帶來極其重大的價值。
3. 案例概況
該券商大數(shù)據(jù)平臺的建設(shè)在企業(yè)內(nèi)部一直是不斷地規(guī)劃與完善當(dāng)中。從2014年至今,該證券行業(yè)標(biāo)桿企業(yè)已相繼完成了Hadoop基礎(chǔ)平臺搭建、數(shù)據(jù)接入與存儲等工作,并定義出了經(jīng)營分析、數(shù)據(jù)服務(wù)、戰(zhàn)略決策等幾個大的主題領(lǐng)域。然而,隨著數(shù)據(jù)使用的不斷深入,業(yè)務(wù)分析的不斷完善,越來越多的數(shù)據(jù)需求開始爆發(fā)出來,如何減輕IT人員的數(shù)據(jù)處理工作,提高大數(shù)據(jù)平臺的分析效率,甚至讓用戶可以自助分析數(shù)據(jù)成為了一個急需重點關(guān)注的問題。
在使用KAP之前,企業(yè)的大部分?jǐn)?shù)據(jù)都存儲在傳統(tǒng)的數(shù)據(jù)倉庫之上,Hadoop平臺也存儲了部分?jǐn)?shù)據(jù),但是由于缺少適合的分析工具,平臺之上的實際應(yīng)用相對較少。隨著數(shù)據(jù)量越來越多,在傳統(tǒng)的數(shù)倉中查詢分析響應(yīng)速度越來越慢,且不易于擴(kuò)展。特別是針對非重復(fù)計數(shù)等指標(biāo)的實時計算需求,在大數(shù)據(jù)量的記錄上更是無法滿足。
3.1??? 項目目標(biāo)
本期建設(shè)的營銷業(yè)務(wù)多維分析,通過使用大數(shù)據(jù)分析平臺,將超大規(guī)模數(shù)據(jù)集上的多維分析能力開放給分析人員,從集中式、專家式數(shù)據(jù)分析演進(jìn)到分布式、全民數(shù)據(jù)分析模式,人人成為數(shù)據(jù)分析師,以滿足企業(yè)在大數(shù)據(jù)場景下的超大數(shù)據(jù)量、多維度、高安全隔離條件下的分析能力。
本項目將充分發(fā)揮分布式大數(shù)據(jù)系統(tǒng)的優(yōu)勢,在存儲海量數(shù)據(jù)的同時提供極速的查詢和分析能力,通過數(shù)據(jù)模型進(jìn)一步支撐不同的業(yè)務(wù)分析需求,提高企業(yè)信息系統(tǒng)部門的分析決策能力,從而加速企業(yè)在大數(shù)據(jù)應(yīng)用場景的競爭力。
3.2??? 系統(tǒng)架構(gòu)
KAP作為OLAP on Hadoop的大數(shù)據(jù)分析引擎,通過將其搭建在企業(yè)已有的大數(shù)據(jù)平臺之上,成為Hadoop底層數(shù)據(jù)與用戶前端查詢之間的橋梁,能夠很好地減輕IT人員數(shù)據(jù)準(zhǔn)備的工作,提升平臺查詢性能,并滿足業(yè)務(wù)人員自助分析的需求。
由于該企業(yè)的大部分?jǐn)?shù)據(jù)分析工作一直還是基于傳統(tǒng)的MPP數(shù)據(jù)倉庫之上,一時難以全部遷移或替代。在IT演變與進(jìn)階的過程中,既需要考慮不影響已有的傳統(tǒng)數(shù)倉成熟應(yīng)用,又要不阻礙大數(shù)據(jù)平臺的建設(shè)步伐與發(fā)展,因此在第一階段采取了數(shù)據(jù)融合的架構(gòu)進(jìn)行該分析平臺的設(shè)計與搭建。
傳統(tǒng)數(shù)倉的數(shù)據(jù)繼續(xù)遵循原有的流程進(jìn)行處理與存儲,之后通過定時增量導(dǎo)出成文件的形式,進(jìn)行快速地批量加載到Hadoop平臺的Hive之上,以解決傳統(tǒng)數(shù)倉針對大數(shù)據(jù)分析能力不足的問題。
同時對于新產(chǎn)生的其它數(shù)據(jù),如APP埋點日志等,又可以將文件進(jìn)行簡單處理之后直接加載到Hadoop之上,并在Hive中通過創(chuàng)建外表進(jìn)行關(guān)聯(lián)與訪問,可便于后續(xù)在大數(shù)據(jù)平臺上直接分析應(yīng)用。
將KAP作為Hadoop之上的數(shù)據(jù)倉庫層,通過訪問Hive,對數(shù)據(jù)進(jìn)行自動化聚合與預(yù)計算處理,并提供對主流BI前端工具的直接訪問入口(支持ODBC, JDBC),方便最終用戶對數(shù)據(jù)進(jìn)行實時查詢與分析,并極大減輕了IT人員對Hadoop中各層聚合表的開發(fā)與管理工作。
同時,為了保證系統(tǒng)的高可用性和查詢高并發(fā)需求,在集群中部署2臺KAP查詢節(jié)點,并進(jìn)行負(fù)載均衡配置。
3.3??? 應(yīng)用場景
此項目在平臺上已完成了多個面向用戶和營銷分析的Cube構(gòu)建和應(yīng)用,包含潛在客戶分析、理財產(chǎn)品交易分析、客戶特征分析等業(yè)務(wù)主題。采用增量構(gòu)建的方式來接入每天新增的交易業(yè)務(wù)數(shù)據(jù),并進(jìn)行自動合并,所有的Cube構(gòu)建過程在1小時內(nèi)全部完成。其中最大的一個Cube包含30億以上的總記錄數(shù),以及60多個維度,整個Cube的容量為20T左右,通過一定地聚合優(yōu)化設(shè)置,平均查詢響應(yīng)時間低于3s。
業(yè)務(wù)人員通過使用前端BI工具KyAnalyzer或Tableau與KAP連接,可以直接訪問Cube中的數(shù)據(jù),自助快速地完成業(yè)務(wù)報表的創(chuàng)建與分享,極大地提高了工作效率,并減輕了IT人員對數(shù)據(jù)處理的繁重工作。另外,在安全方面,由于各營業(yè)部的信息需要互相隔離,同時對于不同業(yè)務(wù)范圍的用戶也需要進(jìn)行嚴(yán)格的權(quán)限控制。KAP的可配置權(quán)限管理功能能夠很好地在Cube級別,以及單一Cube內(nèi)實現(xiàn)數(shù)據(jù)行、列級別的權(quán)限控制,充分滿足了企業(yè)對數(shù)據(jù)管控的需求,以保證證券數(shù)據(jù)的高度安全性。
3.4??? 后續(xù)計劃
通過本次項目的實施,業(yè)務(wù)分析人員已開始體驗到大數(shù)據(jù)平臺上前所未有的數(shù)據(jù)分析時效與便捷性,并已開始規(guī)劃下一階段的新業(yè)務(wù)Cube需求。
另外,針對部分實時性要求較高的數(shù)據(jù),KAP支持從Kafka中進(jìn)行流式數(shù)據(jù)的直接讀取,并完成數(shù)據(jù)的分鐘級處理與更新。后續(xù)會將部分實時數(shù)據(jù)接入大數(shù)據(jù)平臺,并通過KAP進(jìn)行流數(shù)據(jù)的預(yù)計算構(gòu)建,以滿足業(yè)務(wù)人員對時效性更高的數(shù)據(jù)獲取與分析需求。
4. 項目價值
最初,企業(yè)在給業(yè)務(wù)用戶提供分析報表的時候,會根據(jù)報表的具體內(nèi)容,通過IT人員開發(fā)部分寬表或匯總表來滿足特定的查詢需求,以此來提高大數(shù)據(jù)量下的查詢響應(yīng)要求。由于業(yè)務(wù)需求不斷地變化,因此需要IT人員頻繁調(diào)整和重復(fù)開發(fā),另外隨著需求的增多,需要管理和維護(hù)的聚合表,匯總表也越來越多,大大增加了平臺復(fù)雜度與元數(shù)據(jù)管理的成本。
通過使用KAP來搭建企業(yè)的大數(shù)據(jù)平臺數(shù)據(jù)倉庫層,IT部門能夠通過可視化的界面來更方便地開發(fā)與管理Cube模型,并根據(jù)業(yè)務(wù)分析主題來設(shè)置維度與度量屬性,每一個Cube都可以滿足用戶在同一分析主題下對各種維度進(jìn)行任意組合的多種報表需求,極大簡化了后臺針對各種特定需求而二次開發(fā)的方式。同時,用戶僅通過拖放的操作便可以快速開發(fā)出自己需要的報表,不再需要通過IT人員反復(fù)修改代碼。大大縮短了數(shù)據(jù)到用戶的應(yīng)用過程,并降低了業(yè)務(wù)人員在大數(shù)據(jù)平臺上使用數(shù)據(jù)的門檻,使最終用戶可以直接面對授權(quán)內(nèi)的數(shù)據(jù)進(jìn)行自助探索與分析。
同時,數(shù)據(jù)分析在大數(shù)據(jù)平臺上的響應(yīng)效率也得到了極大的改善,對于百億條基礎(chǔ)數(shù)據(jù)的分析需求,90%的查詢能通過KAP在3秒內(nèi)返回結(jié)果,其中包括對千萬數(shù)量級記錄的非重復(fù)計數(shù),比在HIVE上直接查詢快百倍。
“KAP通過提供SQL的數(shù)據(jù)訪問方式,可以很方便地作為查詢引擎來使用,并給下游和前端提供數(shù)據(jù)。同時與大數(shù)據(jù)的平臺框架具有良好的兼容性,不需要調(diào)整當(dāng)前平臺上的工作流程,完整的可擴(kuò)展性滿足了企業(yè)大數(shù)據(jù)平臺的建設(shè)規(guī)劃。”
——信息技術(shù)部 大數(shù)據(jù)平臺總監(jiān)
?