####[美團]大數據平臺架構實踐

美團的大數據平臺架構實踐 - 知乎專欄
https://zhuanlan.zhihu.com/p/26359613

image.png
image.png
image.png

本文將介紹美團大數據平臺的架構實踐,原文是美團大數據構建平臺架構師謝語宸在一次大會上的分享。文章分享了構建大數據平臺的方法,以及各種各樣的技術應用,希望能給大家一些關于大數據方面的啟迪。
1.****美團大數據平臺的架構
1.1****總體架構

1.2****數據流架構
下面我以數據流的架構角度介紹一下整個美團數據平臺的架構,最左邊首先從業務流到平臺,分別到實時計算,離線數據。
最下面支撐這一系列的有一個數據開發的平臺,這張圖比較細,這是詳細的整體數據流架構圖。包括最左邊是數據接入,上面是流式計算,然后是Hadoop離線計算。
將上圖左上角擴大來看,首先是數據接入與流式計算,電商系統產生數據分兩個場景,一個是追加型的日志型數據,另外是關系型數據的維度數據。對于前一種是使用Flume比較標準化的大家都在用的日志收集系統,最近使用了阿里開源的Canal,之后有三個下游,所有的流式數據都是走Kafka這套流走的。
數據收集特性:
對于數據收集平臺,日志數據是多接口的,可以打到文件里觀察文件,也可以更新數據庫表。關系型數據庫是基于Binlog獲取增量的,如果做數據倉庫的話有大量的關系型數據庫,有一些變更沒法發現等情況,可以通過Binlog手段可以解決。通過一個Kafka消息隊列集中化分發支持下游,目前支持了850以上的日志類型,峰值每秒有百萬介入。
流式計算平臺特性:
構建流式計算平臺的時候充分考慮了開發的復雜度,基于Storm。有一個在線的開發平臺,測試開發過程都在在線平臺上做,提供一個相當于對Storm應用場景的封裝,有一個拓撲開發框架,因為是流式計算,我們也做了延遲統計和報警,現在支持1100以上的實時拓撲,秒級實時數據流延遲。這上面可以配置公司內部定的某個參數,某個代碼,可以在平臺上編譯有調試。
離線計算是基于Hadoop的數據倉庫數據應用,主要是展示了對數據倉庫分成的規劃,包括原始數據接入,到核心數據倉庫的基礎層,包括事實和衍生事實,維度表橫跨了聚合的結果,最右邊提供了數據應用:一些挖掘和使用場景,上面是各個業務線自建的需求報表和分析庫。
這幅圖是離線數據平臺的部署架構圖,最下面是三個基礎服務,包括Yarn、HDFS、HiveMeta。不同的計算場景提供不同的計算引擎支持。如果是新建的公司,其實這里是有一些架構選型的。Cloud Table是自己做的HBase分裝封口。我們使用Hive構建數據倉庫,用Spark在數據挖掘和機器學習,Presto支持Adhoc上查詢,也可能寫一些復雜的SQL。對應關系這里Presto沒有部署到Yarn,跟Yarn是同步的,Spark是on Yarn跑。
離線計算平臺特性:
目前42P+總存儲量,每天有15萬個Mapreduce和Spark任務,有2500+節點,支持3機房部署,數據庫總共16K個數據表,復雜度還是比較高的。
1.3****數據管理體系
數據管理體系特性:
數據管理體系主要包括自研的調配系統,數據質量的監控,資源管理和任務審核以及開發配置中心等等,之后這些都會整合到整個的數據開放平臺。
數據管理體系主要實現了這樣幾點功能,
第一點是基于SQL解析做了ETL任務之間的自動解析。
基于資源預留的模式做了各業務線成本的核算,整體的資源大體是跑到Yarn上的,每個業務線會有一些承諾資源、保證資源,還可以彈性伸縮,里面會有一些預算。
工作的重點,對于關鍵性任務會注冊SLA保障,并且包括數據內容質量,數據時效性內容都有一定的監控。
這是解析出來的依賴關系,紅色的是展示的一條任務,有一系列的上游。這是我們的資源管理系統,可以分析細到每個任務每時每刻的資源使用,可以聚合,給每個業務線做成本核算。
這是對于數據質量管理中心,上面可以寫一些簡單的SQL,監控某一個表的數據結果是否符合我們業務的預期。下面是數據管理,就是我們剛剛提到的,對每個關鍵的數據表都有一些SLA的跟蹤保障,會定期發日報,觀察他們完成時間的一些變動。
1.4****關于BI****產品
BI是基于數據應用平臺化的場景。查詢部分主要通過一個查詢中心來支持,包括Hive,MySQL,Presto,Kylin等引擎,在查詢中心里面我們做SQL解析。前面是一系列的BI產品,目前大部分是自研,面向用戶可以直接寫SQL的自主查詢,并且看某一個指標,某一個時間段類似于online的分析數據產品,以及給BOSS們看的天機系統。還有指標提取工具,和商用oneline前端分析引擎設計是比較類似的,選取維度范圍,還有適時的計算口徑,會有一系列對維度適時的管理。數據內容數據表不夠,還會配一些dashboard。
在前端分析方面,我們開發了星空展示中心,可以基于前面指標提取結果,配置一系列的餅圖、線圖、柱狀圖,去拖拽,最后構建出一個dashboard,功能同市面上的其他BI類似。
2.****平臺演進時間線
2.1 ****平臺發展
最開始美團開展數據這方面的工作的時候是2011年,當時的數據統計都是基于手寫的報表,就是來一個需求我們基于線上數據建立一個報表頁面,寫一些表格。久而久之便跟不上管理模式了。首先是內部信息系統的工作狀態,并不是一個垂直的,專門用做數據分析的平臺,這個系統當時還是跟業務去共享的,跟業務的隔離非常弱,跟業務是強耦合的,而且每次來數據需求的時候都要有一些特殊的開發,開發周期非常長。
面對這個問題我們做了一個目前來看還算比較好的決策,就是重度依賴SQL。對SQL分裝了一些報表工具,對SQL做了etl工具。主要是在SQL層面做一些模板化的工具,支持時間等變量。這個變量會有一些外部的參數傳遞進來,然后替換到SQL的行為。
在2011下半年,我們引入了整個數據倉庫的概念,梳理了所有數據流,設計整個數據體系。做完了數據倉庫整體的構建,發現整體的ETL被開發出來了。首先ETL都是有一定的依賴關系的,但是管理起來成本非常高,所以自研了一個系統。另外發現數據量越來越大,原來基于單機MySQL的數據解析是搞不定的,所以2012年上了四臺Hadoop機器,后面十幾臺,到最后的幾千臺,目前可以支撐各個業務去使用。
2.2 ****最新進展
我們也做了一個非常重要的事就是ETL開發平臺,原來都是基于Git倉庫管理,管理成本非常高,當時跟個業務線已經開始建立自己數據開發的團隊,我們把他們開發的整個流程平臺化,各個業務線就可以自建。之后遇到的業務場景需求越來越多,特別是實時應用。2014年啟動了實時計算平臺,把原來原有關系型數據表全量同步模式,改為Binlog同步模式。我們也是在國內比較早的上了Hadoop2.0 on Yarn的改進版,好處是更好的激起了Spark的發展。另外還有Hadoop集群跨多機房,多集群部署的情況,還有OLAP保障,同步開發工具。
3.****平臺化思路總結
3.1****平臺的價值
作為一個平臺的團隊,核心價值其實就三個:
一是對于重復的事情要做精做專;
二是統一化。可以推一些標準,推一些數據管理的模式,減少業務之間的對接成本;
最重要的是為業務整體效率負責,包括開發效率、迭代效率、維護運維數據流程的效率,還有整個資源利用的效率。
3.2****平臺的發展
如果才能發展成一個好的平臺呢?
我理解的三點:
首先支持業務是第一位的,如果沒有業務我們平臺其實是沒法繼續發展的。
第二是與先進業務同行,輔助并沉淀技術。在一個所謂平臺化的公司,有多個業務線,甚至各個業務線已經是獨立的情況下,必定有一些業務線是先行者,他們有很強的開發能力、調研能力,我們的目標是跟這些先行業務線同行。
第三是設立規范,用積累的技術支撐后發業務。與業務一起前進的過程中,把一些經驗、技術、方案、規范慢慢沉淀下來。對于剛剛新建的業務線,或者發展比較慢的業務線,我們基本策略是設置一系列的規范,跟優先先行業務線積累去支撐后續的業務線,以及功能開發的時候也可以借助。保持平臺團隊對業務的理解。

3.3****關于開源
以上談到的平臺中有很多是開源的直接拿來用的,比如說,zeppelin,Kylin。
我們的策略是持續關注,其實也是幫業務線做前瞻性調研,他們團隊每天都在看數據,看新聞,他們會講新出的一個項目你們怎么推,你們不推我們推了,我們可能需要持續關注,設計一系列的調研方案,幫助這些業務去調研,這樣調研這個事情我們也是重復的事情只干一次。
如果有一些共性patch的事情,特別一些bug、問題內部也會有一個表共享,內部有大幾十個patch。選擇性的重構,最后才會大改,特別在選擇的時候我們強調從業務需求出發,理智的進行選型權衡,最終拿出來的方案是靠譜能落地實施的方案。


文章源自公眾號「帆軟數據應用研究院」,ID: fr_research。關注公眾號,回復 “美團” 可獲取案例PPT!
往期案例推薦:
鏈家網大數據平臺建設,平臺樞紐--工具鏈
大數據平臺在互聯網行業的應用
互聯網數據分析的底層應用架構

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,406評論 6 538
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,034評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,413評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,449評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,165評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,559評論 1 325
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,606評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,781評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,327評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,084評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,278評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,849評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,495評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,927評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,172評論 1 291
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,010評論 3 396
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,241評論 2 375

推薦閱讀更多精彩內容