[2/4]我所經歷的大數據平臺發展史(二):非互聯網時代 ? 下篇

//
我所經歷的大數據平臺發展史(二):非互聯網時代 ? 下篇
http://www.infoq.com/cn/articles/the-development-history-of-big-data-platfor2-part01

編者按:本文是松子(李博源)的大數據平臺發展史系列文章的第二篇(共四篇),本系列以獨特的視角,比較了非互聯網和互聯網兩個時代以及傳統與非傳統兩個行業。是對數據平臺發展的一個回憶,對非互聯網、互聯網,從數據平臺的用戶角度、數據架構演進、模型等進行了闡述。
前言,”數據模型“ 這個詞只要是跟數據沾邊就會出現的一個詞,在數據庫設計、數據倉庫、數據挖掘上、業務里都存在,聚焦一下,這里提到的是數據平臺中的”數據模型“。 這是一個非常的抽象詞,個人也很難用簡單語言把他描述出來,這一章也是整個系列中較為抽象的一章節,同時這個章節將會回答非互聯網數據平臺數據模型是什么?如何需要數據模型?如何簡單的建設?
在“我所經歷的大數據平臺發展史 上篇 非互聯網時代”曾經提到Bill inmon與 Ralph kilmball兩位大師的設計理念,對業務的數據按照某種規則進行有效組織并滿足業務需求。

相關廠商內容
關于紅包、SSD云盤等核心技術集錦!
Cloudant DBaaS技術概述
下一代 DB2更加突出 BLU Acceleration
小邪:阿里8屆雙11容量規劃這樣設計

Apache Beam 大規模流處理

相關贊助商

QCon北京2017,4月16-18日,北京·國家會議中心,精彩內容搶先看

在構建過程中,有一個角色理解業務并探索分散在各系統間的數據,并通過某條業務主線把這些分散在各角落的數據串聯并存儲同時讓業務使用,在設計時苦逼的地方除了考慮業務數據結構要素外,還得考慮可操作性、約束性(備注 約束性是完成數據質量提升的一個關鍵要素,未來新話題主題會討論這些),這個既要顧業務、數據源、合理的整合的角色是數據模型設計師,又叫數據模型師。
非互聯網時代的數據模型是一個高度智慧業務抽象結晶,數據模型是整個系統建設過程的導航圖。
(點擊放大圖像)

[圖片上傳中。。。(2)]
平臺中模型設計所關注的是企業分散在各角落數據、未知的商業模式與未知的分析報表,通過模型的步驟,理解業務并結合數據整合分析,建立數據模型為Data cleaning 指定清洗規則、為源數據與目標提供ETL mapping (備注:ETL 代指數據從不同源到數據平臺的整個過程,ETL Mapping 可理解為 數據加工算法,給數碼看的,互聯網與非互聯網此處差異性也較為明顯,非互聯網數據平臺對ETL定義與架構較為復雜)支持、 理清數據與數據之間的關系。(備注:Data cleaning 是指的數據清洗 數據質量相關不管是在哪個行業,是最令人頭痛的問題,分業務域、技術域的數據質量問題,需要通過事前盤點、事中監控、事后調養,有機會在闡述)。
大家來看一張較為嚴謹的數據模型關系圖:
(點擊放大圖像)
[圖片上傳中。。。(3)]
數據模型是整個數據平臺的數據建設過程的導航圖。
有利于數據的整合。數據模型是整合各種數據源指導圖,對現有業務與數據從邏輯層角度進行了全面描述,通過數據模型,可以建立業務系統與數據之間的映射與轉換關系。排除數據描述的不一致性。如:同名異義、同物異名..。
減少多余冗余數據,因為了解數據之間的關系,以及數據的作用。在數據平臺中根據需求采集那些用于分析的數據,而不需要那些純粹用于操作的數據。

在面對企業復雜業務與成千上萬的數據項進行設計時,沒有哪個牛逼的人都記得住的,所以出現了按照某種層次規則去有組織并抽象與管理易用,由此誕生了概念模型、邏輯模型、物理模型 (備注 數據平臺數據模型,而非數據挖掘的模型)。
數據模型在數據平臺的數據倉庫中是一個統稱,嚴格上來講分為概念模型、邏輯模型、物理模型。(備注:四類模型如何去詳細構建文本不深講,關于非互聯網企業的數據模型網上非常多)
(點擊放大圖像)
[圖片上傳中。。。(4)]
在“我所經歷的大數據平臺發展史 上篇 非互聯網時代“提到兩位大師的架構與爭論,進一步聚焦來說,爭論點我的認為其實是在數據模型的支持上,Bill Inmon的EDW的原則是準三范式的設計、Ralph kilmbal是星型結構。
Bill Inmon對EDW 的定義是面向事物處理、面向數據管理,從數據的特征上需要堅持維護最細粒度的數據、維護最微觀層次的數據關系、保存數據歷史。所以在構建完畢的數據平臺中可以從中映射并檢查業務信息的完整性(同時也是養數據過程中的重要反饋點),這種方式還可以找出多個系統相關和重合的信息,減少多個系統之間數據的重復定義和不一致性,減小了應用集成的難度。
(點擊放大圖像)
[圖片上傳中。。。(5)]
(點擊放大圖像)
[圖片上傳中。。。(6)]
該建設方式的要點是首先建立各個數據源業務的實體關系、然后再根據保存的主子實體關系、存儲性能做優化。
Ralph kilmball 對DM(備注:數據集市,非挖掘模型)的定義是面向分析過程的(Analytical Process oriented),因為這個模型對業務用戶非常容易理解,同時為了查詢也是做了專門的性能優化。所以星型、雪花模型很直觀比較高性能為用戶提供查詢分析。
(點擊放大圖像)
[圖片上傳中。。。(7)]
該方式的建模首先確定用戶需求問題與業務需求數據粒度,構建分析所需要的維度、與度量值形成星型模型;(備注 涉及的復雜維度、退化維度等不在這個討論范圍)。
數據模型的業務建模階段、領域概念模型階段、邏輯模型階段、物理模型階段是超級學術與復雜的話題,而且在模型領域根據特點又分主數據(MDM)、CIF(企業級統一視圖) 、通用模型(IBM 的金融、保險行業通用模型、 Teradata的 金融通用模型、 電信移動通用模型等),鎖涉及到術語”擴展“、”扁平化“、”裁剪“等眼花繚亂的建模手法,數據模型不同層次ODS、DWDDWD、DW、ST的分層目的不同導致模型設計方法又不同。相信業界有很多大牛能講的清楚的,以后有機會再交流。
(點擊放大圖像)
[圖片上傳中。。。(8)]
(點擊放大圖像)
[圖片上傳中。。。(9)]
(點擊放大圖像)
[圖片上傳中。。。(10)]
(點擊放大圖像)
[圖片上傳中。。。(11)]
本文帶大家回憶了歷史非互聯網的數據平臺發展與核心模型特點,當然數據平臺的發展不是一步到位的,是經過無數人的智慧、努力反復迭代而逐漸演進的。
非互聯網企業的數據平臺發展,每一代的平臺架構中的結構都是及其復雜的,比如ETL架構、數據模型架構、BD的架構、前端展現、元數據、數據質量等各方面,每一部分展開都是一個很深的話題,有機會再分享給大家。
下篇章將分享給大家互聯網時代的數據平臺,互聯網的數據平臺也就是在07年-08年左右開始迅猛發展的,在發展的初期也是從傳統數據平臺的第三代架構開始演進的,互聯網產品發展特點是“糙、快、猛”,同時數據量的超快速膨脹所帶來的技術變革,從數據倉庫->海量數據->大數據膨脹必然原有的技術無法支撐高IO吞吐、密集型計算,從而發展了合適互聯網大數據平臺。
關于作者
松子(李博源),自由撰稿人,數據產品&數據分析總監。2000年開始數據領域,從業傳統制造業、銀行、保險、第三方支付&互聯網金融、在線旅行、移動互聯網行業 ; 個人沉淀在大數據產品、大數據分析、數據模型領域;歡迎關注個人微信訂閱號:songzi2016。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,739評論 6 534
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,634評論 3 419
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,653評論 0 377
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,063評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,835評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,235評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,315評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,459評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,000評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,819評論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,004評論 1 370
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,560評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,257評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,676評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,937評論 1 288
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,717評論 3 393
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,003評論 2 374

推薦閱讀更多精彩內容