上海財經大學鮮為人知的數據治理與分析之道【下】

繼上篇推出后,大家驚艷于上海財大的數據分析成效,今天就來聊聊其背后關于技術的那些事。

先來回顧一下上海財大近期做了哪些數據分析應用……

“數據倉庫”在這些數據應用分析背后扮演著重要角色,也是決定學校數據分析工作越來越高效化的關鍵因素。

今天重點圍繞數據倉庫建設流程展開討論,主要包括系統架構設計、源數據分析、主題規劃、數據模型設計、數據ETL開發、前端應用開發、系統監控、數據分析思維8個環節。

1、系統架構設計

以下是典型企業級數據倉庫架構:包括三層數據存儲,第一層是操作數據層,作為采集數據的緩沖區;第二層是基礎數據層,這是數據倉庫的核心;第三層就是面向報表開發的數據集市層,每一個數據存儲層都涉及相應的數據處理過程。

數據倉庫系統架構圖

下面是數據倉庫各類數據的關系,其中箭頭表示數據流向,柱子大小代表存儲的數據量,ODS層會存儲多天的歷史數據,數據量相對大一些;EDW層數據相對少一些,數據集市層存儲面向應用的數據,一般情況下數據量不會太大。

數據倉庫各類數據關系

鑒于學校數據量不太大的情況,數據庫可以采用一個物理庫,然后用不同用戶做邏輯區分。在ODS層,每個業務系統對應一個用戶,右邊EDW和DDW對應數據倉庫基礎層與應用分析集市層,這種存儲結構有利于后續的數據庫的管理和使用。

數據存儲結構

2、源數據分析

平時做報表,無論是利用工具還是用excel,必然會涉及到分析源數據內容,比如源數據有哪些字段,數據類型是什么,數據內容是什么等等,這些都是源數據分析的工作,源數據分析結果直接與數據倉庫模型設計相關。源數據分析是數據倉庫項目建設的關鍵,投入的時間一般要占項目的1/3。

源數據分析步驟

源系統分析需要重點分析:系統功能與作用、核心業務流程、核心業務數據等內容;然后進行表級分析,包括:表類型、業務重要程度、數據重要程度,我們要清楚每張表的定義,方便后期準確劃分主題。

還需要進行源字段分析,包括:字段含義、數據存放關系等。分析過程中必須要清楚所有元數據的定義,業務系統如果不能提供這些分析資料就需要補充完整,并和業務系統管理員、廠商確認源數據分析結果是否準確。

3、主題規劃

主題規劃原則

主題劃分并沒有絕對標準,不同行業有不同劃分方法,我們學校參照證券行業的劃分方法進行了修改。主題定義是基于系統和業務對數據進行抽象的過程,主題域不宜太多,要預留一定空間為后續新增業務和數據擴展做準備。

主題規劃關鍵點
主題內容

4、數據模型設計

不做集成的數據倉庫只有形而沒有神,因此數據倉庫一定要做數據集成,形成全局數據視圖。集成包括數據和結構兩個方面,其中數據集成的核心是公共代碼合并,不同業務系統可能有不同代碼表,但在數據倉庫只能保留一套代碼標準。需要注意的是,只有不同業務系統同時存在的重復代碼才需要合并。

結構集成主要是拆分和合并兩種方法,復雜情況也無非就是拆分和合并的組合,拆分包括行級拆分和列級拆分。數據模型設計并不是要將業務系統的所有結構都重新拆分、組合,只有不合理的才需要調整結構。

ODS層數據模型
EDW層數據模型
DDW層數據模型

最后,重點分享一些數據分析的思維。

1、數據可視化思維

單純的數字展示往往顯得枯燥,缺乏視覺沖擊力,對用戶沒有足夠的吸引,也無法突出要反映的問題。將數據以可視化的方式展示,顯得生動,不枯燥。有些本質很簡單的數據加上可視化效果就顯得高大上了,而且容易吸引眼球。

2、圖表簡潔思維

大多數人剛開始做報表都會刻意追求漂亮、酷炫,將報表做的很復雜,包含很多信息,我剛開始也是這樣,但后來慢慢發現不該是這樣的。一個內容豐富的儀表盤可以采用分塊組織,同時要保證每塊內容的主題或要展現的問題非常明確、簡潔,在這個基礎上如有精力再考慮美觀漂亮的效果呈現。

3、發掘問題思維

機械地展示數字不是報表的目的,報表是為了發掘問題,通過解決問題優化管理模式,這樣數據分析才更有意義。舉個例子:科研評價不僅看重成果數量,更看重成果質量,比如某個學院的論文數量雖然不多,初看是個比較嚴重的問題,但是論文級別都很高,能夠反映該學院的科研水平比較高。

4、逆向求證思維

對于數據分析和數據挖掘結果我們要結合經驗做反向推理和求證,驗證分析結論是否符合正常邏輯,使我們的分析結論更準確,更有意義。

5、用戶定位思維

如同開發應用系統一樣,我們首先要確定面向的用戶人群,報表也是同樣,針對不同用戶要采用不同的展現形式。如:面向校領導的報表要簡潔、直觀,不需要太多互動,所見即所得;面向普通業務人員的報表可以增強報表的互動性,如借助篩選、鉆取等功能提供更豐富的分析結果;面向技術人員的報表可以提供更多的交互操作,復雜計算功能,給用戶更大的交互空間。

最后,想和所有學校共勉:希望所有學校都能擁有這樣天時、地利、人和的條件,以支撐我們共同做好數據分析工作。

1、領導重視、經費充足、人員合理。人員合理組成包括:精通高校業務的業務分析師、了解數據分析的業務系統管理員、BI開發人員。

2、擁有穩定運行至少使用半年或一年以上,已積累大量數據的成熟業務系統。

數據ETL開發、前端應用開發、系統監控等內容涉及技術廣且深,因篇幅原因不再展開。(若需詳細了解,可加小智微信:wisedu2008。)

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,362評論 6 537
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,013評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,346評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,421評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,146評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,534評論 1 325
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,585評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,767評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,318評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,074評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,258評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,828評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,486評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,916評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,156評論 1 290
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,993評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,234評論 2 375

推薦閱讀更多精彩內容