繼上篇推出后,大家驚艷于上海財大的數據分析成效,今天就來聊聊其背后關于技術的那些事。
先來回顧一下上海財大近期做了哪些數據分析應用……
“數據倉庫”在這些數據應用分析背后扮演著重要角色,也是決定學校數據分析工作越來越高效化的關鍵因素。
今天重點圍繞數據倉庫建設流程展開討論,主要包括系統架構設計、源數據分析、主題規劃、數據模型設計、數據ETL開發、前端應用開發、系統監控、數據分析思維8個環節。
1、系統架構設計
以下是典型企業級數據倉庫架構:包括三層數據存儲,第一層是操作數據層,作為采集數據的緩沖區;第二層是基礎數據層,這是數據倉庫的核心;第三層就是面向報表開發的數據集市層,每一個數據存儲層都涉及相應的數據處理過程。
下面是數據倉庫各類數據的關系,其中箭頭表示數據流向,柱子大小代表存儲的數據量,ODS層會存儲多天的歷史數據,數據量相對大一些;EDW層數據相對少一些,數據集市層存儲面向應用的數據,一般情況下數據量不會太大。
鑒于學校數據量不太大的情況,數據庫可以采用一個物理庫,然后用不同用戶做邏輯區分。在ODS層,每個業務系統對應一個用戶,右邊EDW和DDW對應數據倉庫基礎層與應用分析集市層,這種存儲結構有利于后續的數據庫的管理和使用。
2、源數據分析
平時做報表,無論是利用工具還是用excel,必然會涉及到分析源數據內容,比如源數據有哪些字段,數據類型是什么,數據內容是什么等等,這些都是源數據分析的工作,源數據分析結果直接與數據倉庫模型設計相關。源數據分析是數據倉庫項目建設的關鍵,投入的時間一般要占項目的1/3。
源系統分析需要重點分析:系統功能與作用、核心業務流程、核心業務數據等內容;然后進行表級分析,包括:表類型、業務重要程度、數據重要程度,我們要清楚每張表的定義,方便后期準確劃分主題。
還需要進行源字段分析,包括:字段含義、數據存放關系等。分析過程中必須要清楚所有元數據的定義,業務系統如果不能提供這些分析資料就需要補充完整,并和業務系統管理員、廠商確認源數據分析結果是否準確。
3、主題規劃
主題劃分并沒有絕對標準,不同行業有不同劃分方法,我們學校參照證券行業的劃分方法進行了修改。主題定義是基于系統和業務對數據進行抽象的過程,主題域不宜太多,要預留一定空間為后續新增業務和數據擴展做準備。
4、數據模型設計
不做集成的數據倉庫只有形而沒有神,因此數據倉庫一定要做數據集成,形成全局數據視圖。集成包括數據和結構兩個方面,其中數據集成的核心是公共代碼合并,不同業務系統可能有不同代碼表,但在數據倉庫只能保留一套代碼標準。需要注意的是,只有不同業務系統同時存在的重復代碼才需要合并。
結構集成主要是拆分和合并兩種方法,復雜情況也無非就是拆分和合并的組合,拆分包括行級拆分和列級拆分。數據模型設計并不是要將業務系統的所有結構都重新拆分、組合,只有不合理的才需要調整結構。
最后,重點分享一些數據分析的思維。
1、數據可視化思維
單純的數字展示往往顯得枯燥,缺乏視覺沖擊力,對用戶沒有足夠的吸引,也無法突出要反映的問題。將數據以可視化的方式展示,顯得生動,不枯燥。有些本質很簡單的數據加上可視化效果就顯得高大上了,而且容易吸引眼球。
2、圖表簡潔思維
大多數人剛開始做報表都會刻意追求漂亮、酷炫,將報表做的很復雜,包含很多信息,我剛開始也是這樣,但后來慢慢發現不該是這樣的。一個內容豐富的儀表盤可以采用分塊組織,同時要保證每塊內容的主題或要展現的問題非常明確、簡潔,在這個基礎上如有精力再考慮美觀漂亮的效果呈現。
3、發掘問題思維
機械地展示數字不是報表的目的,報表是為了發掘問題,通過解決問題優化管理模式,這樣數據分析才更有意義。舉個例子:科研評價不僅看重成果數量,更看重成果質量,比如某個學院的論文數量雖然不多,初看是個比較嚴重的問題,但是論文級別都很高,能夠反映該學院的科研水平比較高。
4、逆向求證思維
對于數據分析和數據挖掘結果我們要結合經驗做反向推理和求證,驗證分析結論是否符合正常邏輯,使我們的分析結論更準確,更有意義。
5、用戶定位思維
如同開發應用系統一樣,我們首先要確定面向的用戶人群,報表也是同樣,針對不同用戶要采用不同的展現形式。如:面向校領導的報表要簡潔、直觀,不需要太多互動,所見即所得;面向普通業務人員的報表可以增強報表的互動性,如借助篩選、鉆取等功能提供更豐富的分析結果;面向技術人員的報表可以提供更多的交互操作,復雜計算功能,給用戶更大的交互空間。
最后,想和所有學校共勉:希望所有學校都能擁有這樣天時、地利、人和的條件,以支撐我們共同做好數據分析工作。
1、領導重視、經費充足、人員合理。人員合理組成包括:精通高校業務的業務分析師、了解數據分析的業務系統管理員、BI開發人員。
2、擁有穩定運行至少使用半年或一年以上,已積累大量數據的成熟業務系統。
數據ETL開發、前端應用開發、系統監控等內容涉及技術廣且深,因篇幅原因不再展開。(若需詳細了解,可加小智微信:wisedu2008。)