分布式數據倉庫

分布式數據倉庫

數據倉庫項目建設中常會因為選擇需要建立集中式還是分布式數據倉庫而困擾不前。因方便集成、方便管理和方便使用等原因,集中式數據倉庫環境還是比較流行。但是,在某些場合下我們需要建立分布式數據倉庫環境。接下來我們就分享一下分布式數據倉庫的點點滴滴。

一、初識分布式數據倉庫

1、分布式數據倉庫在架構上或技術上讓數據存儲在不同的節點上。以往的大型公司會花大量的資金購買計算性能和存儲能力超強的小機,建設集中式的數據倉庫。但是如今企業數據渠道采集多元化導致數據量迅速增加,繼續購買小機建設數據倉庫已經不是最明智的選擇了。面對這樣的困境,有的企業在架構上進行改變,采用“局部——全局倉庫”架構來分擔數據倉庫的數據量。而有的企業則尋求技術上的突破,采用分布式技術構建數據倉庫。分布式數據倉庫是信息化時代未來的趨勢。

2、首要問題認識開發分布式數據倉庫項目的性質。只有了解“局部和全局”數據倉庫的類型以及它們之間的體系結構關系,才能有效地選擇采用合適的開發方法。因為不同方法設計開發問題差異較大,所以不同類型的數據倉庫項目需要采用完全不同的方案?!熬植亢腿帧睌祿}庫之間的關系有兩種情況。一種是局部數據倉庫之間是完全無關的,也就是局部數據倉庫建立沒有基于任何共有數據,他們的業務都是分離的,比如:采礦的數據倉庫和汽車銷售的數據倉庫,他們之間沒有業務上的關聯關系。另一種是,局部數據倉庫之間需要統一的信息進行關聯的,局部數據倉庫之間有業務貫穿其中。比如:某公司北美的銷售數據倉庫和亞太的銷售數據倉庫,他們之間貫穿了某一商品銷售業務。

3、局部數據倉庫包含的是在局部站點上的歷史的和細粒度的數據。技術上為了降低中心數據倉庫的存儲和網絡傳輸壓力,將明細數據存放在局部數據倉庫中。業務決策支撐上,全局數據倉庫一般是企業高層的決策使用,高層決策者并不關心某一個節點上的歷史數據和明細數據。局部數據倉庫將較粗粒度的匯總數據傳輸給全局數據倉庫,自身保存歷史和明細數據。

4、分布式數據倉庫環境成功的關鍵就是如何將局部操作型系統中的數據映射到全局數據倉庫的數據結構中。上面說過明細數據和歷史數據存放在局部數據倉庫中只需要將匯總數據傳回全局數據倉庫,傳回到全局數據倉庫的數據不僅是單純的存放,還需要支持全局數據倉庫下鉆的需求,這就需要一個很好地的元數據管理,記錄中心數據倉庫中的數據源。中心數據倉庫的數據可以溯源,中心數據倉庫的分析結果更具信任度和說服力。

5、正確對待分布式數據倉庫中的數據冗余。如果局部數據倉庫和全局數據倉庫之間存在數據冗余是可以接受的,畢竟局部數據會通過匯總將計算結果傳輸給全局數據倉庫。但是全局數據倉庫存在數據冗余是不被接受的,全局數據倉庫的數據冗余即表明沒有正確定義不同級別的數據倉庫所轄的范圍。當全局數據倉庫出現大量的數據冗余時,會給系統帶來很多問題,比如:不一致的計算結果、不能很容易地創建新系統、操作復雜等代價問題。

6、分布式數據倉庫在建立的時候既獨立又有協作。獨立是指分布式數據倉庫在每一個局部倉庫的數據需要盡可能的獨立,不存在重疊。比如:非洲事務的數據單元不可能出現在歐洲的局部數據倉庫中。協作主要體現在如遇到業務流程,需要協作完成流程的貫穿。

我們對分布式數據倉庫有了初步的理解,下面我們看看如何進行分布式數據倉庫的開發。

二、分布式數據倉庫的開發

1、分布式數據倉庫開發項目可以分為四種典型情況。首先,一個公司的業務是完全分離的、非集成的,對應的數據倉庫可以由不同的開發小組獨立創建。其次,各個開發小組負責共同創建同一個數據倉庫的不同部分,為了總體上獲得滿意的集成效果,要求開發小組間進行密切協作。若開發項目不協調,則大量數據的冗余存儲和處理將導致較大的浪費。再次,不同小組負責建立數據倉庫不同級的數據,比如小組。最后,多個小組試圖以非分布式方式建立數據倉庫環境中數據當前細節級的不同部分。

2、采用分布式技術。數據倉庫環境包含大量的數據,它們分布在多個存儲設備上。分布式技術是當下最流行的處理大數據的技術,主要提前規劃集群,將大塊的數據切片為固定大小的小塊數據存放在集群的各個節點上。當接收到請求之后,集群各個節點并行計算各自節點上的數據,然后將數據傳輸到中心節點進行匯聚,生成最終結果。分布式技術對數據倉庫的存儲能力和計算效率上都有非常大的提升。分布式技術理論上存儲和計算能力可以橫向添加集群節點無限擴展的。

3、獨立演進的分布式數據倉庫。數據倉庫隨著企業的發展以一種不協調的方式建立起來的。企業在初期發展中按需要先建立了一個管理銷售的數據倉庫,隨著時間推移企業規模不斷擴大,企業按需要再建立了另一個管理生產運行的數據倉庫。這樣建立的數據倉庫在規劃設計和采用的技術等方面容易前期與后期建設不協調。這就需要開發人員對數據倉庫不斷進行優化升級,才能減小新建設的數據倉庫和原有數據倉庫的不協調不兼容。

4、分布式數據倉庫的元數據管理非常重要。上面我們也提到元數據的重要性,在整個分布式的企業數據倉庫中元數據可以協調不同的局部數據倉庫中的數據結構。毫無疑問,元數據是實現一致性和相容性的工具。

小結

建設分布式數據倉庫不僅能夠適應大量的數據儲存計算需求,還能提升數據的安全性和準確性。分布式數據倉庫處于新生兒,但星星之火可以燎原,我相信它會不斷的發展壯大,支撐企業更多的業務需要。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容