通過阿里云maxcompute快速構建數據倉庫

前期技術選型

image.png

技術選型確定

鑒于開發資源,以及尚無大數據的技術基礎,選用了可以快速上手的
阿里云maxcompute服務

開發流程圖:

image.png

maxcompute組件,大致分為幾部分:

1.數據集成:配置數據源,用于讀取或者回寫

支持多種數據源
  • MySQL數據源
  • SqlServer數據源
  • PostgreSQL數據源
  • MaxCompute數據源
  • DRDS數據源
  • Oracle數據源
  • OSS數據源
  • FTP數據源
  • HDFS數據源
  • MongoDB數據源
  • AnalyticDB數據源
  • Memcache數據源
  • RDS數據源
  • Redis數據源

2.數據開發:數據倉庫離線任務編寫

  • OPEN_MR 任務

OPEN_MR 任務用于在 MaxCompute 的 MapReduce 編程接口(Java API)基礎上實現的數據處理程序的周期運行,使用示例請參見 創建 OPEN_MR 任務。

MaxCompute 提供了 MapReduce 編程接口,您可以使用 MapReduce 提供的接口(Java API)編寫 MapReduce 程序處理 MaxCompute 中的數據,并打包成為 JAR 等類型的資源文件上傳到大數據開發套件中,然后配置 OPEN_MR 節點任務。

  • ODPS_MR 任務

MaxCompute 提供 MapReduce 編程接口,您可以使用 MapReduce 提供的接口(Java API)編寫 MapReduce 程序處理 MaxCompute 中的數據,您可以通過創建 ODPS_MR 類型節點的方式在任務調度中使用,使用示例請參見 ODPS_MR 任務。

  • ODPS_SQL 任務

ODPS_SQL 任務支持您直接在 Web 端編輯和維護 SQL 代碼,并可方便地調試運行和協作開發。大數據開發套件還支持代碼內容的版本管理和上下游依賴自動解析等功能,使用示例請參見 新建任務。

大數據開發套件默認使用 MaxConpute 的 project 作為開發生產空間,因此 ODPS_SQL 節點的代碼內容遵循 MaxCompute SQL 的語法。MaxCompute SQL 采用的是類似于 Hive 的語法,可以看作是標準 SQL 的子集,但不能因此簡單地把 MaxCompute SQL 等價成一個數據庫,它在很多方面并不具備數據庫的特征,如事務、主鍵約束、索引等。

  • 數據同步任務

數據同步節點任務是阿里云數加平臺對外提供的穩定高效、彈性伸縮的數據同步云服務。您通過數據同步節點可以輕松地將業務系統數據同步到 MaxCompute 上來。詳情請參見 創建同步任務。

3. 數據管理:數據倉庫元數據管理

image.png

4. 運維中心:數據倉庫運維平臺

image.png
文檔說明
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容