前期技術選型
技術選型確定
鑒于開發資源,以及尚無大數據的技術基礎,選用了可以快速上手的
阿里云maxcompute服務
開發流程圖:
maxcompute組件,大致分為幾部分:
1.數據集成:配置數據源,用于讀取或者回寫
支持多種數據源
- MySQL數據源
- SqlServer數據源
- PostgreSQL數據源
- MaxCompute數據源
- DRDS數據源
- Oracle數據源
- OSS數據源
- FTP數據源
- HDFS數據源
- MongoDB數據源
- AnalyticDB數據源
- Memcache數據源
- RDS數據源
- Redis數據源
2.數據開發:數據倉庫離線任務編寫
- OPEN_MR 任務
OPEN_MR 任務用于在 MaxCompute 的 MapReduce 編程接口(Java API)基礎上實現的數據處理程序的周期運行,使用示例請參見 創建 OPEN_MR 任務。
MaxCompute 提供了 MapReduce 編程接口,您可以使用 MapReduce 提供的接口(Java API)編寫 MapReduce 程序處理 MaxCompute 中的數據,并打包成為 JAR 等類型的資源文件上傳到大數據開發套件中,然后配置 OPEN_MR 節點任務。
- ODPS_MR 任務
MaxCompute 提供 MapReduce 編程接口,您可以使用 MapReduce 提供的接口(Java API)編寫 MapReduce 程序處理 MaxCompute 中的數據,您可以通過創建 ODPS_MR 類型節點的方式在任務調度中使用,使用示例請參見 ODPS_MR 任務。
- ODPS_SQL 任務
ODPS_SQL 任務支持您直接在 Web 端編輯和維護 SQL 代碼,并可方便地調試運行和協作開發。大數據開發套件還支持代碼內容的版本管理和上下游依賴自動解析等功能,使用示例請參見 新建任務。
大數據開發套件默認使用 MaxConpute 的 project 作為開發生產空間,因此 ODPS_SQL 節點的代碼內容遵循 MaxCompute SQL 的語法。MaxCompute SQL 采用的是類似于 Hive 的語法,可以看作是標準 SQL 的子集,但不能因此簡單地把 MaxCompute SQL 等價成一個數據庫,它在很多方面并不具備數據庫的特征,如事務、主鍵約束、索引等。
- 數據同步任務
數據同步節點任務是阿里云數加平臺對外提供的穩定高效、彈性伸縮的數據同步云服務。您通過數據同步節點可以輕松地將業務系統數據同步到 MaxCompute 上來。詳情請參見 創建同步任務。