數據整合是吧在不同數據源的數據收集、整理、清洗、轉換(有點像ETL)后,加載到一個新的數據源,為數據使用者提供統一數據視圖的數據集成方式。
數據整合
數據整合是共享或者合并來自于兩個或者更多應用的數據,創建一個具有更多功能的企業應用的過程。傳統的商業應用有很強的面向對象性——即他們依靠持續的數據結構為商業實體和過程建模。當這種情況發生時,邏輯方式是通過數據共享或合并進行整合,而其他情況下,來自于一個應用的數據可能是重新構造才能和另一個應用的數據結構匹配,然后被直接寫進另一個數據庫。
下面我們將介紹一個目前比較成熟穩定的數據整合工具:Kettle
Kettle 介紹
Kettle是一款國外開源的ETL工具,純java編寫,可以在Window、Linux、Unix上運行,綠色無需安裝,數據抽取高效穩定。
Kettle 中文名稱叫水壺,該項目的主程序員MATT 希望把各種數據放到一個壺里,然后以一種指定的格式流出。
Kettle這個ETL工具集,它允許你管理來自不同數據庫的數據,通過提供一個圖形化的用戶環境來描述你想做什么,而不是你想怎么做。
Kettle中有兩種腳本文件,transformation和job,transformation完成針對數據的基礎轉換,job則完成整個工作流的控制。
Kettle目前包含五個產品:Spoon、Pan、Chef、Kithcen、Encr。
SPOON: 是一個圖形用戶界面,允許你通過圖形界面來設計ETL轉換過程(Transformation)和任務。
PAN: 轉換(trasform)執行器;允許你批量運行由Spoon設計的ETL轉換 (如使用一個時間調度器)。Pan是一個后臺執行的程序,沒有圖形界面。
CHEF: 允許你創建任務(Job)。 任務通過允許每個轉換,任務,腳本等等,更有利于自動化更新數據倉庫的復雜工作。任務通過允許每個轉換,任務,腳本等等。任務將會被檢查,看看是否正確地運行了。
KITHCEN: 作業(job)執行器;允許你批量使用由Chef設計的任務 (如使用一個時間調度器)。KITCHEN也是一個后臺運行的程序。
ENCR: 用來加密連接數據庫密碼與集群時使用的密碼
Kettle 下載和部署
1、我們可以進入 Kettle官網 進行下載,進入之后,下拉頁面,看到如圖所示;
查看所有版本,我們可以看到最新版本以及所有舊版本的Kettle
此處選擇7.1版本
2、Kettle 環境配置
由于Kettle是使用Java語言編寫的,所有Kettel的運行需要有Java環境,安裝JDK,請參考:Linux環境下JDK安裝和配置 和 Windows環境下JDK安裝和配置
3、運行Kettle
進入到Kettle目錄,如果Kettle部署在windows環境雙擊Spoon.bat文件啟動Kettle,如果是在Linux環境下,則運行spoon.sh文件啟動。出現如下界面,則我們的Kettle就安裝成功了。
至此,Kettle的下載、環境配置和安裝就基本完成了。