一.sqoop的簡單概論
1.sqoop產生的原因:
A. 多數使用hadoop技術的處理大數據業務的企業,有大量的數據存儲在關系型數據中。
B. 由于沒有工具支持,對hadoop和關系型數據庫之間數據傳輸是一個很困難的事。
依據以上的原因sqoop產生的。
2. sqoop的介紹
sqoop是連接關系型數據庫和hadoop的橋梁,主要有兩個方面(導入和導出):
A. 將關系型數據庫的數據導入到Hadoop 及其相關的系統中,如 Hive和HBase
B. 將數據從Hadoop 系統里抽取并導出到關系型數據庫
3.Sqoop的優點:
A. 可以高效、可控的利用資源,可以通過調整任務數來控制任務的并發度。
B. 可以自動的完成數據映射和轉換。由于導入數據庫是有類型的,它可以自動根據數據庫中的類型轉換到Hadoop 中,當然用戶也可以自定義它們之間的映射關系
C.支持多種數據庫,如mysql,orcale等數據庫
4. sqoop工作的機制:
將導入或導出命令翻譯成MapReduce程序來實現在翻譯出的,MapReduce 中主要是對InputFormat和OutputFormat進行定制
5. sqoop版本介紹:sqoop1和sqoop2
A. sqoop的版本sqoop1和sqoop2是兩個不同的版本,它們是完全不兼容的
B. 版本劃分方式: apache1.4.X之后的版本是1,1.99.0之上的版本是2
C. Sqoop2相比sqoop1的優勢有:
1) 它引入的sqoop Server,便于集中化的管理Connector或者其它的第三方插件;
2) 多種訪問方式:CLI、Web UI、REST API;
3) 它引入了基于角色的安全機制,管理員可以在sqoop Server上配置不同的角色。
D. Sqoop2和sqoop1的功能性對比:
E. sqoop1和sqoop2的架構區別:
1)sqoop1的架構圖:
版本號:1.4.X以后的sqoop1
在架構上:sqoop1使用sqoop客戶端直接提交代碼方式
訪問方式:CLI命令行控制臺方式訪問
安全性:命令或者腳本指定用戶數據庫名和密碼
原理:Sqoop工具接收到客戶端的shell命令或者Java api命令后,通過Sqoop中的任務翻譯器(Task Translator)將命令轉換為對應的MapReduce任務,而后將關系型數據庫和Hadoop中的數據進行相互轉移,進而完成數據的拷貝
2)sqoop2架構圖:
版本號:1.99.X以上的版本sqoop2
在架構上:sqoop2引入了 sqoop server,對對connector實現了集中的管理訪問方式:REST API、 JAVA API、 WEB UI以及CLI控制臺方式進行訪問?
CLI方式訪問,會通過交互過程界面,輸入的密碼信息會被看到,同時Sqoop2引入基亍角色的安全機制,Sqoop2比Sqoop多了一個Server端。
F. Sqoop1和sqoop2優缺點:
sqoop1優點:架構部署簡單
sqoop1缺點:命令行方式容易出錯,格式緊耦合,無法支持所有數據類型,安全機制不夠完善,例如密碼暴漏,安裝需要root權限,connector必須符合JDBC模型
sqoop2優點:多種交互方式,命令行,web UI,rest API,conncetor集中化管理,所有的鏈接安裝在sqoop server上,完善權限管理機制,connector規范化,僅僅負責數據的讀寫
sqoop2缺點:sqoop2的缺點,架構稍復雜,配置部署更繁瑣
二.安裝sqoop1:
1. 安裝前提:
Sqoop需要安裝在hive,hbase的服務器上,linux環境中必須有java和hadoop環境
Java 1.8.0_161
Hadoop ?2.8.5
2. 下載軟件:
軟件下載地址:http://mirrors.hust.edu.cn/apache/sqoop
此處下載的軟件是sqoop1的軟件包:sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
3. 安裝sqoop:
A. 解壓:
tar xf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
mv sqoop-1.4.7.bin__hadoop-2.6.0 /usr/local/sqoop
B. 修改配置文件:
cd /usr/local/sqoop/conf
cp sqoop-env-template.sh ?sqoop-env.sh
vim ?sqoop-env.sh
export HADOOP_COMMON_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=/usr/local/hadoop
export HIVE_HOME=/usr/local/hive
注意:為什么在sqoop-env.sh文件中會要求分別進行 common和mapreduce的配置呢
在apache的hadoop的安裝中四大組件都是安裝在同一個hadoop_home中的,但是在CDH, HDP中, 這些組件都是可選的。在安裝hadoop的時候,可以選擇性的只安裝HDFS或者YARN。CDH,HDP在安裝hadoop的時候,會把HDFS和MapReduce有可能分別安裝在不同的地方。
CDH(Cloudera’s Distribution, including Apache Hadoop),是Hadoop眾多分支中的一種,由Cloudera維護,基于穩定版本的Apache Hadoop構建,并集成了很多補丁,可直接用于生產環境
HDP(Hortonworks Data Platform)是hortworks推出的100%開源的hadoop發行版本,以YARN 作為其架構中心,包含pig、hive、phoniex、hbase、storm、spark等大量組件,在最新的2.4版本,監控UI實現與grafana集成
C. 將mysql的驅動包放到sqoop的lib目錄下
cp ?mysql-connector-java-5.1.46.jar /usr/local/sqoop/lib
D. 修改環境變量:
export SQOOP_HOME=/usr/local/sqoop
export PATH=$SQOOP_HOME/bin:$PATH
4.安裝顯示:
三.Sqoop的使用
1. 查看數據庫的名稱:
sqoop list-databases --connect jdbc:mysql://ip:3306/ --username 用戶名--password 密碼
2. 列舉出數據庫中的表名:
sqoop list-tables --connect jdbc:mysql://ip:3306/數據庫名稱?--username 用戶名?--password 密碼
3. 導入:
sqoop import ?
--connect jdbc:mysql://ip:3306/databasename ?#指定JDBC的URL 其中database指的是(Mysql或者Oracle)中的數據庫名
--table ?tablename ?#要讀取數據庫database中的表名???????????
--username root ?????#用戶名?
--password ?123456 ?#密碼????
--target-dir ??/path ?#指的是HDFS中導入表的存放目錄(注意:是目錄)
--fields-terminated-by '\t' ??#設定導入數據后每個字段的分隔符,默認;分隔
--lines-terminated-by '\n'????#設定導入數據后每行的分隔符
--m 1 ?#并發的map數量1,如果不設置默認啟動4個map task執行數據導入,則需要指定一個列來作為劃分map task任務的依據
-- where ’查詢條件‘ ??#導入查詢出來的內容,表的子集
--incremental ?append ?#增量導入
--check-column:column_id ??#指定增量導入時的參考列
--last-value:num ??#上一次導入column_id的最后一個值
--null-string ‘’ ??#導入的字段為空時,用指定的字符進行替換
以上導入到hdfs中
--hive-import ???#導入到hive
--hive-overwrite ??#可以多次寫入
--hive-database ?databasename ??#創建數據庫,如果數據庫不存在的必須寫,默認存放在default中
--create-hive-table ??#sqoop默認自動創建hive表
--delete-target-dir ?#刪除中間結果數據目錄
--hive-table tablename ??#創建表名
4. 導入所有的表放到hdfs中:
sqoop import-all-tables ?--connect jdbc:mysql://ip:3306/庫名 --username 用戶名 ?--password ?密碼 ?--target-dir 導入存放的目錄
5. 導出(目標表必須在mysql數據庫中已經建好,數據存放在hdfs中):
sqoop export
--connect jdbs:mysql://ip:3600/庫名 #指定JDBC的URL 其中database指的是(Mysql或者Oracle)中的數據庫名
--username用戶名 ?#數據庫的用戶名
--password密碼 ????#數據庫的密碼
--table表名 ???????#需要導入到數據庫中的表名
--export-dir導入數據的名稱 ???#hdfs上的數據文件
--fields-terminated-by ‘\t’ ??????#HDFS中被導出的文件字段之間的分隔符
--lines-terminated-by '\n'????#設定導入數據后每行的分隔符
--m 1 ?#并發的map數量1,如果不設置默認啟動4個map task執行數據導入,則需要指定一個列來作為劃分map task任務的依據
--incremental ?append ?#增量導入
--check-column:column_id ??#指定增量導入時的參考列
--last-value:num ??#上一次導入column_id的最后一個值
--null-string ‘’ ??#導出的字段為空時,用指定的字符進行替換
6. 創建和維護sqoop作業:sqoop作業創建并保存導入和導出命令。
A.創建作業:
sqoop job --create作業名 -- import --connect jdbc:mysql://ip:3306/數據庫 --username 用戶名 --table 表名 --password 密碼 --m 1 --target-dir ?存放目錄
注意加粗的地方是有空格的
B. 驗證作業(顯示已經保存的作業):
sqoop job ?--list
C. 顯示作業詳細信息:
sqoop ?job --show作業名稱
D.刪除作業:
sqoop ?job ?--delete作業名
E. 執行作業:
sqoop ?job --exec作業
7. eval:它允許用戶針對各自的數據庫服務器執行用戶定義的查詢,并在控制臺中預覽結果,可以使用期望導入結果數據。
A.選擇查詢:
sqoop eval -connect jdbc:mysql://ip:3306/數據庫 --username 用戶名 ?--password 密碼 --query ”select * from emp limit 1“
B.插入查詢:
sqoop eval ?jdbc:mysql://ip:3306/數據庫 --username 用戶名 ?--password 密碼?--query "insert into emp values(4,'ceshi','hebei')"
8.codegen:從面向對象的應用程序的角度來看,每個數據庫表都有一個DAO類,它包含用于初始化對象的'getter'和'setter'方法。該工具(-codegen)自動生成DAO類。
它根據表模式結構在Java中生成DAO類。Java定義被實例化為導入過程的一部分。這個工具的主要用途是檢查Java是否丟失了Java代碼。如果是這樣,它將使用字段之間的默認分隔符創建Java的新版本,其實就是生成表名.java
語法:sqoop codegen --connectjdbc:mysql://ip:3306/數據庫 --username 用戶名 --table 表名 --m 1 --password 密碼
回顯中會顯示文件存放的位置。