真正了解sqoop的一切

一.sqoop的簡單概論

1.sqoop產生的原因:

A. 多數使用hadoop技術的處理大數據業務的企業,有大量的數據存儲在關系型數據中。

B. 由于沒有工具支持,對hadoop和關系型數據庫之間數據傳輸是一個很困難的事。

依據以上的原因sqoop產生的。

2. sqoop的介紹

sqoop是連接關系型數據庫和hadoop的橋梁,主要有兩個方面(導入和導出):

A. 將關系型數據庫的數據導入到Hadoop 及其相關的系統中,如 Hive和HBase

B. 將數據從Hadoop 系統里抽取并導出到關系型數據庫

導出和導入

3.Sqoop的優點:

A. 可以高效、可控的利用資源,可以通過調整任務數來控制任務的并發度。

B. 可以自動的完成數據映射和轉換。由于導入數據庫是有類型的,它可以自動根據數據庫中的類型轉換到Hadoop 中,當然用戶也可以自定義它們之間的映射關系

C.支持多種數據庫,如mysql,orcale等數據庫

4. sqoop工作的機制:

將導入或導出命令翻譯成MapReduce程序來實現在翻譯出的,MapReduce 中主要是對InputFormat和OutputFormat進行定制

5. sqoop版本介紹:sqoop1和sqoop2

A. sqoop的版本sqoop1和sqoop2是兩個不同的版本,它們是完全不兼容的

B. 版本劃分方式: apache1.4.X之后的版本是1,1.99.0之上的版本是2

C. Sqoop2相比sqoop1的優勢有:

1) 它引入的sqoop Server,便于集中化的管理Connector或者其它的第三方插件;

2) 多種訪問方式:CLI、Web UI、REST API;

3) 它引入了基于角色的安全機制,管理員可以在sqoop Server上配置不同的角色。

D. Sqoop2和sqoop1的功能性對比:

功能性對比

E. sqoop1和sqoop2的架構區別:

1)sqoop1的架構圖:

sqoop1的架構圖

版本號:1.4.X以后的sqoop1

在架構上:sqoop1使用sqoop客戶端直接提交代碼方式

訪問方式:CLI命令行控制臺方式訪問

安全性:命令或者腳本指定用戶數據庫名和密碼

原理:Sqoop工具接收到客戶端的shell命令或者Java api命令后,通過Sqoop中的任務翻譯器(Task Translator)將命令轉換為對應的MapReduce任務,而后將關系型數據庫和Hadoop中的數據進行相互轉移,進而完成數據的拷貝

2)sqoop2架構圖:

sqoop2架構圖

版本號:1.99.X以上的版本sqoop2

在架構上:sqoop2引入了 sqoop server,對對connector實現了集中的管理訪問方式:REST API、 JAVA API、 WEB UI以及CLI控制臺方式進行訪問?

CLI方式訪問,會通過交互過程界面,輸入的密碼信息會被看到,同時Sqoop2引入基亍角色的安全機制,Sqoop2比Sqoop多了一個Server端。

F. Sqoop1和sqoop2優缺點:

sqoop1優點:架構部署簡單

sqoop1缺點:命令行方式容易出錯,格式緊耦合,無法支持所有數據類型,安全機制不夠完善,例如密碼暴漏,安裝需要root權限,connector必須符合JDBC模型

sqoop2優點:多種交互方式,命令行,web UI,rest API,conncetor集中化管理,所有的鏈接安裝在sqoop server上,完善權限管理機制,connector規范化,僅僅負責數據的讀寫

sqoop2缺點:sqoop2的缺點,架構稍復雜,配置部署更繁瑣

二.安裝sqoop1:

1. 安裝前提:

Sqoop需要安裝在hive,hbase的服務器上,linux環境中必須有java和hadoop環境

Java 1.8.0_161

Hadoop ?2.8.5

2. 下載軟件:

軟件下載地址:http://mirrors.hust.edu.cn/apache/sqoop

此處下載的軟件是sqoop1的軟件包:sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

3. 安裝sqoop:

A. 解壓:

tar xf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

mv sqoop-1.4.7.bin__hadoop-2.6.0 /usr/local/sqoop

B. 修改配置文件:

cd /usr/local/sqoop/conf

cp sqoop-env-template.sh ?sqoop-env.sh

vim ?sqoop-env.sh

export HADOOP_COMMON_HOME=/usr/local/hadoop

export HADOOP_MAPRED_HOME=/usr/local/hadoop

export HIVE_HOME=/usr/local/hive

注意:為什么在sqoop-env.sh文件中會要求分別進行 common和mapreduce的配置呢

在apache的hadoop的安裝中四大組件都是安裝在同一個hadoop_home中的,但是在CDH, HDP中, 這些組件都是可選的。在安裝hadoop的時候,可以選擇性的只安裝HDFS或者YARN。CDH,HDP在安裝hadoop的時候,會把HDFS和MapReduce有可能分別安裝在不同的地方。

CDH(Cloudera’s Distribution, including Apache Hadoop),是Hadoop眾多分支中的一種,由Cloudera維護,基于穩定版本的Apache Hadoop構建,并集成了很多補丁,可直接用于生產環境

HDP(Hortonworks Data Platform)是hortworks推出的100%開源的hadoop發行版本,以YARN 作為其架構中心,包含pig、hive、phoniex、hbase、storm、spark等大量組件,在最新的2.4版本,監控UI實現與grafana集成

C. 將mysql的驅動包放到sqoop的lib目錄下

cp ?mysql-connector-java-5.1.46.jar /usr/local/sqoop/lib

D. 修改環境變量:

export SQOOP_HOME=/usr/local/sqoop

export PATH=$SQOOP_HOME/bin:$PATH

4.安裝顯示:

安裝成功顯示

三.Sqoop的使用

1. 查看數據庫的名稱:

sqoop list-databases --connect jdbc:mysql://ip:3306/ --username 用戶名--password 密碼

2. 列舉出數據庫中的表名:

sqoop list-tables --connect jdbc:mysql://ip:3306/數據庫名稱?--username 用戶名?--password 密碼

3. 導入:

sqoop import ?

--connect jdbc:mysql://ip:3306/databasename ?#指定JDBC的URL 其中database指的是(Mysql或者Oracle)中的數據庫名

--table ?tablename ?#要讀取數據庫database中的表名???????????

--username root ?????#用戶名?

--password ?123456 ?#密碼????

--target-dir ??/path ?#指的是HDFS中導入表的存放目錄(注意:是目錄)

--fields-terminated-by '\t' ??#設定導入數據后每個字段的分隔符,默認;分隔

--lines-terminated-by '\n'????#設定導入數據后每行的分隔符

--m 1 ?#并發的map數量1,如果不設置默認啟動4個map task執行數據導入,則需要指定一個列來作為劃分map task任務的依據

-- where ’查詢條件‘ ??#導入查詢出來的內容,表的子集

--incremental ?append ?#增量導入

--check-column:column_id ??#指定增量導入時的參考列

--last-value:num ??#上一次導入column_id的最后一個值

--null-string ‘’ ??#導入的字段為空時,用指定的字符進行替換

以上導入到hdfs中

--hive-import ???#導入到hive

--hive-overwrite ??#可以多次寫入

--hive-database ?databasename ??#創建數據庫,如果數據庫不存在的必須寫,默認存放在default中

--create-hive-table ??#sqoop默認自動創建hive表

--delete-target-dir ?#刪除中間結果數據目錄

--hive-table tablename ??#創建表名

4. 導入所有的表放到hdfs中:

sqoop import-all-tables ?--connect jdbc:mysql://ip:3306/庫名 --username 用戶名 ?--password ?密碼 ?--target-dir 導入存放的目錄

5. 導出(目標表必須在mysql數據庫中已經建好,數據存放在hdfs中):

sqoop export

--connect jdbs:mysql://ip:3600/庫名 #指定JDBC的URL 其中database指的是(Mysql或者Oracle)中的數據庫名

--username用戶名 ?#數據庫的用戶名

--password密碼 ????#數據庫的密碼

--table表名 ???????#需要導入到數據庫中的表名

--export-dir導入數據的名稱 ???#hdfs上的數據文件

--fields-terminated-by ‘\t’ ??????#HDFS中被導出的文件字段之間的分隔符

--lines-terminated-by '\n'????#設定導入數據后每行的分隔符

--m 1 ?#并發的map數量1,如果不設置默認啟動4個map task執行數據導入,則需要指定一個列來作為劃分map task任務的依據

--incremental ?append ?#增量導入

--check-column:column_id ??#指定增量導入時的參考列

--last-value:num ??#上一次導入column_id的最后一個值

--null-string ‘’ ??#導出的字段為空時,用指定的字符進行替換

6. 創建和維護sqoop作業:sqoop作業創建并保存導入和導出命令。

A.創建作業:

sqoop job --create作業名 -- import --connect jdbc:mysql://ip:3306/數據庫 --username 用戶名 --table 表名 --password 密碼 --m 1 --target-dir ?存放目錄

注意加粗的地方是有空格的

B. 驗證作業(顯示已經保存的作業):

sqoop job ?--list

C. 顯示作業詳細信息:

sqoop ?job --show作業名稱

D.刪除作業:

sqoop ?job ?--delete作業名

E. 執行作業:

sqoop ?job --exec作業

7. eval:它允許用戶針對各自的數據庫服務器執行用戶定義的查詢,并在控制臺中預覽結果,可以使用期望導入結果數據。

A.選擇查詢:

sqoop eval -connect jdbc:mysql://ip:3306/數據庫 --username 用戶名 ?--password 密碼 --query ”select * from emp limit 1“

選擇查詢

B.插入查詢:

sqoop eval ?jdbc:mysql://ip:3306/數據庫 --username 用戶名 ?--password 密碼?--query "insert into emp values(4,'ceshi','hebei')"

插入查詢

8.codegen:從面向對象的應用程序的角度來看,每個數據庫表都有一個DAO類,它包含用于初始化對象的'getter'和'setter'方法。該工具(-codegen)自動生成DAO類。

它根據表模式結構在Java中生成DAO類。Java定義被實例化為導入過程的一部分。這個工具的主要用途是檢查Java是否丟失了Java代碼。如果是這樣,它將使用字段之間的默認分隔符創建Java的新版本,其實就是生成表名.java

語法:sqoop codegen --connectjdbc:mysql://ip:3306/數據庫 --username 用戶名 --table 表名 --m 1 --password 密碼

回顯中會顯示文件存放的位置。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 1/列出mysql數據庫中的所有數據庫sqoop list-databases -connect jdbc:mys...
    時待吾閱讀 2,755評論 1 5
  • 1/列出mysql數據庫中的所有數據庫sqoop list-databases -connect jdbc:mys...
    時待吾閱讀 1,366評論 0 0
  • 上節課學習了Hadoop集群測試,這節課我們一起學習一下Sqoop,Sqoop是專門用來遷移數據的,它可以把數據庫...
    文子軒閱讀 7,023評論 1 9
  • Apache Sqoop is a tool designed for efficiently transferr...
    白面葫蘆娃92閱讀 1,405評論 0 0
  • 最近看了一本書《荷爾蒙戰爭》,顛覆了我對性別差異的認知。作者認為人類世界過去對男女性別差異是源于生理構造的不...
    紫夜星沙閱讀 888評論 0 12