真正了解sqoop的一切

一.sqoop的簡單概論

1.sqoop產生的原因:

A. 多數使用hadoop技術的處理大數據業務的企業,有大量的數據存儲在關系型數據中。

B. 由于沒有工具支持,對hadoop和關系型數據庫之間數據傳輸是一個很困難的事。

依據以上的原因sqoop產生的。

2. sqoop的介紹

sqoop是連接關系型數據庫和hadoop的橋梁,主要有兩個方面(導入和導出):

A. 將關系型數據庫的數據導入到Hadoop 及其相關的系統中,如 Hive和HBase

B. 將數據從Hadoop 系統里抽取并導出到關系型數據庫

導出和導入

3.Sqoop的優點:

A. 可以高效、可控的利用資源,可以通過調整任務數來控制任務的并發度。

B. 可以自動的完成數據映射和轉換。由于導入數據庫是有類型的,它可以自動根據數據庫中的類型轉換到Hadoop 中,當然用戶也可以自定義它們之間的映射關系

C.支持多種數據庫,如mysql,orcale等數據庫

4. sqoop工作的機制:

將導入或導出命令翻譯成MapReduce程序來實現在翻譯出的,MapReduce 中主要是對InputFormat和OutputFormat進行定制

5. sqoop版本介紹:sqoop1和sqoop2

A. sqoop的版本sqoop1和sqoop2是兩個不同的版本,它們是完全不兼容的

B. 版本劃分方式: apache1.4.X之后的版本是1,1.99.0之上的版本是2

C. Sqoop2相比sqoop1的優勢有:

1) 它引入的sqoop Server,便于集中化的管理Connector或者其它的第三方插件;

2) 多種訪問方式:CLI、Web UI、REST API;

3) 它引入了基于角色的安全機制,管理員可以在sqoop Server上配置不同的角色。

D. Sqoop2和sqoop1的功能性對比:

功能性對比

E. sqoop1和sqoop2的架構區別:

1)sqoop1的架構圖:

sqoop1的架構圖

版本號:1.4.X以后的sqoop1

在架構上:sqoop1使用sqoop客戶端直接提交代碼方式

訪問方式:CLI命令行控制臺方式訪問

安全性:命令或者腳本指定用戶數據庫名和密碼

原理:Sqoop工具接收到客戶端的shell命令或者Java api命令后,通過Sqoop中的任務翻譯器(Task Translator)將命令轉換為對應的MapReduce任務,而后將關系型數據庫和Hadoop中的數據進行相互轉移,進而完成數據的拷貝

2)sqoop2架構圖:

sqoop2架構圖

版本號:1.99.X以上的版本sqoop2

在架構上:sqoop2引入了 sqoop server,對對connector實現了集中的管理訪問方式:REST API、 JAVA API、 WEB UI以及CLI控制臺方式進行訪問?

CLI方式訪問,會通過交互過程界面,輸入的密碼信息會被看到,同時Sqoop2引入基亍角色的安全機制,Sqoop2比Sqoop多了一個Server端。

F. Sqoop1和sqoop2優缺點:

sqoop1優點:架構部署簡單

sqoop1缺點:命令行方式容易出錯,格式緊耦合,無法支持所有數據類型,安全機制不夠完善,例如密碼暴漏,安裝需要root權限,connector必須符合JDBC模型

sqoop2優點:多種交互方式,命令行,web UI,rest API,conncetor集中化管理,所有的鏈接安裝在sqoop server上,完善權限管理機制,connector規范化,僅僅負責數據的讀寫

sqoop2缺點:sqoop2的缺點,架構稍復雜,配置部署更繁瑣

二.安裝sqoop1:

1. 安裝前提:

Sqoop需要安裝在hive,hbase的服務器上,linux環境中必須有java和hadoop環境

Java 1.8.0_161

Hadoop ?2.8.5

2. 下載軟件:

軟件下載地址:http://mirrors.hust.edu.cn/apache/sqoop

此處下載的軟件是sqoop1的軟件包:sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

3. 安裝sqoop:

A. 解壓:

tar xf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

mv sqoop-1.4.7.bin__hadoop-2.6.0 /usr/local/sqoop

B. 修改配置文件:

cd /usr/local/sqoop/conf

cp sqoop-env-template.sh ?sqoop-env.sh

vim ?sqoop-env.sh

export HADOOP_COMMON_HOME=/usr/local/hadoop

export HADOOP_MAPRED_HOME=/usr/local/hadoop

export HIVE_HOME=/usr/local/hive

注意:為什么在sqoop-env.sh文件中會要求分別進行 common和mapreduce的配置呢

在apache的hadoop的安裝中四大組件都是安裝在同一個hadoop_home中的,但是在CDH, HDP中, 這些組件都是可選的。在安裝hadoop的時候,可以選擇性的只安裝HDFS或者YARN。CDH,HDP在安裝hadoop的時候,會把HDFS和MapReduce有可能分別安裝在不同的地方。

CDH(Cloudera’s Distribution, including Apache Hadoop),是Hadoop眾多分支中的一種,由Cloudera維護,基于穩定版本的Apache Hadoop構建,并集成了很多補丁,可直接用于生產環境

HDP(Hortonworks Data Platform)是hortworks推出的100%開源的hadoop發行版本,以YARN 作為其架構中心,包含pig、hive、phoniex、hbase、storm、spark等大量組件,在最新的2.4版本,監控UI實現與grafana集成

C. 將mysql的驅動包放到sqoop的lib目錄下

cp ?mysql-connector-java-5.1.46.jar /usr/local/sqoop/lib

D. 修改環境變量:

export SQOOP_HOME=/usr/local/sqoop

export PATH=$SQOOP_HOME/bin:$PATH

4.安裝顯示:

安裝成功顯示

三.Sqoop的使用

1. 查看數據庫的名稱:

sqoop list-databases --connect jdbc:mysql://ip:3306/ --username 用戶名--password 密碼

2. 列舉出數據庫中的表名:

sqoop list-tables --connect jdbc:mysql://ip:3306/數據庫名稱?--username 用戶名?--password 密碼

3. 導入:

sqoop import ?

--connect jdbc:mysql://ip:3306/databasename ?#指定JDBC的URL 其中database指的是(Mysql或者Oracle)中的數據庫名

--table ?tablename ?#要讀取數據庫database中的表名???????????

--username root ?????#用戶名?

--password ?123456 ?#密碼????

--target-dir ??/path ?#指的是HDFS中導入表的存放目錄(注意:是目錄)

--fields-terminated-by '\t' ??#設定導入數據后每個字段的分隔符,默認;分隔

--lines-terminated-by '\n'????#設定導入數據后每行的分隔符

--m 1 ?#并發的map數量1,如果不設置默認啟動4個map task執行數據導入,則需要指定一個列來作為劃分map task任務的依據

-- where ’查詢條件‘ ??#導入查詢出來的內容,表的子集

--incremental ?append ?#增量導入

--check-column:column_id ??#指定增量導入時的參考列

--last-value:num ??#上一次導入column_id的最后一個值

--null-string ‘’ ??#導入的字段為空時,用指定的字符進行替換

以上導入到hdfs中

--hive-import ???#導入到hive

--hive-overwrite ??#可以多次寫入

--hive-database ?databasename ??#創建數據庫,如果數據庫不存在的必須寫,默認存放在default中

--create-hive-table ??#sqoop默認自動創建hive表

--delete-target-dir ?#刪除中間結果數據目錄

--hive-table tablename ??#創建表名

4. 導入所有的表放到hdfs中:

sqoop import-all-tables ?--connect jdbc:mysql://ip:3306/庫名 --username 用戶名 ?--password ?密碼 ?--target-dir 導入存放的目錄

5. 導出(目標表必須在mysql數據庫中已經建好,數據存放在hdfs中):

sqoop export

--connect jdbs:mysql://ip:3600/庫名 #指定JDBC的URL 其中database指的是(Mysql或者Oracle)中的數據庫名

--username用戶名 ?#數據庫的用戶名

--password密碼 ????#數據庫的密碼

--table表名 ???????#需要導入到數據庫中的表名

--export-dir導入數據的名稱 ???#hdfs上的數據文件

--fields-terminated-by ‘\t’ ??????#HDFS中被導出的文件字段之間的分隔符

--lines-terminated-by '\n'????#設定導入數據后每行的分隔符

--m 1 ?#并發的map數量1,如果不設置默認啟動4個map task執行數據導入,則需要指定一個列來作為劃分map task任務的依據

--incremental ?append ?#增量導入

--check-column:column_id ??#指定增量導入時的參考列

--last-value:num ??#上一次導入column_id的最后一個值

--null-string ‘’ ??#導出的字段為空時,用指定的字符進行替換

6. 創建和維護sqoop作業:sqoop作業創建并保存導入和導出命令。

A.創建作業:

sqoop job --create作業名 -- import --connect jdbc:mysql://ip:3306/數據庫 --username 用戶名 --table 表名 --password 密碼 --m 1 --target-dir ?存放目錄

注意加粗的地方是有空格的

B. 驗證作業(顯示已經保存的作業):

sqoop job ?--list

C. 顯示作業詳細信息:

sqoop ?job --show作業名稱

D.刪除作業:

sqoop ?job ?--delete作業名

E. 執行作業:

sqoop ?job --exec作業

7. eval:它允許用戶針對各自的數據庫服務器執行用戶定義的查詢,并在控制臺中預覽結果,可以使用期望導入結果數據。

A.選擇查詢:

sqoop eval -connect jdbc:mysql://ip:3306/數據庫 --username 用戶名 ?--password 密碼 --query ”select * from emp limit 1“

選擇查詢

B.插入查詢:

sqoop eval ?jdbc:mysql://ip:3306/數據庫 --username 用戶名 ?--password 密碼?--query "insert into emp values(4,'ceshi','hebei')"

插入查詢

8.codegen:從面向對象的應用程序的角度來看,每個數據庫表都有一個DAO類,它包含用于初始化對象的'getter'和'setter'方法。該工具(-codegen)自動生成DAO類。

它根據表模式結構在Java中生成DAO類。Java定義被實例化為導入過程的一部分。這個工具的主要用途是檢查Java是否丟失了Java代碼。如果是這樣,它將使用字段之間的默認分隔符創建Java的新版本,其實就是生成表名.java

語法:sqoop codegen --connectjdbc:mysql://ip:3306/數據庫 --username 用戶名 --table 表名 --m 1 --password 密碼

回顯中會顯示文件存放的位置。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,443評論 6 532
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,530評論 3 416
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,407評論 0 375
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,981評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,759評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,204評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,263評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,415評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,955評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,782評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,983評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,528評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,222評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,650評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,892評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,675評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,967評論 2 374

推薦閱讀更多精彩內容

  • 1/列出mysql數據庫中的所有數據庫sqoop list-databases -connect jdbc:mys...
    時待吾閱讀 2,749評論 1 5
  • 1/列出mysql數據庫中的所有數據庫sqoop list-databases -connect jdbc:mys...
    時待吾閱讀 1,358評論 0 0
  • 上節課學習了Hadoop集群測試,這節課我們一起學習一下Sqoop,Sqoop是專門用來遷移數據的,它可以把數據庫...
    文子軒閱讀 6,972評論 1 9
  • Apache Sqoop is a tool designed for efficiently transferr...
    白面葫蘆娃92閱讀 1,386評論 0 0
  • 最近看了一本書《荷爾蒙戰爭》,顛覆了我對性別差異的認知。作者認為人類世界過去對男女性別差異是源于生理構造的不...
    紫夜星沙閱讀 843評論 0 12