小柔被民工玩成浪娃37,少妇xxxxx性开放,笨蛋美人挨炒日常

一．sqoop的簡單概論

1.sqoop產生的原因：

A. 多數使用hadoop技術的處理大數據業務的企業，有大量的數據存儲在關系型數據中。

B. 由于沒有工具支持，對hadoop和關系型數據庫之間數據傳輸是一個很困難的事。

依據以上的原因sqoop產生的。

2. sqoop的介紹

sqoop是連接關系型數據庫和hadoop的橋梁，主要有兩個方面(導入和導出)：

A. 將關系型數據庫的數據導入到Hadoop 及其相關的系統中，如 Hive和HBase

B. 將數據從Hadoop 系統里抽取并導出到關系型數據庫

導出和導入

3.Sqoop的優點：

A. 可以高效、可控的利用資源，可以通過調整任務數來控制任務的并發度。

B. 可以自動的完成數據映射和轉換。由于導入數據庫是有類型的，它可以自動根據數據庫中的類型轉換到Hadoop 中，當然用戶也可以自定義它們之間的映射關系

C.支持多種數據庫，如mysql，orcale等數據庫

4. sqoop工作的機制：

將導入或導出命令翻譯成MapReduce程序來實現在翻譯出的,MapReduce 中主要是對InputFormat和OutputFormat進行定制

5. sqoop版本介紹：sqoop1和sqoop2

A. sqoop的版本sqoop1和sqoop2是兩個不同的版本，它們是完全不兼容的

B. 版本劃分方式: apache1.4.X之后的版本是1,1.99.0之上的版本是2

C. Sqoop2相比sqoop1的優勢有：

1) 它引入的sqoop Server，便于集中化的管理Connector或者其它的第三方插件；

2) 多種訪問方式：CLI、Web UI、REST API；

3) 它引入了基于角色的安全機制，管理員可以在sqoop Server上配置不同的角色。

D. Sqoop2和sqoop1的功能性對比：

功能性對比

E. sqoop1和sqoop2的架構區別：

1）sqoop1的架構圖：

sqoop1的架構圖

版本號：1.4.X以后的sqoop1

在架構上：sqoop1使用sqoop客戶端直接提交代碼方式

訪問方式：CLI命令行控制臺方式訪問

安全性：命令或者腳本指定用戶數據庫名和密碼

原理：Sqoop工具接收到客戶端的shell命令或者Java api命令后，通過Sqoop中的任務翻譯器(Task Translator)將命令轉換為對應的MapReduce任務，而后將關系型數據庫和Hadoop中的數據進行相互轉移，進而完成數據的拷貝

2）sqoop2架構圖：

sqoop2架構圖

版本號：1.99.X以上的版本sqoop2

在架構上：sqoop2引入了 sqoop server,對對connector實現了集中的管理訪問方式：REST API、 JAVA API、 WEB UI以及CLI控制臺方式進行訪問?

CLI方式訪問，會通過交互過程界面，輸入的密碼信息會被看到，同時Sqoop2引入基亍角色的安全機制，Sqoop2比Sqoop多了一個Server端。

F. Sqoop1和sqoop2優缺點：

sqoop1優點：架構部署簡單

sqoop1缺點：命令行方式容易出錯，格式緊耦合，無法支持所有數據類型，安全機制不夠完善，例如密碼暴漏，安裝需要root權限，connector必須符合JDBC模型

sqoop2優點：多種交互方式，命令行，web UI，rest API，conncetor集中化管理，所有的鏈接安裝在sqoop server上，完善權限管理機制，connector規范化，僅僅負責數據的讀寫

sqoop2缺點：sqoop2的缺點，架構稍復雜，配置部署更繁瑣

二．安裝sqoop1：

1. 安裝前提：

Sqoop需要安裝在hive，hbase的服務器上，linux環境中必須有java和hadoop環境

Java 1.8.0_161

Hadoop ?2.8.5

2. 下載軟件：

軟件下載地址：http://mirrors.hust.edu.cn/apache/sqoop

此處下載的軟件是sqoop1的軟件包：sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

3. 安裝sqoop：

A. 解壓：

tar xf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

mv sqoop-1.4.7.bin__hadoop-2.6.0 /usr/local/sqoop

B. 修改配置文件：

cd /usr/local/sqoop/conf

cp sqoop-env-template.sh ?sqoop-env.sh

vim ?sqoop-env.sh

export HADOOP_COMMON_HOME=/usr/local/hadoop

export HADOOP_MAPRED_HOME=/usr/local/hadoop

export HIVE_HOME=/usr/local/hive

注意：為什么在sqoop-env.sh文件中會要求分別進行 common和mapreduce的配置呢

在apache的hadoop的安裝中四大組件都是安裝在同一個hadoop_home中的，但是在CDH, HDP中，這些組件都是可選的。在安裝hadoop的時候，可以選擇性的只安裝HDFS或者YARN。CDH,HDP在安裝hadoop的時候，會把HDFS和MapReduce有可能分別安裝在不同的地方。

CDH(Cloudera’s Distribution, including Apache Hadoop)，是Hadoop眾多分支中的一種，由Cloudera維護，基于穩定版本的Apache Hadoop構建，并集成了很多補丁，可直接用于生產環境

HDP(Hortonworks Data Platform)是hortworks推出的100%開源的hadoop發行版本,以YARN 作為其架構中心，包含pig、hive、phoniex、hbase、storm、spark等大量組件，在最新的2.4版本，監控UI實現與grafana集成

C. 將mysql的驅動包放到sqoop的lib目錄下

cp ?mysql-connector-java-5.1.46.jar /usr/local/sqoop/lib

D. 修改環境變量：

export SQOOP_HOME=/usr/local/sqoop

export PATH=$SQOOP_HOME/bin:$PATH

4.安裝顯示：

安裝成功顯示

三．Sqoop的使用

1. 查看數據庫的名稱：

sqoop list-databases --connect jdbc:mysql://ip:3306/ --username 用戶名--password 密碼

2. 列舉出數據庫中的表名：

sqoop list-tables --connect jdbc:mysql://ip:3306/數據庫名稱?--username 用戶名?--password 密碼

3. 導入：

sqoop import ?

--connect jdbc:mysql://ip:3306/databasename ?#指定JDBC的URL 其中database指的是(Mysql或者Oracle)中的數據庫名

--table ?tablename ?#要讀取數據庫database中的表名???????????

--username root ?????#用戶名?

--password ?123456 ?#密碼????

--target-dir ??/path ?#指的是HDFS中導入表的存放目錄(注意：是目錄)

--fields-terminated-by '\t' ??#設定導入數據后每個字段的分隔符，默認；分隔

--lines-terminated-by '\n'????#設定導入數據后每行的分隔符

--m 1 ?#并發的map數量1,如果不設置默認啟動4個map task執行數據導入，則需要指定一個列來作為劃分map task任務的依據

-- where ’查詢條件‘ ??#導入查詢出來的內容，表的子集

--incremental ?append ?#增量導入

--check-column：column_id ??#指定增量導入時的參考列

--last-value：num ??#上一次導入column_id的最后一個值

--null-string ‘’ ??#導入的字段為空時，用指定的字符進行替換

以上導入到hdfs中

--hive-import ???#導入到hive

--hive-overwrite ??#可以多次寫入

--hive-database ?databasename ??#創建數據庫，如果數據庫不存在的必須寫，默認存放在default中

--create-hive-table ??#sqoop默認自動創建hive表

--delete-target-dir ?#刪除中間結果數據目錄

--hive-table tablename ??#創建表名

4. 導入所有的表放到hdfs中：

sqoop import-all-tables ?--connect jdbc:mysql://ip:3306/庫名 --username 用戶名 ?--password ?密碼 ?--target-dir 導入存放的目錄

5. 導出(目標表必須在mysql數據庫中已經建好，數據存放在hdfs中)：

sqoop export

--connect jdbs:mysql://ip:3600/庫名 #指定JDBC的URL 其中database指的是(Mysql或者Oracle)中的數據庫名

--username用戶名 ?#數據庫的用戶名

--password密碼 ????#數據庫的密碼

--table表名 ???????#需要導入到數據庫中的表名

--export-dir導入數據的名稱 ???#hdfs上的數據文件

--fields-terminated-by ‘\t’ ??????#HDFS中被導出的文件字段之間的分隔符

--lines-terminated-by '\n'????#設定導入數據后每行的分隔符

--m 1 ?#并發的map數量1,如果不設置默認啟動4個map task執行數據導入，則需要指定一個列來作為劃分map task任務的依據

--incremental ?append ?#增量導入

--check-column：column_id ??#指定增量導入時的參考列

--last-value：num ??#上一次導入column_id的最后一個值

--null-string ‘’ ??#導出的字段為空時，用指定的字符進行替換

6. 創建和維護sqoop作業：sqoop作業創建并保存導入和導出命令。

A.創建作業:

sqoop job --create作業名 -- import　--connect jdbc:mysql://ip:3306/數據庫 --username 用戶名 --table 表名 --password 密碼 --m 1 --target-dir ?存放目錄

注意加粗的地方是有空格的

B. 驗證作業（顯示已經保存的作業）：

sqoop job ?--list

C. 顯示作業詳細信息：

sqoop ?job --show作業名稱

D.刪除作業：

sqoop ?job ?--delete作業名

E. 執行作業：

sqoop ?job --exec作業

7. eval：它允許用戶針對各自的數據庫服務器執行用戶定義的查詢，并在控制臺中預覽結果，可以使用期望導入結果數據。

A.選擇查詢：

sqoop eval -connect jdbc:mysql://ip:3306/數據庫 --username 用戶名 ?--password 密碼 --query ”select * from emp limit 1“

選擇查詢

Ｂ．插入查詢：

sqoop eval ?jdbc:mysql://ip:3306/數據庫 --username 用戶名 ?--password 密碼?--query "insert into emp values(4,'ceshi','hebei')"

插入查詢

8.codegen：從面向對象的應用程序的角度來看，每個數據庫表都有一個DAO類，它包含用于初始化對象的'getter'和'setter'方法。該工具（-codegen）自動生成DAO類。

它根據表模式結構在Java中生成DAO類。Java定義被實例化為導入過程的一部分。這個工具的主要用途是檢查Java是否丟失了Java代碼。如果是這樣，它將使用字段之間的默認分隔符創建Java的新版本,其實就是生成表名.java

語法：sqoop codegen --connectjdbc:mysql://ip:3306/數據庫 --username 用戶名 --table 表名 --m 1 --password 密碼

回顯中會顯示文件存放的位置。

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

真正了解sqoop的一切

真正了解sqoop的一切

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

真正了解sqoop的一切

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频