Hive和數據庫
Hive有自己的語言,叫HQL(近似于SQL),Hive是基于Hadoop的一個數據倉庫,不是數據庫.
1. 像mysql,oracle之類的數據庫,他們更關注業務交易處理(OLTP),追求交易的速度,交易完整性,數據的一致性等。
2. 數據倉庫更關注數據分析層面(OLAP),強調數據分析的效率,復雜查詢的速度,數據之間的相關性分析,所以使用的多維模型,從而提高數據分析的效率。
3. Hive 是建立在 Hadoop 之上的,所有 Hive 的數據都是存儲在 HDFS 中的。而數據庫則可以將數據保存在塊設備或者本地文件系統中。
4. Hive必須要依賴一個數據庫,因為Hive要做一個元數據到原來的映射,每一個原本的數據都需要存到數據庫的,假如相對于的數據庫被刪了,那Hive就沒了映射的源頭了,就沒法用
Hive的優點
1. 操作接口采用類SQL語法,提供快速開發的能力。
2. 避免了去寫MapReduce,減少開發人員的效率和心靈上的創傷
3. Hive的執行延遲比較高,因此hive常用于數據分析,對實時性要求不高的場合
4. Hive優勢在于處理大數據,對于處理小數據沒有優勢,因為Hive的執行延遲比較高
5. Hive支持用戶自定義函數,用戶可以根據自己的需求來實現自己的函數。
Hive的缺點
1. 完全不會MR的話,無法處理性能的優化
2. MR太慢,太笨重...
3. Spark Core強于MR100倍...Spark SQL底層走的Spark Core,它可以對接Hive...
4. 不適合關系型處理,不適合實時查詢和行情分析,延遲比較高
Hive的架構
Hive通過給用戶提供的一系列交互接口,接收到用戶的指令(SQL),使用自己的Driver,結合元數據(MetaStore),將這些指令翻譯成MapReduce,提交到Hadoop中執行,最后,將執行返回的結果輸出到用戶交互接口。
1. 用戶接口:Client? ????????? 2. 元數據:Metastore??????????? 3.? 驅動器:Driver
Hive解決了什么問題
Hive解決了大數據的查詢功能,讓不會寫MR的人也能使用MR,它的本質就是將HQL轉換為MR. 它的底層走的是MR,寫MR效率低,而且痛苦,Hive的出現就為JAVAEE的兄弟帶來了捷徑和福音.
Hive環境搭建
Hive是MapReduce的客戶端,因此不需要在每個節點上都配置。在操作Hive的同時,需要將Hadoop的HDFS開啟,Yarn開啟,MapReduce配置好。
1. hive官網下載hive后,將hive解壓后,進入hive,將hive-env.sh.*修改為hive-env.sh.
2. 編輯hive-env.sh, 在里面找到JAVA-HOME,并配置安裝在集群上java.home的路徑
3. 找到export HIVE_CONF_DIR,在其后面配置hive下面的conf的路徑
4. 在HDFS上創建/tmp和user/hive/warehouse兩個目錄,并改變他們的組的權限
5. 如果你想遠程提供元數據表的服務,就在hive-site.xm配置hive.metastore屬性
Hive的基本操作
注: 要操作Hive的話,要啟動HDFS和Yarn
啟動hive1: bin/hive
啟動hive2: 如果在hive-site.xml里配置了hive.metastore,那啟動:bin/hive --service metastore? ? ?? 再bin/hive
查看數據庫: show databases;?????? 切換數據庫: use 數據庫名?????? 顯示數據庫中的表: show tables;??
創建表: create table employee(id int, name string);? ????? 查看表的結構: desc employee
向表中插入數據: insert into student values(1000,"ss");? ? ? ? 查詢表中數據: select * from student;
將本地文件導入hive: load data local inpath '/opt/module/datas/student.txt' into table employee;
MySQL的安裝
hive為什么要依賴某一個數據庫: 因為hive要做一個原本的數據到字段的映射,并且每一個原本的數據它所存儲的信息和序列都要保存到數據庫中進行說明,而原數據保存在mysql的數據庫中,叫做metastore,一旦metastore被刪掉了,hive倉庫就沒有數據了.
mysql在linux上要安裝三個:客戶端,服務器,還有一個連接的
前面兩個默認安裝好了...
1. 我安裝的是這個版本mysql-connector-java-5.1.27? cd進入里面
2. 將里面默認提供的唯一的jar包cp到hive的lib目錄下.
3. 啟動hive,就可以創建表了,且數據映射到mysql里面了
4. mysql -uroot -p密碼, 查看數據庫,就可以看到metastore數據庫了,如果不小心drop了,hive就沒有數據了...GG
Hive之數據導入
基本加載數據
加載本地文件到hive: load data local inpath '/opt/module/datas/student.txt' into table default.student;
加載HDFS文件到hive中: dfs -put /opt/module/datas/student.txt /user/admin/hive;
通過查詢語句向表中插入數據
插入數據: insert into table? student partition(month='123') values('1004','wangwu');
用location指定加載數據路徑
上傳數據到hdfs上: dfs -put /opt/module/datas/student.txt? /user/hive/warehouse/student5;
import數據到指定hive表中: import table student2 partition(month='201709') from '/user/hive/warehouse/export/student';
Hive之數據導出
insert導出到本地: insert overwrite local directory '/opt/module/datas/export/student' select * from student;
將查詢的結果格式化導出到本地: insert overwrite local directory '/opt/module/datas/export/student1' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY '\n' select * from student;
將查詢的結果導出到HDFS上(沒有local): insert overwrite directory '/user/admin/hive/warehouse/student2'ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY '\n'select * from student;
Hadoop命令導出到本地: dfs -get /user/hive/warehouse/student/month=201709/000000_0? /opt/module/datas/export/student3.txt;
hive shell 命令導出: bin/hive -e 'select * from default.student;' > /opt/module/datas/export/student4.txt;
export導出到HDFS上: export table default.student to '/user/hive/warehouse/export/student';
待續..