Hive

Hive和數據庫

Hive有自己的語言,叫HQL(近似于SQL),Hive是基于Hadoop的一個數據倉庫,不是數據庫.

1. 像mysql,oracle之類的數據庫,他們更關注業務交易處理(OLTP),追求交易的速度,交易完整性,數據的一致性等。

2. 數據倉庫更關注數據分析層面(OLAP),強調數據分析的效率,復雜查詢的速度,數據之間的相關性分析,所以使用的多維模型,從而提高數據分析的效率。

3. Hive 是建立在 Hadoop 之上的,所有 Hive 的數據都是存儲在 HDFS 中的。而數據庫則可以將數據保存在塊設備或者本地文件系統中。

4. Hive必須要依賴一個數據庫,因為Hive要做一個元數據到原來的映射,每一個原本的數據都需要存到數據庫的,假如相對于的數據庫被刪了,那Hive就沒了映射的源頭了,就沒法用


Hive的優點

1. 操作接口采用類SQL語法,提供快速開發的能力。

2. 避免了去寫MapReduce,減少開發人員的效率和心靈上的創傷

3. Hive的執行延遲比較高,因此hive常用于數據分析,對實時性要求不高的場合

4. Hive優勢在于處理大數據,對于處理小數據沒有優勢,因為Hive的執行延遲比較高

5. Hive支持用戶自定義函數,用戶可以根據自己的需求來實現自己的函數。

Hive的缺點

1. 完全不會MR的話,無法處理性能的優化

2. MR太慢,太笨重...

3. Spark Core強于MR100倍...Spark SQL底層走的Spark Core,它可以對接Hive...

4. 不適合關系型處理,不適合實時查詢和行情分析,延遲比較高

Hive的架構

Hive架構

Hive通過給用戶提供的一系列交互接口,接收到用戶的指令(SQL),使用自己的Driver,結合元數據(MetaStore),將這些指令翻譯成MapReduce,提交到Hadoop中執行,最后,將執行返回的結果輸出到用戶交互接口。

1. 用戶接口:Client? ????????? 2. 元數據:Metastore??????????? 3.? 驅動器:Driver


Hive解決了什么問題

Hive解決了大數據的查詢功能,讓不會寫MR的人也能使用MR,它的本質就是將HQL轉換為MR. 它的底層走的是MR,寫MR效率低,而且痛苦,Hive的出現就為JAVAEE的兄弟帶來了捷徑和福音.


Hive環境搭建

Hive是MapReduce的客戶端,因此不需要在每個節點上都配置。在操作Hive的同時,需要將Hadoop的HDFS開啟,Yarn開啟,MapReduce配置好。

1. hive官網下載hive后,將hive解壓后,進入hive,將hive-env.sh.*修改為hive-env.sh.

2. 編輯hive-env.sh, 在里面找到JAVA-HOME,并配置安裝在集群上java.home的路徑

3. 找到export HIVE_CONF_DIR,在其后面配置hive下面的conf的路徑

4. 在HDFS上創建/tmp和user/hive/warehouse兩個目錄,并改變他們的組的權限

5. 如果你想遠程提供元數據表的服務,就在hive-site.xm配置hive.metastore屬性


Hive的基本操作

注: 要操作Hive的話,要啟動HDFS和Yarn

啟動hive1: bin/hive

啟動hive2: 如果在hive-site.xml里配置了hive.metastore,那啟動:bin/hive --service metastore? ? ?? 再bin/hive

查看數據庫: show databases;?????? 切換數據庫: use 數據庫名?????? 顯示數據庫中的表: show tables;??

創建表: create table employee(id int, name string);? ????? 查看表的結構: desc employee

向表中插入數據: insert into student values(1000,"ss");? ? ? ? 查詢表中數據: select * from student;

將本地文件導入hive: load data local inpath '/opt/module/datas/student.txt' into table employee;


MySQL的安裝

hive為什么要依賴某一個數據庫: 因為hive要做一個原本的數據到字段的映射,并且每一個原本的數據它所存儲的信息和序列都要保存到數據庫中進行說明,而原數據保存在mysql的數據庫中,叫做metastore,一旦metastore被刪掉了,hive倉庫就沒有數據了.

mysql在linux上要安裝三個:客戶端,服務器,還有一個連接的

前面兩個默認安裝好了...

1. 我安裝的是這個版本mysql-connector-java-5.1.27? cd進入里面

2. 將里面默認提供的唯一的jar包cp到hive的lib目錄下.

3. 啟動hive,就可以創建表了,且數據映射到mysql里面了

4. mysql -uroot -p密碼, 查看數據庫,就可以看到metastore數據庫了,如果不小心drop了,hive就沒有數據了...GG


Hive之數據導入

基本加載數據

加載本地文件到hive: load data local inpath '/opt/module/datas/student.txt' into table default.student;

加載HDFS文件到hive中: dfs -put /opt/module/datas/student.txt /user/admin/hive;

通過查詢語句向表中插入數據

插入數據: insert into table? student partition(month='123') values('1004','wangwu');

用location指定加載數據路徑

上傳數據到hdfs上: dfs -put /opt/module/datas/student.txt? /user/hive/warehouse/student5;

import數據到指定hive表中: import table student2 partition(month='201709') from '/user/hive/warehouse/export/student';


Hive之數據導出

insert導出到本地: insert overwrite local directory '/opt/module/datas/export/student' select * from student;

將查詢的結果格式化導出到本地: insert overwrite local directory '/opt/module/datas/export/student1' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY '\n' select * from student;

將查詢的結果導出到HDFS上(沒有local): insert overwrite directory '/user/admin/hive/warehouse/student2'ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY '\n'select * from student;

Hadoop命令導出到本地: dfs -get /user/hive/warehouse/student/month=201709/000000_0? /opt/module/datas/export/student3.txt;

hive shell 命令導出: bin/hive -e 'select * from default.student;' > /opt/module/datas/export/student4.txt;

export導出到HDFS上: export table default.student to '/user/hive/warehouse/export/student';

待續..

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,106評論 6 542
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,441評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,211評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,736評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,475評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,834評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,829評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,009評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,559評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,306評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,516評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,038評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,728評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,132評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,443評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,249評論 3 399
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,484評論 2 379

推薦閱讀更多精彩內容

  • 1. Hive基本介紹和基礎: Facebook公司最早完成并開源了hive框架,可以將sql語句直接翻譯成Map...
    奉先閱讀 3,363評論 0 43
  • * Hive框架基礎(一) 一句話:學習Hive有毛用? 那么解釋一下 毛用: * 操作接口采用類SQL語法,提供...
    Z盡際閱讀 3,845評論 0 19
  • ![Uploading hive6_786401.png . . .]](http://upload-images...
    心_的方向閱讀 1,888評論 1 2
  • Hive是什么 我們知道傳統數據存儲都是存儲在關系型數據庫中,它們使用一種SQL(結構化查詢語言)方言來查詢數據庫...
    零度沸騰_yjz閱讀 1,129評論 0 7
  • CDH Hadoop系列目錄: Hadoop實戰(3)_虛擬機搭建CDH的全分布模式 Hadoop實戰(4)_Ha...
    padluo閱讀 2,841評論 0 2