走進(jìn)大數(shù)據(jù)之Hive入門

學(xué)習(xí)目標(biāo)

Hive是構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫,它的本質(zhì)是就是一個(gè)數(shù)據(jù)庫

① Hive和一般意義上的數(shù)據(jù)庫有什么區(qū)別
② 如何搭建數(shù)據(jù)庫
③ 創(chuàng)建的過程是什么
④ 如何把數(shù)據(jù)導(dǎo)入到數(shù)據(jù)庫
⑤ 什么是Hive,Hive的體系結(jié)構(gòu)是什么
⑥ Hive如何與hadoop HDFS進(jìn)行相互操作
⑦ Hive數(shù)據(jù)與Hadoop中的文件之間的關(guān)系

一 數(shù)據(jù)倉庫

1.基本概念

概念:數(shù)據(jù)倉庫是一個(gè)面向主題的,集成的,不可更新的,隨時(shí)間不變化的數(shù)據(jù)集合,它用于支持企業(yè)或組織的決策分析處理
面向主題:按主題組織(商品推薦系統(tǒng))
集成:數(shù)據(jù)倉庫中的數(shù)據(jù)來自于分散的操作型的數(shù)據(jù)(oracle,mysql)
不可更新:只做數(shù)據(jù)查詢,一般不做數(shù)據(jù)更新,刪除

2.數(shù)據(jù)倉庫的結(jié)構(gòu)和建立過程

Paste_Image.png

ETL

抽取Extract:提取不同數(shù)據(jù)源的數(shù)據(jù)
轉(zhuǎn)化Transform:轉(zhuǎn)化格式,不同數(shù)據(jù)源的數(shù)據(jù)格式可能不一致
裝載Load:將滿足數(shù)據(jù)格式的數(shù)據(jù)裝載到數(shù)據(jù)倉庫

OLTP:聯(lián)機(jī)事務(wù)處理(銀行轉(zhuǎn)賬,扣錢和加錢的動(dòng)作應(yīng)該同時(shí)完成,不能只有扣錢沒有加錢,或者只有加錢,沒有扣錢)操作頻率很高
OLAP:聯(lián)機(jī)分析處理(商品推薦系統(tǒng),一般只做查詢,不做更新插入操作)

3.數(shù)據(jù)倉庫中的數(shù)據(jù)模型

星型模型,雪花模型

以商品信息為核心構(gòu)建的星型模型

星型模型
雪花模型

二、Hive

1.基本概念

  • Hive是建立在Hadoop HDFS上的數(shù)據(jù)倉庫基礎(chǔ)架構(gòu)
  • Hive是SQL解析引擎,它將SQL語句轉(zhuǎn)化成Map、Reduce Job 然后在Hadoop執(zhí)行
  • Hive允許熟悉MapReduce的開發(fā)者開發(fā)自定義的mapper和reducer來處理內(nèi)建的mapper和reducer無法完成的復(fù)雜的分析工作
  • Hive的表其實(shí)就是HDFS的目錄/文件

2.Hive的體系結(jié)構(gòu)

  • Hive的元數(shù)據(jù)
    -Hive將元數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫中(metastore),支持mysql,derby等數(shù)據(jù)庫。
元數(shù)據(jù)
Paste_Image.png
Paste_Image.png
Hive體系結(jié)構(gòu)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容