學(xué)習(xí)目標(biāo)
Hive是構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫,它的本質(zhì)是就是一個(gè)數(shù)據(jù)庫
① Hive和一般意義上的數(shù)據(jù)庫有什么區(qū)別
② 如何搭建數(shù)據(jù)庫
③ 創(chuàng)建的過程是什么
④ 如何把數(shù)據(jù)導(dǎo)入到數(shù)據(jù)庫
⑤ 什么是Hive,Hive的體系結(jié)構(gòu)是什么
⑥ Hive如何與hadoop HDFS進(jìn)行相互操作
⑦ Hive數(shù)據(jù)與Hadoop中的文件之間的關(guān)系
一 數(shù)據(jù)倉庫
1.基本概念
概念:數(shù)據(jù)倉庫是一個(gè)面向主題的,集成的,不可更新的,隨時(shí)間不變化的數(shù)據(jù)集合,它用于支持企業(yè)或組織的決策分析處理
面向主題:按主題組織(商品推薦系統(tǒng))
集成:數(shù)據(jù)倉庫中的數(shù)據(jù)來自于分散的操作型的數(shù)據(jù)(oracle,mysql)
不可更新:只做數(shù)據(jù)查詢,一般不做數(shù)據(jù)更新,刪除
2.數(shù)據(jù)倉庫的結(jié)構(gòu)和建立過程
ETL
抽取Extract:提取不同數(shù)據(jù)源的數(shù)據(jù)
轉(zhuǎn)化Transform:轉(zhuǎn)化格式,不同數(shù)據(jù)源的數(shù)據(jù)格式可能不一致
裝載Load:將滿足數(shù)據(jù)格式的數(shù)據(jù)裝載到數(shù)據(jù)倉庫
OLTP:聯(lián)機(jī)事務(wù)處理(銀行轉(zhuǎn)賬,扣錢和加錢的動(dòng)作應(yīng)該同時(shí)完成,不能只有扣錢沒有加錢,或者只有加錢,沒有扣錢)操作頻率很高
OLAP:聯(lián)機(jī)分析處理(商品推薦系統(tǒng),一般只做查詢,不做更新插入操作)
3.數(shù)據(jù)倉庫中的數(shù)據(jù)模型
星型模型,雪花模型
以商品信息為核心構(gòu)建的星型模型
二、Hive
1.基本概念
- Hive是建立在Hadoop HDFS上的數(shù)據(jù)倉庫基礎(chǔ)架構(gòu)
- Hive是SQL解析引擎,它將SQL語句轉(zhuǎn)化成Map、Reduce Job 然后在Hadoop執(zhí)行
- Hive允許熟悉MapReduce的開發(fā)者開發(fā)自定義的mapper和reducer來處理內(nèi)建的mapper和reducer無法完成的復(fù)雜的分析工作
- Hive的表其實(shí)就是HDFS的目錄/文件
2.Hive的體系結(jié)構(gòu)
- Hive的元數(shù)據(jù)
-Hive將元數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫中(metastore),支持mysql,derby等數(shù)據(jù)庫。