數(shù)據(jù)環(huán)境與數(shù)據(jù)形態(tài)
對(duì)于企業(yè)經(jīng)營(yíng)中產(chǎn)生的數(shù)據(jù)有三種形態(tài):
- 生產(chǎn)數(shù)據(jù):指某個(gè)生產(chǎn)系統(tǒng)的生產(chǎn)環(huán)境數(shù)據(jù)庫(kù)中的數(shù)據(jù)。它會(huì)隨著業(yè)務(wù)應(yīng)用的變化而變化,是動(dòng)態(tài)的,如用戶的賬戶余額數(shù)據(jù)。
- 原始數(shù)據(jù):對(duì)生產(chǎn)數(shù)據(jù)的解耦,包括數(shù)據(jù)脫敏、字段篩選、批量導(dǎo)出(將動(dòng)態(tài)數(shù)據(jù)的“快照”保存下來(lái))。其目的是為了防止生產(chǎn)數(shù)據(jù)與分析數(shù)據(jù)的數(shù)據(jù)直連,帶來(lái)數(shù)據(jù)管理與應(yīng)用的災(zāi)難
- 分析數(shù)據(jù):對(duì)原始數(shù)據(jù)進(jìn)行ETL之后的數(shù)據(jù),主要從<u>屬性篩選</u>、<u>標(biāo)準(zhǔn)統(tǒng)一</u>(如數(shù)據(jù)格式與字段含義的不一致)、<u>優(yōu)化存儲(chǔ)</u>(如創(chuàng)建索引,分區(qū),分表存儲(chǔ))的角度進(jìn)行ETL。
數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)
數(shù)倉(cāng)本質(zhì)是解決大批量數(shù)據(jù)的入口與出口問(wèn)題,為分析與應(yīng)用提供支持。該書(shū)作者認(rèn)為能穩(wěn)定提供“順滑”數(shù)據(jù)服務(wù)的數(shù)倉(cāng)需要注下面兩點(diǎn):
-
更新規(guī)則:
分全量更新與增量更新兩種方式。更新過(guò)程中要注意“部分提交”與“數(shù)據(jù)斷檔”問(wèn)題,可行的解決方案是<u>增加中間表</u>,如圖
20170212_1.jpg -
存儲(chǔ)規(guī)則:
分析發(fā)現(xiàn),數(shù)倉(cāng)用戶使用的交易數(shù)據(jù)90%集中在近三個(gè)月,60%的作業(yè)僅集中在近一個(gè)月。所以可行的辦法是“<u>大表拆小表,小表組視圖</u>”,提高訪問(wèn)效率。
大數(shù)據(jù)平臺(tái)
之前一直把Hive與Hbase的概念混淆,趁此機(jī)會(huì)搞清楚。
Hbase | Hive |
---|---|
基于HDFS的非關(guān)系型數(shù)據(jù)庫(kù)(KV型) | 關(guān)系型數(shù)據(jù)結(jié)構(gòu),是用SQL替代寫(xiě)MR的編程框架 |
物理表,適合存放非結(jié)構(gòu)化的數(shù)據(jù) | 純邏輯表,本身不存儲(chǔ)數(shù)據(jù),完全依賴于HDFS和MR |
處理數(shù)據(jù)是基于列的模式 | 基于MR處理數(shù)據(jù),而MR是基于行的模式 |
HBase是為了支持彌補(bǔ)Hadoop對(duì)實(shí)時(shí)操作的缺陷的項(xiàng)目 | Hive是建立在Hadoop之上為了減少M(fèi)apReduce jobs編寫(xiě)工作的批處理系統(tǒng) |
適合實(shí)時(shí)查詢 | 適合查詢分析統(tǒng)計(jì) |