zo2o女人另类zo2o洗浴,国语精彩对白在线视频,无码av免费一区二区三区+

數(shù)據(jù)環(huán)境與數(shù)據(jù)形態(tài)

對(duì)于企業(yè)經(jīng)營(yíng)中產(chǎn)生的數(shù)據(jù)有三種形態(tài)：

生產(chǎn)數(shù)據(jù)：指某個(gè)生產(chǎn)系統(tǒng)的生產(chǎn)環(huán)境數(shù)據(jù)庫(kù)中的數(shù)據(jù)。它會(huì)隨著業(yè)務(wù)應(yīng)用的變化而變化，是動(dòng)態(tài)的，如用戶的賬戶余額數(shù)據(jù)。
原始數(shù)據(jù)：對(duì)生產(chǎn)數(shù)據(jù)的解耦，包括數(shù)據(jù)脫敏、字段篩選、批量導(dǎo)出（將動(dòng)態(tài)數(shù)據(jù)的“快照”保存下來(lái)）。其目的是為了防止生產(chǎn)數(shù)據(jù)與分析數(shù)據(jù)的數(shù)據(jù)直連，帶來(lái)數(shù)據(jù)管理與應(yīng)用的災(zāi)難
分析數(shù)據(jù)：對(duì)原始數(shù)據(jù)進(jìn)行ETL之后的數(shù)據(jù)，主要從屬性篩選、標(biāo)準(zhǔn)統(tǒng)一（如數(shù)據(jù)格式與字段含義的不一致）、優(yōu)化存儲(chǔ)（如創(chuàng)建索引，分區(qū)，分表存儲(chǔ)）的角度進(jìn)行ETL。

數(shù)倉(cāng)本質(zhì)是解決大批量數(shù)據(jù)的入口與出口問(wèn)題，為分析與應(yīng)用提供支持。該書(shū)作者認(rèn)為能穩(wěn)定提供“順滑”數(shù)據(jù)服務(wù)的數(shù)倉(cāng)需要注下面兩點(diǎn)：

更新規(guī)則：

分全量更新與增量更新兩種方式。更新過(guò)程中要注意“部分提交”與“數(shù)據(jù)斷檔”問(wèn)題，可行的解決方案是增加中間表，如圖

20170212_1.jpg
存儲(chǔ)規(guī)則：

分析發(fā)現(xiàn)，數(shù)倉(cāng)用戶使用的交易數(shù)據(jù)90%集中在近三個(gè)月，60%的作業(yè)僅集中在近一個(gè)月。所以可行的辦法是“大表拆小表，小表組視圖”，提高訪問(wèn)效率。

之前一直把Hive與Hbase的概念混淆，趁此機(jī)會(huì)搞清楚。

Hbase	Hive
基于HDFS的非關(guān)系型數(shù)據(jù)庫(kù)（KV型）	關(guān)系型數(shù)據(jù)結(jié)構(gòu)，是用SQL替代寫(xiě)MR的編程框架
物理表，適合存放非結(jié)構(gòu)化的數(shù)據(jù)	純邏輯表，本身不存儲(chǔ)數(shù)據(jù)，完全依賴于HDFS和MR
處理數(shù)據(jù)是基于列的模式	基于MR處理數(shù)據(jù),而MR是基于行的模式
HBase是為了支持彌補(bǔ)Hadoop對(duì)實(shí)時(shí)操作的缺陷的項(xiàng)目	Hive是建立在Hadoop之上為了減少M(fèi)apReduce jobs編寫(xiě)工作的批處理系統(tǒng)
適合實(shí)時(shí)查詢	適合查詢分析統(tǒng)計(jì)