《大數(shù)據(jù)與機(jī)器學(xué)習(xí)》讀書(shū)筆記(一) 數(shù)據(jù)與數(shù)據(jù)平臺(tái)

數(shù)據(jù)環(huán)境與數(shù)據(jù)形態(tài)

對(duì)于企業(yè)經(jīng)營(yíng)中產(chǎn)生的數(shù)據(jù)有三種形態(tài):

  • 生產(chǎn)數(shù)據(jù):指某個(gè)生產(chǎn)系統(tǒng)的生產(chǎn)環(huán)境數(shù)據(jù)庫(kù)中的數(shù)據(jù)。它會(huì)隨著業(yè)務(wù)應(yīng)用的變化而變化,是動(dòng)態(tài)的,如用戶的賬戶余額數(shù)據(jù)。
  • 原始數(shù)據(jù):對(duì)生產(chǎn)數(shù)據(jù)的解耦,包括數(shù)據(jù)脫敏、字段篩選、批量導(dǎo)出(將動(dòng)態(tài)數(shù)據(jù)的“快照”保存下來(lái))。其目的是為了防止生產(chǎn)數(shù)據(jù)與分析數(shù)據(jù)的數(shù)據(jù)直連,帶來(lái)數(shù)據(jù)管理與應(yīng)用的災(zāi)難
  • 分析數(shù)據(jù):對(duì)原始數(shù)據(jù)進(jìn)行ETL之后的數(shù)據(jù),主要從<u>屬性篩選</u>、<u>標(biāo)準(zhǔn)統(tǒng)一</u>(如數(shù)據(jù)格式與字段含義的不一致)、<u>優(yōu)化存儲(chǔ)</u>(如創(chuàng)建索引,分區(qū),分表存儲(chǔ))的角度進(jìn)行ETL。

數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)

數(shù)倉(cāng)本質(zhì)是解決大批量數(shù)據(jù)的入口與出口問(wèn)題,為分析與應(yīng)用提供支持。該書(shū)作者認(rèn)為能穩(wěn)定提供“順滑”數(shù)據(jù)服務(wù)的數(shù)倉(cāng)需要注下面兩點(diǎn):

  1. 更新規(guī)則:

    分全量更新與增量更新兩種方式。更新過(guò)程中要注意“部分提交”與“數(shù)據(jù)斷檔”問(wèn)題,可行的解決方案是<u>增加中間表</u>,如圖

    20170212_1.jpg
  2. 存儲(chǔ)規(guī)則:

    分析發(fā)現(xiàn),數(shù)倉(cāng)用戶使用的交易數(shù)據(jù)90%集中在近三個(gè)月,60%的作業(yè)僅集中在近一個(gè)月。所以可行的辦法是“<u>大表拆小表,小表組視圖</u>”,提高訪問(wèn)效率。

大數(shù)據(jù)平臺(tái)

之前一直把Hive與Hbase的概念混淆,趁此機(jī)會(huì)搞清楚。

Hbase Hive
基于HDFS的非關(guān)系型數(shù)據(jù)庫(kù)(KV型) 關(guān)系型數(shù)據(jù)結(jié)構(gòu),是用SQL替代寫(xiě)MR的編程框架
物理表,適合存放非結(jié)構(gòu)化的數(shù)據(jù) 純邏輯表,本身不存儲(chǔ)數(shù)據(jù),完全依賴于HDFS和MR
處理數(shù)據(jù)是基于列的模式 基于MR處理數(shù)據(jù),而MR是基于行的模式
HBase是為了支持彌補(bǔ)Hadoop對(duì)實(shí)時(shí)操作的缺陷的項(xiàng)目 Hive是建立在Hadoop之上為了減少M(fèi)apReduce jobs編寫(xiě)工作的批處理系統(tǒng)
適合實(shí)時(shí)查詢 適合查詢分析統(tǒng)計(jì)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容