初識(shí)大數(shù)據(jù)-1

一、 什么是大數(shù)據(jù)?
大數(shù)據(jù)是指無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù) = “海量數(shù)據(jù)”+“復(fù)雜類型的數(shù)據(jù)”。
大數(shù)據(jù)作為互聯(lián)網(wǎng)技術(shù)發(fā)展到現(xiàn)階段最為前沿的分析技術(shù),其有著較傳統(tǒng)技術(shù)所沒(méi)有的顯著特點(diǎn),大數(shù)據(jù)最核心的價(jià)值就是在于對(duì)于海量數(shù)據(jù)進(jìn)行存儲(chǔ)和分析。相比起現(xiàn)有的其他技術(shù)而言,大數(shù)據(jù)的“廉價(jià)、迅速、優(yōu)化”這三方面的綜合成本是最為優(yōu)秀的。
大數(shù)據(jù)的特征(4V+1O) 業(yè)界將其歸納為4個(gè)“V”——
Volume(數(shù)據(jù)體量大):包括采集、存儲(chǔ)和計(jì)算的量都非常大。大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)T)、E(100萬(wàn)個(gè)T)或Z(10億個(gè)T)。
Variety(數(shù)據(jù)類型繁多):種類和來(lái)源多樣化。包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),具體表現(xiàn)為網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等,多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求。
Velocity(處理速度快):數(shù)據(jù)增長(zhǎng)速度快,處理速度也快,時(shí)效性要求高。比如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個(gè)性化推薦算法盡可能要求實(shí)時(shí)完成推薦。這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的顯著特征。
Value(價(jià)值密度低):數(shù)量大,但是要提取其中有價(jià)值的數(shù)據(jù)。
數(shù)據(jù)是在線的(Online):數(shù)據(jù)是永遠(yuǎn)在線的,是隨時(shí)能調(diào)用和計(jì)算的,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)最大的特征。現(xiàn)在我們所談到的大數(shù)據(jù)不僅僅是大,更重要的是數(shù)據(jù)變的在線了,這是互聯(lián)網(wǎng)高速發(fā)展背景下的特點(diǎn)。比如,對(duì)于打車工具,客戶的數(shù)據(jù)和出租司機(jī)數(shù)據(jù)都是實(shí)時(shí)在線的,這樣的數(shù)據(jù)才有意義。如果是放在磁盤中而且是離線的,這些數(shù)據(jù)遠(yuǎn)遠(yuǎn)不如在線的商業(yè)價(jià)值大。

二、 數(shù)據(jù) 結(jié)構(gòu)+非結(jié)構(gòu)
參考網(wǎng)站:http://www.aboutyun.com/thread-9468-1-1.html

數(shù)據(jù)分類 結(jié)構(gòu)化數(shù)據(jù)(即行數(shù)據(jù),存儲(chǔ)在[數(shù)據(jù)庫(kù)]里,可以用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)) 在做一個(gè)信息系統(tǒng)設(shè)計(jì)時(shí)肯定會(huì)涉及到數(shù)據(jù)的存儲(chǔ),一般我們都會(huì)將系統(tǒng)信息保存在某個(gè)指定的關(guān)系數(shù)據(jù)庫(kù)中。我們會(huì)將數(shù)據(jù)按業(yè)務(wù)分類,并設(shè)計(jì)相應(yīng)的表,然后將對(duì)應(yīng)的信息保存到相應(yīng)的表中。比如我們做一個(gè)業(yè)務(wù)系統(tǒng),要保存員工基本信息:工號(hào)、姓名、性別、出生日期等等;我們就會(huì)建立一個(gè)對(duì)應(yīng)的staff表。 但不是系統(tǒng)中所有信息都可以這樣簡(jiǎn)單的用一個(gè)表中的字段就能對(duì)應(yīng)的。 非結(jié)構(gòu)化數(shù)據(jù)(,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻/視頻信息等等) 像圖片、聲音、視頻等等。這類信息我們通常無(wú)法直接知道他的內(nèi)容,數(shù)據(jù)庫(kù)也只能將它保存在一個(gè)BLOB字段中,對(duì)以后檢索非常麻煩。一般的做法是,建立一個(gè)包含三個(gè)字段的表(編號(hào) number、內(nèi)容描述 varchar(1024)、內(nèi)容 blob)。引用通過(guò)編號(hào),檢索通過(guò)內(nèi)容描述。現(xiàn)在還有很多非結(jié)構(gòu)化數(shù)據(jù)的處理工具,市面上常見(jiàn)的內(nèi)容管理器就是其中的一種。 半結(jié)構(gòu)化數(shù)據(jù)(介于完全結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)中的數(shù)據(jù))和完全無(wú)結(jié)構(gòu)的數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù)) 這樣的數(shù)據(jù)和上面兩種類別都不一樣,它是結(jié)構(gòu)化的數(shù)據(jù),但是結(jié)構(gòu)變化很大。因?yàn)槲覀円私鈹?shù)據(jù)的細(xì)節(jié)所以不能將數(shù)據(jù)簡(jiǎn)單的組織成一個(gè)文件按照非結(jié)構(gòu)化數(shù)據(jù)處理,由于結(jié)構(gòu)變化很大也不能夠簡(jiǎn)單的建立一個(gè)表和他對(duì)應(yīng)。本文主要討論針對(duì)半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)常用的兩種方式。 先舉一個(gè)半結(jié)構(gòu)化的數(shù)據(jù)的例子,比如存儲(chǔ)員工的簡(jiǎn)歷。不像員工基本信息那樣一致每個(gè)員工的簡(jiǎn)歷大不相同。有的員工的簡(jiǎn)歷很簡(jiǎn)單,比如只包括教育情況;有的員工的簡(jiǎn)歷卻很復(fù)雜,比如包括工作情況、婚姻情況、出入境情況、戶口遷移情況、黨籍情況、技術(shù)技能等等。還有可能有一些我們沒(méi)有預(yù)料的信息。通常我們要完整的保存這些信息并不是很容易的,因?yàn)槲覀儾粫?huì)希望系統(tǒng)中的表的結(jié)構(gòu)在系統(tǒng)的運(yùn)行期間進(jìn)行變更。

**三、 數(shù)據(jù)單位 **
大數(shù)據(jù)的采集。科學(xué)技術(shù)及互聯(lián)網(wǎng)的發(fā)展,推動(dòng)著大數(shù)據(jù)時(shí)代的來(lái)臨,各行各業(yè)每天都在產(chǎn)生數(shù)量巨大的數(shù)據(jù)碎片,數(shù)據(jù)計(jì)量單位已從從Byte、KB、MB、GB、TB發(fā)展到PB、EB、ZB、YB甚至BB、NB、DB來(lái)衡量。
字節(jié) byte:8個(gè)二進(jìn)制位為一個(gè)字節(jié)(B),最常用的單位
1KB (Kilobyte 千字節(jié))=1024B
1MB (Megabyte 兆字節(jié) 簡(jiǎn)稱“兆”)=1024KB
1GB (Gigabyte 吉字節(jié) 又稱“千兆”)=1024MB
1TB (Trillionbyte 萬(wàn)億字節(jié) 太字節(jié))=1024GB,其中1024=2^10 ( 2 的10次方)
1PB(Petabyte 千萬(wàn)億字節(jié) 拍字節(jié))=1024TB
1EB(Exabyte 百億億字節(jié) 艾字節(jié))=1024PB
1ZB (Zettabyte 十萬(wàn)億億字節(jié) 澤字節(jié))= 1024 EB
1YB (Jottabyte 一億億億字節(jié) 堯字節(jié))= 1024 ZB
1BB (Brontobyte 一千億億億字節(jié))= 1024 YB

四、 數(shù)據(jù)分析流程: 采集-ETL-分析-顯示
參考網(wǎng)站1:http://blog.jobbole.com/86708/參考網(wǎng)站2:http://www.mahaixiang.cn/sjfx/817.html

決定目標(biāo);2. 確定業(yè)務(wù)手段;3. 數(shù)據(jù)收集;4. 數(shù)據(jù)清洗;5. 數(shù)據(jù)建模;6. 培養(yǎng)一個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì);7. 優(yōu)化和重復(fù);
采集與預(yù)處理(清洗)——>存儲(chǔ)管理——>計(jì)算模式——>分析挖掘——>可視化處理

采集與預(yù)處理:從數(shù)據(jù)源采集的數(shù)據(jù),需要通過(guò)數(shù)據(jù)融合、數(shù)據(jù)集成、數(shù)據(jù)整合,生成新的數(shù)據(jù)集,供后續(xù)查詢、分析、處理提供統(tǒng)一的數(shù)據(jù)視圖

五、 計(jì)算模式:迭代 流 批處理 交互式
交互式

  • 系統(tǒng)與操作人員以人機(jī)對(duì)話的方式一問(wèn)一答—
  • 操作人員提出請(qǐng)求,數(shù)據(jù)以對(duì)話的方式輸入,系統(tǒng)便提供相應(yīng)的數(shù)據(jù)或提示信息,引導(dǎo)操作人員逐步完成所需的操作,直至獲得最后處理結(jié)果.
  • 存儲(chǔ)在系統(tǒng)中的數(shù)據(jù)文件能夠被及時(shí)處理修改,同時(shí) 處理結(jié)果可以立刻被使用.
  • 典型系統(tǒng)有Dremel、spark

批處理

  • 最適合于完成大數(shù)據(jù)批處理的計(jì)算模式是MapReduce ,
  • MapReduce 是一個(gè)單輸入、兩階段( Map 和Reduce) 的數(shù)據(jù)處理過(guò)程。首
  • 對(duì)具有簡(jiǎn)單數(shù)據(jù)關(guān)系、易于劃分的大規(guī)模數(shù)據(jù)采用"分而治之"的并行處理思想
  • MapReduce 提供了一個(gè)統(tǒng)一的并行計(jì)算框架,把并行計(jì)算所涉及到的諸多系統(tǒng)層細(xì)節(jié)都交給計(jì)算框架去完成,
  • 簡(jiǎn)化了程序員進(jìn)行并行化程序設(shè)計(jì)的負(fù)擔(dān)。

流式計(jì)算

  • 對(duì)一定時(shí)間窗口內(nèi)應(yīng)用系統(tǒng)產(chǎn)生的新數(shù)據(jù)完成實(shí)時(shí)的計(jì)算,避免造成數(shù)據(jù)堆積和丟失。
  • 在電信、電力、道路監(jiān)控、互聯(lián)網(wǎng)日志處理等得到廣泛應(yīng)用。
  • 數(shù)據(jù)運(yùn)動(dòng),計(jì)算不動(dòng),不同的運(yùn)算節(jié)點(diǎn)常常綁定在不同的服務(wù)器上

迭代

  • 解決批量計(jì)算的難以迭代的缺陷
  • 典型應(yīng)用:spark

圖計(jì)算

  • 圖由于自身的結(jié)構(gòu)特征,可以很好地表示事物之間的關(guān)系
  • 隨著圖中節(jié)點(diǎn)和邊數(shù)的增多(達(dá)到幾千萬(wàn)甚至上億數(shù)), 圖數(shù)據(jù)處理的復(fù)雜性增加
  • 圖的存儲(chǔ)和處理都十分困難
  • 中較為典型的系統(tǒng)包括Google 公司的Pregel 、Facebook Giraph 、Spark 下的GraphX

六、 簡(jiǎn)介分布式系統(tǒng)

七、 CDH
目前而言,不收費(fèi)的Hadoop版本主要有三個(gè)(均是國(guó)外廠商),分別是:Apache(最原始的版本,所有發(fā)行版均基于這個(gè)版本進(jìn)行改進(jìn))、Cloudera版本(Cloudera’s Distribution Including Apache hadoop,簡(jiǎn)稱CDH)、Hortonworks版本(Hortonworks Data Platform,簡(jiǎn)稱“HDP”),對(duì)于國(guó)內(nèi)而言,絕大多數(shù)選擇CDH版本。

八、 CAP原理
C:Consistency(一致性), 所有的節(jié)點(diǎn)上的數(shù)據(jù)時(shí)刻保持同步
A:Availability(可用性), 每個(gè)請(qǐng)求都能接受到一個(gè)響應(yīng),無(wú)論響應(yīng)成功或失敗
P:Partition tolerance(分區(qū)容錯(cuò)性) :系統(tǒng)應(yīng)該能持續(xù)提供服務(wù),即使系統(tǒng)內(nèi)部有消息丟失(分區(qū))

九、 hadoop技術(shù)棧 hdfs,mapreduce,hive,hbase,sqoop

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容