廣義上講 大數據是時代發展和技術進步的產物。Hadoop只是一種處理大數據的技術手段。
“大數據”概念在1980年由維克托·邁爾-舍恩伯格及肯尼斯·庫克耶 在《第三次浪潮》首次提出,由麥肯錫公司(McKinsey)最早應用。
大數據的特征
容量:數據的大小決定所考慮的數據的價值和潛在的信息
種類:數據類型的多樣性
速度:指獲得數據的速
可變性:妨礙了處理和有效地管理數據的過程
真實性:數據的質量
復雜性:數據量巨大,來源多渠道
價值:合理運用大數據,以低成本創造高價值
大數據的發展趨勢(摘自百科)
趨勢一:數據的資源化
趨勢二:與云計算的深度結合
趨勢三:科學理論的突破
趨勢四:數據科學和數據聯盟的成立
趨勢五:數據泄露泛濫
趨勢六:數據管理成為核心競爭力
趨勢七:數據質量是BI(商業智能)成功的關鍵
趨勢八:數據生態系統復合化程度加強
Hadoop是什么?
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。
Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,而MapReduce則為海量的數據提供了計算。
hdfs架構示意圖:
MapReduce工作原理圖:
Hadoop生態圈:
大數據需要特殊的技術,無法用單臺計算機進行處理,必須采用分布式架構。hadoop只是處理大數據的一種技術。圍繞大數據還有其它的技術
最后總結下:大數據是時代發展的產物,為了應對大數據環境下新的業務需求,相關的分布式存儲,分布式計算,大規模分布式數據庫等技術,hadoop解決了通過hdfs實現分布式存儲,通過mapreduce實現分布式計算。圍著hadoop逐步發展出一個hadoop生態圈。 hadoop大數據環境下的一種處理結束。
如果您覺得我用心了,覺得您有所收獲,麻煩關注下我吧,您的關注就是我的動力,因為有你,我就不是一個人在前行。
歡迎來找 數據僧 一起探討大數據相關的問題。評論區留言,我們一起討論。