廣義上講 大數據是時代發展和技術進步的產物。Hadoop只是一種處理大數據的技術手段。
“大數據”概念在1980年由維克托·邁爾-舍恩伯格及肯尼斯·庫克耶 在《第三次浪潮》首次提出,由麥肯錫公司(McKinsey)最早應用。
大數據的特征
1,容量:數據的大小決定所考慮的數據的價值和潛在的信息
2,種類:數據類型的多樣性
3,速度:指獲得數據的速度
4,可變性:妨礙了處理和有效地管理數據的過程
5,真實性:數據的質量
6,復雜性:數據量巨大,來源多渠道
7,價值:合理運用大數據,以低成本創造高價值
大數據的發展趨勢(摘自百科)
1,趨勢一:數據的資源化
2,趨勢二:與云計算的深度結合
3,趨勢三:科學理論的突破
4,趨勢四:數據科學和數據聯盟的成立
5,趨勢五:數據泄露泛濫
6,趨勢六:數據管理成為核心競爭力
7,趨勢七:數據質量是BI(商業智能)成功的關鍵
8,趨勢八:數據生態系統復合化程度加強
Hadoop是什么?
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,而MapReduce則為海量的數據提供了計算。
hdfs架構示意圖
MapReduce工作原理圖
Hadoop生態圈
大數據需要特殊的技術,無法用單臺計算機進行處理,必須采用分布式架構。hadoop只是處理大數據的一種技術。圍繞大數據還有其它的技術
大數據和hadoop之間的關系
最后總結下:大數據是時代發展的產物,為了應對大數據環境下新的業務需求,相關的分布式存儲,分布式計算,大規模分布式數據庫等技術,hadoop解決了通過hdfs實現分布式存儲,通過mapreduce實現分布式計算。圍著hadoop逐步發展出一個hadoop生態圈。 hadoop大數據環境下的一種處理結束。
如果您覺得我用心了,覺得您有所收獲,麻煩關注下我吧,您的關注就是我的動力,因為有你,我就不是一個人在前行。
歡迎來找 數據僧 一起探討大數據相關的問題。評論區留言,我們一起討論。