00 初識Hadoop

1 Hadoop是個什么鬼?

簡單的說,Hadoop是一個用來處理大數據的分布式軟件,它提供了一個分布式文件存儲(HDFS)、一個資源調度系統(YARN)以及一個分布式并行計算框架(MAPREDUCE)。作為介紹Hadoop的第一篇文章,筆者認為還是有必要好好嘮嘮嗑,說說它的前世今生,顏值妙用。

Hadoop最早起源于Nutch。Nutch的目標是創建出一個大型的、健壯、可擴展的搜索引擎,


1.HADOOP最早起源于Nutch。Nutch的設計目標是構建一個大型的全網搜索引擎,包括網頁抓取、索引、查詢等功能,但隨著抓取網頁數量的增加,遇到了嚴重的可擴展性問題——如何解決數十億網頁的存儲和索引問題。

2.2003年、2004年谷歌發表的兩篇論文為該問題提供了可行的解決方案

——分布式文件系統(GFS),可用于處理海量網頁的存儲

——分布式計算框架MAPREDUCE,可用于處理海量網頁的索引計算問題。

3.Nutch的開發人員完成了相應的開源實現HDFS和MAPREDUCE,并從Nutch中剝離成為獨立項目HADOOP,到2008年1月,HADOOP成為Apache頂級項目,迎來了它的快速發展期。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容