1 Hadoop是個什么鬼?
簡單的說,Hadoop是一個用來處理大數據的分布式軟件,它提供了一個分布式文件存儲(HDFS)、一個資源調度系統(YARN)以及一個分布式并行計算框架(MAPREDUCE)。作為介紹Hadoop的第一篇文章,筆者認為還是有必要好好嘮嘮嗑,說說它的前世今生,顏值妙用。
Hadoop最早起源于Nutch。Nutch的目標是創建出一個大型的、健壯、可擴展的搜索引擎,
1.HADOOP最早起源于Nutch。Nutch的設計目標是構建一個大型的全網搜索引擎,包括網頁抓取、索引、查詢等功能,但隨著抓取網頁數量的增加,遇到了嚴重的可擴展性問題——如何解決數十億網頁的存儲和索引問題。
2.2003年、2004年谷歌發表的兩篇論文為該問題提供了可行的解決方案。
——分布式文件系統(GFS),可用于處理海量網頁的存儲
——分布式計算框架MAPREDUCE,可用于處理海量網頁的索引計算問題。
3.Nutch的開發人員完成了相應的開源實現HDFS和MAPREDUCE,并從Nutch中剝離成為獨立項目HADOOP,到2008年1月,HADOOP成為Apache頂級項目,迎來了它的快速發展期。