注:官方及百度百科等介紹更為專業(yè)、標準。我將深入淺出的對Hadoop進行介紹。(此處介紹或較為非專業(yè)、非標準,但較為淺顯易懂,可以讓你初識Hadoop)
Hadoop是什么?能做什么?
Hadoop是一種分布式存儲和計算大數(shù)據(jù)的軟件平臺,是Apache的一個用Java語言所實現(xiàn)的分布式計算系統(tǒng)。
Hadoop可以實現(xiàn)在大量計算機組成的集群中存儲和分析處理大數(shù)據(jù)的功能。
分布式存儲:數(shù)據(jù)被分散存儲。
分布式計算:用戶發(fā)送的請求處理任務被分發(fā)到多帶機器上執(zhí)行。
大數(shù)據(jù):上百GB、PB、TB級別的數(shù)據(jù)
例子:公司早餐需要準備100個煎蛋。廚師長將100個煎蛋的任務分發(fā)給多個廚師,各廚師從各食材存儲處獲取雞蛋,再分別在各自的設備上加工。加工完成后,歸納到一起。然后返回給需求者。Hadoop 的基本運行情況也是如此。
Hadoop的核心組成
Hadoop = HDFS(文件系統(tǒng),數(shù)據(jù)存儲技術相關)+ MapReduce(數(shù)據(jù)處理)
HDFS(Hadoop Distributed File System):HDFS 是用來管理存儲數(shù)據(jù)文件的系統(tǒng)。Hadoop 中的數(shù)據(jù)將被拆分為若干個小的數(shù)據(jù)塊,分發(fā)存儲到集群中,既一個文件存儲為若干較小塊,這些塊被復制到集群中的多個服務器上。
MapReduce:用于大規(guī)模數(shù)據(jù)集并行運算的一個軟件框架。