A
Apache Kafka:命名于捷克作家卡夫卡,用于構(gòu)建實時數(shù)據(jù)管道和流媒體應用。它如此流行的原因在于能夠以容錯的方式存儲、管理和處理數(shù)據(jù)流,據(jù)說還非常「快速」。鑒于社交網(wǎng)絡環(huán)境大量涉及數(shù)據(jù)流的處理,卡夫卡目前非常受歡迎。
Apache Mahout:Mahout 提供了一個用于機器學習和數(shù)據(jù)挖掘的預制算法庫,也可用作創(chuàng)建更多算法的環(huán)境。換句話說,機器學習極客的最佳環(huán)境。
Apache Oozie:在任何編程環(huán)境中,你都需要一些工作流系統(tǒng)通過預定義的方式和定義的依賴關(guān)系,安排和運行工作。Oozie 為 pig、MapReduce 以及 Hive 等語言編寫的大數(shù)據(jù)工作所提供正是這個。
應用程序開發(fā)(APP DEV):應用程序開發(fā)是根據(jù)用戶要求建造出軟件系統(tǒng)或者系統(tǒng)中的軟件部分的過程,包括需求捕捉、需求分析、設計、實現(xiàn)和測試的系統(tǒng)工程。一般是用某種程序設計語言來實現(xiàn)的。通常采用應用程序開發(fā)工具可以進行開發(fā)。
Apache Drill, Apache Impala, Apache Spark SQL:這三個開源項目都提供快速和交互式的 SQL,如與 Apache Hadoop 數(shù)據(jù)的交互。如果你已經(jīng)知道 SQL 并處理以大數(shù)據(jù)格式存儲的數(shù)據(jù)(即 HBase 或 HDFS),這些功能將非常有用。抱歉,這里說的有點奇怪。
Apache Hive:知道 SQL 嗎?如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 讀取、寫入和管理駐留在分布式存儲中的大型數(shù)據(jù)集。
Apache Pig:Pig 是在大型分布式數(shù)據(jù)集上創(chuàng)建、查詢、執(zhí)行例程的平臺。所使用的腳本語言叫做 Pig Latin(我絕對不是瞎說,相信我)。據(jù)說 Pig 很容易理解和學習。但是我很懷疑有多少是可以學習的?
Apache Sqoop:一個用于將數(shù)據(jù)從 Hadoop 轉(zhuǎn)移到非 Hadoop 數(shù)據(jù)存儲(如數(shù)據(jù)倉庫和關(guān)系數(shù)據(jù)庫)的工具。
Apache Storm:一個免費開源的實時分布式計算系統(tǒng)。它使得使用 Hadoop 進行批處理的同時可以更容易地處理非結(jié)構(gòu)化數(shù)據(jù)。
人工智能(Artificial Intelligence):研發(fā)智能機器和智能軟件,這些智能設備能夠感知周遭的環(huán)境,并根據(jù)要求作出相應的反應,甚至能自我學習
聚合(Aggregation) – 搜索、合并、顯示數(shù)據(jù)的過程
算法(Algorithm):算法可以理解成一種數(shù)學公式或用于進行數(shù)據(jù)分析的統(tǒng)計學過程。那么,「算法」又是何以與大數(shù)據(jù)扯上關(guān)系的呢?要知道,盡管算法這個詞是一個統(tǒng)稱,但是在這個流行大數(shù)據(jù)分析的時代,算法也經(jīng)常被提及且變得越發(fā)流行。
異常檢測(Anomaly detection) – 在數(shù)據(jù)集中搜索與預期模式或行為不匹配的數(shù)據(jù)項。除了“Anomalies”,用來表示異常的詞有以下幾種:outliers, exceptions, surprises, contaminants.他們通常可提供關(guān)鍵的可執(zhí)行信息
匿名化(Anonymization) – 使數(shù)據(jù)匿名,即移除所有與個人隱私相關(guān)的數(shù)據(jù)
應用(Application) – 實現(xiàn)某種特定功能的計算機軟件
分析法(Analytics):用于發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在涵義。讓我們試想一個很可能發(fā)生的情況,你的信用卡公司給你發(fā)了封記錄著你全年卡內(nèi)資金轉(zhuǎn)賬情況的郵件,如果這個時候你拿著這張單子,開始認真研究你在食品、衣物、娛樂等方面消費情況的百分比會怎樣?你正在進行分析工作,你在從你原始的數(shù)據(jù)(這些數(shù)據(jù)可以幫助你為來年自己的消費情況作出決定)中挖掘有用的信息。那么,如果你以類似的方法在推特和臉書上對整個城市人們發(fā)的帖子進行處理會如何呢?在這種情況下,我們就可以稱之為大數(shù)據(jù)分析。所謂大數(shù)據(jù)分析,就是對大量數(shù)據(jù)進行推理并從中道出有用的信息。以下有三種不同類型的分析方法,現(xiàn)在我們來對它們分別進行梳理。