今天互聯網不斷發展,逐漸深入我們生活的各個層面,隨之而來的是數據量的指數級增長,所以,大數據是近幾年廣受關注的一個概念。。很久以前,人類就學會了通過分析數據獲取有價值的結論。有時,影響結論的因素過多,采樣的數據無法有效保留所有因素的影響,得出的結論就不夠有效。如果不使用采樣,而原始數據規模巨大,我們就需要改進數據處理的手段。
作為計算框架,Spark速度快,開發簡單,能同時兼顧批處理和實時數據分析,因此很快被廣大企業級用戶所采納,并隨著近年人工智能的崛起而成為分析和挖掘大數據的重要得力工具。Hadoop生態很全:HDFS, MapReduce1&2(YARN), Hive, HBase, Pig, ZooKeeper, Sqoop等,涉及從算法到實現到操作到應用。?
多數章節對自己的要求都是了解和能用即可,唯獨ZK一章愛不釋手,從算法到實現到操作到應用講的真是好。 系統性學習不還是得看經典書籍。
hadoop學習:《Hadoop權威指南第4版》中文PDF+英文PDF+代碼,《Hadoop權威指南第4版》中文PDF,734頁,帶書簽目錄;英文PDF,805頁,帶書簽目錄。配套源代碼。
下載: https://pan.baidu.com/s/1bINLu_pdl3cu8W7vv63bFg? ?提取碼: y77c
結合理論和實踐,《Hadoop權威指南第四版》由淺入深,全方位介紹了Hadoop 這一高性能的海量數據處理和分析平臺。5部分24 章,第Ⅰ部分介紹Hadoop 基礎知識,第Ⅱ部分介紹MapReduce,第Ⅲ部分介紹Hadoop 的運維,第Ⅳ部分介紹Hadoop 相關開源項目,第Ⅴ部分提供了三個案例。
《Spark快速大數據分析》中文PDF,231頁,帶書簽目錄,文字可復制。英文PDF,274頁,帶書簽目錄,文字可復制。
下載: https://pan.baidu.com/s/1sJHswbudVO-HihYXEpuLYg? ?提取碼: 6eha
使用Spark進行大規模數據分析的實戰寶典,由著名大數據公司Cloudera的數據科學家撰寫。四位作者首先結合數據科學和大數據分析的廣闊背景講解了Spark,然后介紹了用Spark和Scala進行數據處理的基礎知識,接著討論了如何將Spark用于機器學習,同時介紹了常見應用中幾個最常用的算法。此外還收集了一些更加新穎的應用,比如通過文本隱含語義關系來查詢Wikipedia或分析基因數據。
學習《Spark高級數據分析第2版》中文PDF+英文PDF+源代碼:《Spark高級數據分析第2版》中文PDF,452頁,帶目錄,文字可復制;英文PDF,455頁,帶目錄,文字可復制;有源代碼。
下載: https://pan.baidu.com/s/19IiWLQ19KYMpW3rP8HDx9Q? 提取碼: 8krw
《Spark高級數據分析第2版》由業內知名數據科學家執筆,通過豐富的示例展示了如何結合Spark、統計方法和真實世界數據集來解決數據分析問題,既涉及模型的構建和評價,也涵蓋數據清洗、數據預處理和數據探索,并描述了如何將結果變為生產應用,是運用Apache Spark進行大數據分析和處理的實戰寶典。
根據新版Spark最佳實踐,對樣例代碼和所用資料做了大量更新。涵蓋模式如下:
● 音樂推薦和Audioscrobbler數據集● 用決策樹算法預測森林植被● 基于K均值聚類進行網絡流量異常檢測
● 基于潛在語義算法分析維基百科● 用GraphX分析伴生網絡● 對紐約出租車軌跡進行空間和時間數據分析
● 通過蒙特卡羅模擬來評估金融風險● 基因數據分析和BDG項目● 用PySpark和Thunder分析神經圖像數據