Spark大數據分析實戰
1、Spark簡介
- 初識Spark
- Sp ark生態系統BDAS
- Sp ark架構與運行邏輯
- 彈性分布式數據集
2、Spark開發與環境配置
- Spark應用開發環境2置
- 使用Intelli i開發Spark
- 遠程調試Spark程序
- Spark編譯
- 配置Spark源碼閱讀環境
3、BDAS簡介
- SQL on Spark
- Spark Streaming
- Gr aphX
- MIlib
4、Lamda架構日志分析流水線
- 日志分析概述
- 日志分析指標
- Lamda架構
- 構建日志分析數據流水線
5、基于云平臺和用戶日志的推薦系統
- Azure云平臺簡介
- 系統架構
- 構建Node. js應用
- 數據收集與預處理
- Spark Str eamine實時分析用戶日志
- MLlib離線訓練模型
6、Twi ter情感分析
- 系統架構
- Twitter數據收集
- 數據預處理與Cassandr a存儲
- Spark Streami ng熱點Twitter分析
- Spark Str eaming在線情感分析
- Spark SQL進行Twi tter分析
- Twitter可視化
7、熱點新聞分析系統
- 新聞數據分析
- 系統架構
- 爬蟲抓取網絡信息
- 新聞文本數據預處理
- 新聞聚類
- Spark Elastic Sear ch構建全文檢索引擎
8、構建分布式的協同過濾推薦系統
- 推薦系統簡介
- 協同過濾介紹
- 基于Spark的矩陣運算實現協同過濾算法
- 基于Spark的MI1ib實現協同過濾算法
- 案例:使用MLlib協同過濾實現電影推薦
9、基于Spark的社交網絡分析
- 社交網絡介紹
- 社交網絡中社團挖掘算法
- Spark中的K均值算法
- 案例:基于Sp ark的F acebook社團挖掘
- 社交網絡中的鏈路預測算法
- Spark MLlib中的Logistic回歸
- 案例:基于Spark的鏈路預測算法
10、基于Spark的大規模新聞主題分析
- 主題模型簡介
- 主題模型LDA
- Spark中的LDA模型
- 案例:Newse oups新聞的主題分析
11、構建分布式的搜索引擎
- 搜索引擎簡介
- 搜索排序概述
- 查詢無關模型P ageRank
- 基于Spark的分布式P ageRank實現
- 案例: Google"eb Graph的PageR: ank計算
- 查詢相關模型Ranking SVM
- Spark中支持向童機的實現
- 案例:基于MSLR數據集的查詢排序
前往公號:程序員陳梓
即可獲得Spark實戰、Hadoop實戰、阿里巴巴中臺實戰書籍的領取方式。
阿里巴巴中臺戰略思想與架構實戰(含內部實施手冊)
本書講述了阿里巴巴的技術發展史,同時也是一部互聯網技術架構的實踐與發展史。
第一部分
第1章阿里巴巴集團中臺戰略引發的思考
1.1 阿里巴巴共享業務事業部的發展史
1.2 企業信息中心發展的癥結
第2章構建業務中臺的基共享服務體系
2.1 回歸SOA的本質一服務重用
2.2 服務需要不斷的業務滋養
2.3 共享服務體系是培育業務創新的土壤
2.4 賦予業務快速創新和試錯能力
2.5 為真正發揮大數據威力做好儲備
2.6 改變組織陣型會帶來組織效能的提升
第二部分共享服務體系搭建
第3章分布式服務框架的選擇
3.1 淘寶平臺"服務化”歷程
3.2 "中心化"與"去中心化"服務框架的對比
3.3 阿里巴巴分布式服務框架HSF
3.4 關于微服務
第4章共享服務中心建設原則
4.1 淘寶的共享服務中心概貌
4.2 什么是服務中心
4.3 服務中心的劃分原則
第5章數據拆分實現數據庫能力線性擴展
5.1 數據庫瓶頸阻礙業務的持續發展
5.2 數據庫分庫分表的實踐
第6章異步化與緩存原則
6.1 業務流程異步化
6.2 數據庫事務異步化
6.3 事務與柔性事務
6.4 大促秒殺活動催生緩存技術的高度使用
第7章打造數字化運營能力
7.1業務 服務化帶來的問題
7.2 鷹眼平臺的架構
7.3 埋點和輸出日志
7.4 海量日志分布式處理平臺
7.5 日志收集控制
7.6 典型業務場景
第8章打造平臺穩定性能力
8.1 限流和降級
8.2 流量調度
8.3 業務開關
8.4 容量壓測及評估規劃
8.5 全鏈路壓測平臺
8.6 業務-致性平臺
第9章共享服務中心對內和對外的協作共享
9.1 服務化建設野蠻發展帶來的問題
9.2 共享服務平臺的建設思路
9.3 共享服務平臺與業務方協作
9.4 業務中臺與前端應用協作
9.5 業務中臺績效考核
9.6 能力開放是構建生態的基礎
第三部分阿里巴巴能力輸出與案例
第10章大型央企互聯網轉型
10.1 項目背景
10.2 項目實施
10.3 客戶收益
10.4 筆者感想
10.5 項目后記
第11章時尚行業品牌公司互聯網轉型
11.1 項目背景
11.2 供應鏈的改造
11.3 基于SCRM的全渠道整合營銷
Hadoop實戰實踐
1、Hadoop簡介
- 什么是Hadoop
- Hadoop項目及其結構
- Hadoop的體系結構
- Hadoop與分布式開發
- Hadoop計算模型一- MapRedue
- Hadoop的數據管理
2、Hadoop的安裝與配置
- 在Linux.上安裝與配置Hadoop
- 在windows.上安裝與配置Hadoop
- 安裝和配置Hadoop集群
- 日志分析及幾個小技巧
3、Hadoop應用案例分析
- Hadoop在Yahoo!的應用
- Hadoop在eBay的應用
- Hadoop在百度的應用
- Hadoop在F acebook的應用
- Hadoop平臺上的海里數據排序
4、MapReduce計算模型
- 為什么要用MapReduce
- MapReduce計算模型
- MapReduce任務的優化
- Hadoop流
- Hadoop Pipes
5、開發MapReduce應用程序
- 系統參數的配置
- 配置開發環境
- 編寫MapReduce程序
- 本地測試
- 運行MapReduce程序
- 網絡用戶界面
- 性能調優
- MapReduce工作流
6、MapReduce應用案例
- 單詞計數
- 數據去重
- 排序
- 單表關聯
- 多表關聯
7、MapReduce工作機制
- MapRe duce作業的執行流程
- 錯誤處理機制
- 作業調度機制
- shuffle和排序
- 任務執行
8、Hadoop I/0操作
- I/0操作中的數據檢查
- 數據的壓縮
- 數據的I/0中序列化操作
- 針對MapReduce的文件類
9、HDFS詳解
- Hadoop的文件系統
- HDFS簡介
- HDFS體系結構
- HDFS的基本操作
- HDFS常用Java API詳解
- HDFS總得讀些數據流
- HDFS命令詳解
10、Hadoop的管理
- HDFS文件結構
- Hadoop的狀態監視和管理工具
- Hadoop集群的維護
11、Hive詳解
- Hive簡介
- Hive的基本操作
- HiveQL詳解
- Hive的網絡(WebUI) 接口
- Hive的JDBC接口
- Hive的優化
12、HBase詳解
- HBase簡介
- HBase的基本操作
- HBase體系結構
- HBase數據模型
- HBase與RDBMS
- HBase與HDFS
- HBase客戶端
- Jave API
- HBase編程實例之M apReduce
- 模式設計
13、Mahout詳解
- Mahout簡介
- Mahout的安裝和置
- Mathout API簡介
- Mathout中的聚類和分類
- Mahout應用:建立一個推薦引擎
14、Pig詳解
- PIg簡介
- Pi e的安裝和2置
- Pig Latin語言
- 用戶定義函數
- Pia實例
- Pie進階
15、ZooKeeper詳解
- Zoeeper 簡介
- ZooKeeper的安裝和配置
- ZooKeeper的簡單操作
- Zookeeper的特性
- Zookeeper的leader選舉
- Zookeeper鎖服務
- 使用Zookeep er創建應用程序
17、Avro詳解
- Avro簡介
- Avr 0的C/C++實驗
- Avr 0的Java實現
- GenAro (AwTo IDL) 語言
- Avro SASI概述
18、Chulkwa詳解
- Chulxwa簡介
- Chulkw a架構
- 可靠性
- Chulkw a集群搭建
- Chulkw a數據流的處理
- Chulkw a與其他監控系統比較
19、Hadoop的常用插件與開發
- Hadoop Studi o簡介和使用
- Hadoop Eclipse簡介和使用
- Hadoop Stre aming簡介和使
- Hadoop Li bhdfs簡介和使用
前往公號:程序員陳梓
即可獲得Spark實戰、Hadoop實戰、阿里巴巴中臺實戰書籍的免費領取方式。