《Hadoop/Spark企業應用實戰》 - 小象學院 - 中國最專業的Hadoop,Spark大數據在線教育平臺——權威課程:Hadoop培訓,Spark培訓,HBase培訓,Hive培訓,Mahout培訓等
http://www.chinahadoop.cn/course/113
課程介紹
課 程 名 稱
《Hadoop/Spark企業應用實戰》——企業使用 Hadoop / Spark 的真實案列
時 間
共八周
培 訓 方 式
視頻學習 + 在線答疑 + 每周作業 + 結業考試
授 課 對 象
商業智能(BI)和企業數據倉庫(EDW)的管理人員、建模人員、分析和開發人員、系統管理員等;
有意將Hadoop生態系統中的組件,作為現有EDW的補充,或未來替代產品的項目負責人及開發人員;
企業中牽涉到大數據處理的數據中心運行、規劃、設計負責人;
Hadoop企業級應用、整合項目的成員、負責人、開發人員;
熟悉Hadoop生態系統,想了解和學習Hadoop與Spark整合在企業應用實戰案例的朋友。
課 程 大 綱
本課程會介紹 Hadoop / Spark 各組件的架構,但不會涉及任何安裝的內容,安裝的教程、錄像視頻什么的網上到處都是,講安裝太浪費時間~ Hadoop/Spark環境的安裝請大家自行解決,建議用Cloudera CDH或者Hortonworks HDP 本課程目標是:給大家分享一些在網上不能隨便就搜到的內容和竅門,展示企業線上生產系統中應用 Hadoop、Spark 的成功案例,以及與現有企業BI平臺整合的方案
第一周:企業級Hadoop/Spark應用概述,Hadoop/Spark生態系統與現有企業級應用的整合
企業級集群部署、數據管理、任務調度、集群監控
Hadoop架構介紹、Spark / Shark 介紹
Spark與Hadoop的關系
現有Hadoop架構的種種問題和限制,HA
企業數據倉庫的選型,Hadoop世界與EDW世界中的TPC(TPC DS與TPC H)
Hadoop世界中的DBA
成本考量 —— 人?物?物是人非……
第二周:Hadoop Eco System 進階應用基礎知識
HDFS / MapReduce / Yarn / Hive / Impala / Oozie 進階應用、資源分配及調優
玩轉Hive ETL高級應用:權限管理、external table、partition、中文支持、HiveServer2 JDBC接口
Hive的Windowing and Analytics Functions
Hive 0.13的新功能
Impala與Hive對比,各種Hints:Hive的Map Join,Impala的SHUFFLE Join(partitioned join)
第三周:進階應用實例 — 物流/廣告/電商/零售/互聯網行業Hadoop大數據應用
企業級應用實例1:物流行業 — 訂單跟蹤
—〉 Hive通過external table、partition、動態partition與NFS結合使用創建數據表,避免LOAD DATA
—〉 Hive和Impala的Join優化Hints,MapJoin、Shuffle Join 實例
企業級應用實例2:廣告行業 — 基于用戶行為分析的用戶歸類標簽 (客戶畫像)
—〉 Hive復合數據類型array
—〉 array與collect_set、collect_list、array_contains、sort_array
—〉 impala的group_concat
—〉 array與lateral view、LATERAL VIEW OUTER
企業級應用實例3:電商/零售行業 — 簡單的推薦系統 Recommender System 實現 (基于用戶標簽/客戶畫像)
—〉 Hive復合數據類型map、str_to_map、map_keys、map_values,map與lateral view
—〉 通過Hive、Impala轉換函數進行數據保護,確保企業應用信息安全(通過translate進行簡單數據脫敏Data Masking)
—〉 HiveServer2 JDBC接口實例應用、中文支持Bug糾錯
—〉 Hive的窗口和分析函數入門(row_number、rank、dense_rank等)
企業級應用實例4:互聯網行業 — 訪問量業績報表
—〉 Hive的窗口和分析函數進階(NTILE、CUME_DIST、PERCENT_RANK、LEAD、LAG、FIRST_VALUE、LAST_VALUE等)
—〉 ROWS BETWEEN ... AND ... (CURRENT ROW,rows PRECEDING,rows FOLLOWING)
本周總結 —— 物流/廣告/電商/零售/互聯網行業Hadoop企業級大數據應用方案經驗教訓總結
第四周:Hadoop & Spark / Shark 進階應用基礎知識
HBase / ZooKeeper / Sqoop / Graphite / Ganglia 進階應用及調優,Spark / Spark SQL / Shark 簡介
HBase Shell 與 HBase REST API 應用
HBase的Region進階應用Compact、Split與Merge
HBase進階腳本應用:jruby script
HBase與Hive的整合高級應用:binary(byte) value,lateral view explode
Hive 0.13:posexplode
Spark / Spark SQL / Shark 架構介紹、Spark Scala / Python 開發介紹
第五周:進階應用實例 — Hadoop/Spark平臺企業級開發框架
Hadoop生態系統中為企業級開發提供的測試框架應用實例
Spark實現“物流行業 — 訂單跟蹤 SLA”的實例,Scala語言及Python語言實現,Spark SQL + Parquet文件實現,Spark Scala Maven項目實例
HBase開發實例:REST API使用、JRuby腳本編寫、Region進階應用
與Continuous Integration系統整合的可能
—— 軟件/互聯網行業Hadoop企業級開發框架
第六周:Hadoop & Spark / Shark 企業級應用整合
HBase與Hive整合的大坑
HBase Python 客戶端 happybase 使用介紹、編程實例
HBase Coprocessor與HBase + Hive 特征特點比較、分別適用的場景
企業中應用 HBase,Hive,Impala,Spark / Shark 的注意事項,資源分配方案
Hadoop與現有企業級BI平臺的整合
Pentaho PDI / Kettle
Oracle or In-Memory Database
MicroStrategy / Tableau
第七周:進階應用實例 — Hadoop / Spark 企業級大數據BI應用整合
互聯網行業時間序列(time series data)數據處理實例 —— 整合 HBase 與 Hive:增量數據與全量數據,冷數據與熱數據分治
互聯網行業時間序列(time series data)數據處理實例 —— 整合 Spark 與 HBase
Spark 訪問 HBase 數據實例:通過 Spark 對 HBase 表進行 scan,Scala語言處理 HBase 返回值 Result 類中 KeyValue 對象的 ByteBuffer / ByteArray
通過 Kettle / Spoon 工具整合Hadoop與現有RDBMS的企業級BI解決方案
其它整合Hadoop與RDBMS構建企業級BI應用平臺的可能(如使用PostgreSQL FDW,使用Presto的****JDBC connector等)
—— 互聯網行業Hadoop企業級大數據BI應用整合方案
第八周:總結與展望
企業級大數據應用總結
構建企業大數據團隊探討
Hadoop方面工作面試秘籍:應用開發方向、數據分析方向、技術架構方向、團隊帶頭人
現有幾大Hadoop平臺比較:Cloudera CDH,Hortonworks HDP,MapR
Hadoop大數據還能干什么?通過Spark整合Streaming與Batch processing?
金融 / 工業 / 能源 / 智慧城市 / 醫療行業 / Smart Data
德國汽車、新能源行業的大數據創新項目分享
德國醫療行業大數據應用現狀
Hadoop大數據企業應用面臨的問題
課程源碼列表(全部會放到百度網盤提供下載)
主講人:邱騰
柏林工業大學,計算機科學,碩士,專注于BI大數據架構及解決方案,精通網絡數據、市場數據分析,在互聯網、電商、通信、能源、工業自動化、醫療、傳媒廣告等行業擁有豐富經驗,早年泡過sunnet IRC,架過firebird BBS。
2006年至2011年間,曾先后任職于新浪網絡系統部、諾基亞西門子網絡(NSN)、西門子公司能源自動化輸配電(PTD)部門,參與了中國移動、中國聯通、德國電信等不同國家電信運營商項目,在變電站自動化系統數據傳輸國際標準 ISO/IEC 61850 的第一版和第二版制訂過程中,參與了技術架構、實現及評測工作。
后轉戰德國科研機構Fraunhofer,參與了德國電子病例(eFA)、電子醫療卡(eHBA/HPC)改革項目的技術架構及數據安全保護實現。
08年開始接觸Hadoop/MapReduce,曾主導項目,通過整合Hadoop的各種組件使德國聯盟廣告商Zanox公司將海量tracking數據轉化為DMP并成功與多家RTB和DSP平臺對接。
現在歐洲最大的電商平臺德國Zalando公司任BI部門經理、大數據架構師
網名:chutium,個人主頁:http://www.abcn.net/
微博:@邱騰邱導導 http://weibo.com/tengqiu/
常見問題:
請點擊 http://www.chinahadoop.cn/page/questions
試聽視頻:
請點擊 http://www.chinahadoop.cn/course/19