[概覽]《Hadoop/Spark企業應用實戰》 - 小象學院

《Hadoop/Spark企業應用實戰》 - 小象學院 - 中國最專業的Hadoop,Spark大數據在線教育平臺——權威課程:Hadoop培訓,Spark培訓,HBase培訓,Hive培訓,Mahout培訓等
http://www.chinahadoop.cn/course/113

課程介紹



課 程 名 稱
《Hadoop/Spark企業應用實戰》——企業使用 Hadoop / Spark 的真實案列
時 間
共八周
培 訓 方 式
視頻學習 + 在線答疑 + 每周作業 + 結業考試

授 課 對 象
商業智能(BI)和企業數據倉庫(EDW)的管理人員、建模人員、分析和開發人員、系統管理員等;
有意將Hadoop生態系統中的組件,作為現有EDW的補充,或未來替代產品的項目負責人及開發人員;
企業中牽涉到大數據處理的數據中心運行、規劃、設計負責人;
Hadoop企業級應用、整合項目的成員、負責人、開發人員;
熟悉Hadoop生態系統,想了解和學習Hadoop與Spark整合在企業應用實戰案例的朋友。

課 程 大 綱
本課程會介紹 Hadoop / Spark 各組件的架構,但不會涉及任何安裝的內容,安裝的教程、錄像視頻什么的網上到處都是,講安裝太浪費時間~ Hadoop/Spark環境的安裝請大家自行解決,建議用Cloudera CDH或者Hortonworks HDP 本課程目標是:給大家分享一些在網上不能隨便就搜到的內容和竅門,展示企業線上生產系統中應用 Hadoop、Spark 的成功案例,以及與現有企業BI平臺整合的方案
第一周:企業級Hadoop/Spark應用概述,Hadoop/Spark生態系統與現有企業級應用的整合
企業級集群部署、數據管理、任務調度、集群監控

Hadoop架構介紹、Spark / Shark 介紹

Spark與Hadoop的關系

現有Hadoop架構的種種問題和限制,HA

企業數據倉庫的選型,Hadoop世界與EDW世界中的TPC(TPC DS與TPC H)

Hadoop世界中的DBA

成本考量 —— 人?物?物是人非……

第二周:Hadoop Eco System 進階應用基礎知識
HDFS / MapReduce / Yarn / Hive / Impala / Oozie 進階應用、資源分配及調優

玩轉Hive ETL高級應用:權限管理、external table、partition、中文支持、HiveServer2 JDBC接口

Hive的Windowing and Analytics Functions

Hive 0.13的新功能

Impala與Hive對比,各種Hints:Hive的Map Join,Impala的SHUFFLE Join(partitioned join)

第三周:進階應用實例 — 物流/廣告/電商/零售/互聯網行業Hadoop大數據應用
企業級應用實例1:物流行業 — 訂單跟蹤

—〉 Hive通過external table、partition、動態partition與NFS結合使用創建數據表,避免LOAD DATA

—〉 Hive和Impala的Join優化Hints,MapJoin、Shuffle Join 實例

企業級應用實例2:廣告行業 — 基于用戶行為分析的用戶歸類標簽 (客戶畫像)

—〉 Hive復合數據類型array

—〉 array與collect_set、collect_list、array_contains、sort_array

—〉 impala的group_concat

—〉 array與lateral view、LATERAL VIEW OUTER

企業級應用實例3:電商/零售行業 — 簡單的推薦系統 Recommender System 實現 (基于用戶標簽/客戶畫像)

—〉 Hive復合數據類型map、str_to_map、map_keys、map_values,map與lateral view

—〉 通過Hive、Impala轉換函數進行數據保護,確保企業應用信息安全(通過translate進行簡單數據脫敏Data Masking)

—〉 HiveServer2 JDBC接口實例應用、中文支持Bug糾錯

—〉 Hive的窗口和分析函數入門(row_number、rank、dense_rank等)

企業級應用實例4:互聯網行業 — 訪問量業績報表

—〉 Hive的窗口和分析函數進階(NTILE、CUME_DIST、PERCENT_RANK、LEAD、LAG、FIRST_VALUE、LAST_VALUE等)

—〉 ROWS BETWEEN ... AND ... (CURRENT ROW,rows PRECEDING,rows FOLLOWING)

本周總結 —— 物流/廣告/電商/零售/互聯網行業Hadoop企業級大數據應用方案經驗教訓總結

第四周:Hadoop & Spark / Shark 進階應用基礎知識
HBase / ZooKeeper / Sqoop / Graphite / Ganglia 進階應用及調優,Spark / Spark SQL / Shark 簡介

HBase Shell 與 HBase REST API 應用

HBase的Region進階應用Compact、Split與Merge

HBase進階腳本應用:jruby script

HBase與Hive的整合高級應用:binary(byte) value,lateral view explode

Hive 0.13:posexplode

Spark / Spark SQL / Shark 架構介紹、Spark Scala / Python 開發介紹

第五周:進階應用實例 — Hadoop/Spark平臺企業級開發框架
Hadoop生態系統中為企業級開發提供的測試框架應用實例

Spark實現“物流行業 — 訂單跟蹤 SLA”的實例,Scala語言及Python語言實現,Spark SQL + Parquet文件實現,Spark Scala Maven項目實例

HBase開發實例:REST API使用、JRuby腳本編寫、Region進階應用

Continuous Integration系統整合的可能

—— 軟件/互聯網行業Hadoop企業級開發框架

第六周:Hadoop & Spark / Shark 企業級應用整合
HBase與Hive整合的大坑

HBase Python 客戶端 happybase 使用介紹、編程實例

HBase Coprocessor與HBase + Hive 特征特點比較、分別適用的場景

企業中應用 HBase,Hive,Impala,Spark / Shark 的注意事項,資源分配方案

Hadoop與現有企業級BI平臺的整合

Pentaho PDI / Kettle

Oracle or In-Memory Database

MicroStrategy / Tableau

第七周:進階應用實例 — Hadoop / Spark 企業級大數據BI應用整合
互聯網行業時間序列(time series data)數據處理實例 —— 整合 HBase 與 Hive:增量數據與全量數據,冷數據與熱數據分治

互聯網行業時間序列(time series data)數據處理實例 —— 整合 Spark 與 HBase

Spark 訪問 HBase 數據實例:通過 Spark 對 HBase 表進行 scan,Scala語言處理 HBase 返回值 Result 類中 KeyValue 對象的 ByteBuffer / ByteArray

通過 Kettle / Spoon 工具整合Hadoop與現有RDBMS的企業級BI解決方案

其它整合Hadoop與RDBMS構建企業級BI應用平臺的可能(如使用PostgreSQL FDW,使用Presto的****JDBC connector等)

—— 互聯網行業Hadoop企業級大數據BI應用整合方案

第八周:總結與展望
企業級大數據應用總結

構建企業大數據團隊探討

Hadoop方面工作面試秘籍:應用開發方向、數據分析方向、技術架構方向、團隊帶頭人

現有幾大Hadoop平臺比較:Cloudera CDH,Hortonworks HDP,MapR

Hadoop大數據還能干什么?通過Spark整合Streaming與Batch processing?

金融 / 工業 / 能源 / 智慧城市 / 醫療行業 / Smart Data

德國汽車、新能源行業的大數據創新項目分享

德國醫療行業大數據應用現狀

Hadoop大數據企業應用面臨的問題

課程源碼列表(全部會放到百度網盤提供下載)


主講人:邱騰
柏林工業大學,計算機科學,碩士,專注于BI大數據架構及解決方案,精通網絡數據、市場數據分析,在互聯網、電商、通信、能源、工業自動化、醫療、傳媒廣告等行業擁有豐富經驗,早年泡過sunnet IRC,架過firebird BBS。
2006年至2011年間,曾先后任職于新浪網絡系統部、諾基亞西門子網絡(NSN)、西門子公司能源自動化輸配電(PTD)部門,參與了中國移動、中國聯通、德國電信等不同國家電信運營商項目,在變電站自動化系統數據傳輸國際標準 ISO/IEC 61850 的第一版和第二版制訂過程中,參與了技術架構、實現及評測工作。
后轉戰德國科研機構Fraunhofer,參與了德國電子病例(eFA)、電子醫療卡(eHBA/HPC)改革項目的技術架構及數據安全保護實現。
08年開始接觸Hadoop/MapReduce,曾主導項目,通過整合Hadoop的各種組件使德國聯盟廣告商Zanox公司將海量tracking數據轉化為DMP并成功與多家RTB和DSP平臺對接。
現在歐洲最大的電商平臺德國Zalando公司任BI部門經理、大數據架構師
網名:chutium,個人主頁:http://www.abcn.net/
微博:@邱騰邱導導 http://weibo.com/tengqiu/

常見問題:
請點擊 http://www.chinahadoop.cn/page/questions

試聽視頻:
請點擊 http://www.chinahadoop.cn/course/19

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,182評論 6 543
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,489評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,290評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,776評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,510評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,866評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,860評論 3 447
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,036評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,585評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,331評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,536評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,058評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,754評論 3 349
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,154評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,469評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,273評論 3 399
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,505評論 2 379

推薦閱讀更多精彩內容