Delta Lake的橫空出世,又點爆了一個新的熱點。今天,就用磚廠【Databricks】的大神Michael Armbrust上周的講座【全球巡演Boston站】來揭開它的神秘面紗。?https://v.youku.com/v_show/id_XNDI0OTE4NzYzNg?【《--- 優酷 Link, 強烈建議認真聽聽主創者是如何介紹Delta Lake的動機和底層實現細節】聽完后,思考一個簡單的問題,Spark + Delta是什么?數據湖?數據倉庫?還是 AI Database?
這里簡要介紹一下Michael Armbrust。應該說,他是磚廠最擅長給講座的,是Spark summit給Live demo最多的那位。他的光輝歷史,估計掰著手指也數不清,是UC Berkeley的博士,是歷史上引用最高的云計算論文的一作,是Spark SQL的原創者,是Structured Streaming的原創者,這兩年忙啥呢?在深挖 Delta Lake。至今,從動土的那一刻,已經挖了兩年。各大公司已經在生產環境中使用【比如,一年前Apple給的Spark summit keynote:?https://databricks.com/session/keynote-from-apple】。要知道,Databricks 的環境里已經有1?exabyte的 Delta 數據了。
Spark做為一個計算引擎,應該無須質疑是當前大數據行業的領導者。。。而parquet做為Spark的缺省數據存儲格式,其實相當薄弱,缺少了太多關鍵特性,讓Spark的用戶不勝其擾,簡直是Spark易用性的最大敵人!社區的抱怨可謂綿綿不絕,這種對于技術完美主義者,是無法容忍的?。。≡谶@種背景下,Delta開始了設計和實現。。。Databricks一年多前推出Delta之后,各位客戶好評不斷,但是我們只在有限的cloud上提供服務。這個實在無法滿足那些在on prem上大量部署Spark的整個社區!于是乎,今年Spark Summit,使用Apache license?開源了!??!
未來幾周,慢慢講解Delta的背景和技術細節。等不及的同學們,建議先聽聽Michael的talk吧!
Delta Lake主頁:https://delta.io/?附圖是美國懷俄明的Delta Lake