MLSQL解決了什么問題

先看看做算法有哪些痛點(我們假設大部分算法的代碼都是基于Python的):

  1. 項目難以重現(xiàn),可閱讀性和環(huán)境要求導致能把另外一個同事寫的python項目運行起來不得不靠運氣
  2. 和大數(shù)據(jù)平臺銜接并不容易,需要讓研發(fā)重新做工程實現(xiàn),導致落地周期變長。
  3. 訓練時數(shù)據(jù)預處理/特征化無法在預測時復用
  4. 集成到流式,批處理和提供API服務都不是一件容易的事情
  5. 代碼/算法復用級別有限,依賴于算法自身的經(jīng)驗以及自身的工具箱,團隊難以共享。
  6. 其他團隊很難接入算法的工作

MLSQL如何解決這些問題呢?

統(tǒng)一交互語言

MLSQL提供了一套SQL的超集的DSL語法MLSQL,數(shù)據(jù)處理,模型訓練,模型預測部署等都是以MLSQL語言交互,該語言簡單易懂,無論算法,分析師,甚至運營都能看懂,極大的減少了團隊的溝通成本,同時也使得更多的人可以做算法方面的工作。

數(shù)據(jù)預處理 / 算法模塊化

所有較為復雜的數(shù)據(jù)預處理和算法都是模塊化的,通過函數(shù)以及純SQL來進行銜接。比如:

-- load data
load parquet.`${rawDataPath}` as orginal_text_corpus;

-- select only columns we care
select feature,label from orginal_text_corpus as orginal_text_corpus;

-- feature enginere moduel
train zhuml_orginal_text_corpus  as TfIdfInPlace.`${tfidfFeaturePath}` 
where inputCol="content" 
and `dic.paths`="/data/dict_word.txt" 
and stopWordPath="/data/stop_words"
and nGrams="2";

-- load data
load parquet.`${tfidfFeaturePath}/data` as tfidfdata;

--  algorithm module
train zhuml_corpus_featurize_training as PythonAlg.`${modelPath}` 
where pythonScriptPath="${sklearnTrainPath}"
-- kafka params for log
and `kafkaParam.bootstrap.servers`="${kafkaDomain}"
and `kafkaParam.topic`="test"
and `kafkaParam.group_id`="g_test-2"
and `kafkaParam.userName`="pi-algo"
-- distribute data
and  enableDataLocal="true"
and  dataLocalFormat="json"
-- sklearn params
and `fitParam.0.moduleName`="sklearn.svm"
and `fitParam.0.className`="SVC"
and `fitParam.0.featureCol`="features"
and `fitParam.0.labelCol`="label"
and `fitParam.0.class_weight`="balanced"
and `fitParam.0.verbose`="true"

and `fitParam.1.moduleName`="sklearn.naive_bayes"
and `fitParam.1.className`="GaussianNB"
and `fitParam.1.featureCol`="features"
and `fitParam.1.labelCol`="label"
and `fitParam.1.class_weight`="balanced"
and `fitParam.1.labelSize`="2"

-- python env
and `systemParam.pythonPath`="python"
and `systemParam.pythonParam`="-u"
and `systemParam.pythonVer`="2.7";

這段小腳本腳本完成了數(shù)據(jù)加載,特征工程,最后的訓練。所有以train開頭的,都是模塊,以select 開頭的都是標準sql,
以load開頭的則是各種數(shù)據(jù)源的加載。

在MLSQL中,任何一個模塊都有兩個產(chǎn)出:模型和函數(shù)。訓練時該模塊會產(chǎn)生一個對應的模型,預測時該模型會提供一個函數(shù),從而實現(xiàn)

  • 對訓練階段的數(shù)據(jù)處理邏輯,在預測時能進行復用。
  • 算法訓練的模型可以直接部署成一個預測函數(shù)。

標準遵循

所有數(shù)據(jù)處理模塊,算法模塊,都有標準的暴露參數(shù)的方式,也就是前面例子類似下面的句子:

and `fitParam.0.labelCol`="label"
and `fitParam.0.class_weight`="balanced"
and `fitParam.0.verbose`="true"

比如該算法暴露了class_weight,labelCol,verbose等參數(shù)。所有人開發(fā)的算法模塊和數(shù)據(jù)處理模塊都可以很好的進行復用。

分布式和單機多種部署形態(tài)

MLSQL是基于Spark改造而成,這就直接繼承了Spark的多個優(yōu)點:

  • 你可以在MLSQL里獲取基本上大部分存儲的支持,比如ES,MySQL,Parquet,ORC,JSON,CSV等等
  • 你可以部署在多種環(huán)境里,比如Yarn,Mesos,Local等模式

數(shù)據(jù)處理模塊/算法模型易于部署

同行啟動一個local模式的MLSQL Server,然后注冊我們訓練的時候使用到的數(shù)據(jù)處理模塊和算法模塊,每個模塊都會產(chǎn)生一個函數(shù),接著就能通過http接口傳遞一個函數(shù)嵌套的方式完成一個pipeline的使用了。對于函數(shù)我們確保其響應速度,一般都是在毫秒級。
注冊就是一個簡單的register語句:

-- transform model into udf
register PythonAlg.`${modelPath}` as topic_spam_predict options 
pythonScriptPath="${sklearnPredictPath}"
;

支持所有提供了Python語言接口的算法框架的集成

只要實現(xiàn)MLSQL的標準規(guī)范,你就能夠輕而易舉的將各種框架集成到MLSQL中。目前已經(jīng)支持SKlearn,同時有Keras圖片處理等相關例子。算法可以專注于算法模塊的研發(fā),研發(fā)可以專注于數(shù)據(jù)處理模塊的開發(fā),所有的人都可以通過MLSQL復用這些模塊,完成算法業(yè)務的開發(fā)。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,622評論 6 544
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,716評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,746評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,991評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,706評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 56,036評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,029評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,203評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,725評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,451評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,677評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,161評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,857評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,266評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,606評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,407評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,643評論 2 380

推薦閱讀更多精彩內容

  • 1.ios高性能編程 (1).內層 最小的內層平均值和峰值(2).耗電量 高效的算法和數(shù)據(jù)結構(3).初始化時...
    歐辰_OSR閱讀 29,516評論 8 265
  • 嗨咯,首先復述一下我這個專題計劃。閱讀是個人知識庫輸入的重要來源,然而,你真的懂閱讀嗎?你是否也停留在“讀不完、沒...
    Excel自習室閱讀 2,170評論 5 23
  • 書卷適宜歸隱淪, 安然竹下絕風塵。 門前桂影迎賓客, 窗口幽蘭笑主人。 東壁園邊看玉樹, 西鄰溪畔醉新春。 掩扉閑...
    丁懷超閱讀 384評論 2 2
  • 我愛這片田野 愛這生命開始的地方 愛它無窮無盡的希望 愛它無邊無涯的遠方 愛它裸露的胸膛 任風雨白般蹂躪 依然把萬...
    燕子_5c93閱讀 259評論 0 1
  • 山大溝深花艷, 坡陡彎急車慢。 天高云淡心懸, 左顧右盼腰酸。 遠走他鄉(xiāng)游玩, 起早貪黑無怨。 排除萬難艱險, 只...
    宗林的李閱讀 174評論 1 3