機器學習_集成算法

為什么使用集成算法

?簡單算法一般復雜度低,速度快,易展示結果,但預測效果往往不是特別好。每種算法好像一種專家,集成就是把簡單的算法(后文稱基算法/基模型)組織起來,即多個專家共同決定結果。

如何組織算法和數據

?這里我們的著眼點不是某個算法,某個函數,而是對數據和算法整體的規劃。
?從數據拆分的角度看:可以按行拆分數據,也可以按列給屬性分組。
?從算法組合的成份看:可以集成不同算法,也可以集成同一算法不同參數,還可以集成同一算法使用不同數據集(結合數據拆分)。
?從組合的方式看:可以選擇少數服從多數,或加權求合(可根據正確率分配權重)。
?從組合的結構看:可以是并行,串行,樹型或者更復雜。
?綜上,我們看到了各種構造集成的方法,這里面可選的組合太多,不可能一一嘗試,目前拼的還是人的經驗:對數據的理解,對算法的組織,以及對工具的駕駛能力。在使用集成算法的過程中,除了調庫,調參,更重要的是領會精神。也可以自己編寫一些集成算法。

三個臭皮匠頂個諸葛亮

?三個臭皮匠是否能頂諸葛亮,這還得具體問題,具體分析。如果基算法選錯了,即使再怎么組合,再怎么調參也沒用。但有些問題確實可以拆開看,達到1+1>2的效果,比如說,用線性函數去擬合曲線,效果不好,但是如果用分段線性函數,效果還不錯。分段線性函數就可看作線性函數的集成(把數據橫著拆開了),只不過這種集成要比直接調集成函數復雜一些。

分段線性擬合

?一般來說集成的會比不集成效果好,但集成的過程也會增加復雜度。

常用的集成算法

?集成算法一般分為三類:Bagging,Boosting,Stacking(我們可以把它簡單地看成并行,串行和樹型)。Bagging是把各個基模型的結果組織起來,取一個折中的結果;Boosting是根據舊模型中的錯誤來訓練新模型,層層改進;Stacking是把基模型組織起來,注意不是組織結果,而是組織基模型本身,該方法看起來更靈活,也更復雜。

1. Bagging(自舉匯聚法)
?Bagging的全稱是bootstrap averaging,它把各個基模型的結果組織起來,具體實現也有很多種類型,以sklearn中提供的Bagging集成算法為例:
?BaggingClassifier/BaggingRegressor是從原始數據集抽選S次(抽取實例,抽取屬性),得到S個新數據集(有的值可能重復,有的值可能不出現)。使用同一模型,訓練得到S個分類器,預測時使用投票結果最多的分類。
?RandomForestClassifier隨機森林,它是對決策樹的集成,用隨機的方式建立一個決策樹的森林。當有一個新的輸入樣本進入的時候,就讓森林中的每一棵決策樹分別進行判斷,預測時使用投票結果最多的分類,也是少數服從多數的算法。
?VotingClassifier,可選擇多個不同的基模型,分別進行預測,以投票方式決定最終結果。
?Bagging中各個基算法之間沒有依賴,可以并行計算,它的結果參考了各種情況,實現的是在欠擬合和過擬合之間取折中。

2. Boosting(提升法)
?Boosting不斷的建立新模型,而新模型更重視上一個模型中被錯誤分類的樣本,最終根據按成功度加權組合得到結果。
?由于引入了逐步改進的思想,重要屬性會被加權,這也符合人的直覺。一般來說,它的效果會比Bagging好一些。由于新模型是在舊模型的基本上建立的,因此不能使用并行方法訓練,并且由于對錯誤樣本的關注,也可能造成過擬合。常見的Boosting算法有:
?AdaBoost自適應提升算法,它對分類錯誤屬性的給予更大權重,再做下次迭代,直到收斂。AdaBoost是一個相對簡單的Boosting算法,可以自己寫代碼實現,常見的做法是基模型用單層分類器實現(樹樁),樁對應當前最適合劃分的屬性值位置。
?Gradient Boosting Machine(簡稱GBM)梯度提升算法,它通過求損失函數在梯度方向下降的方法,層層改進,sklearn中也實現了該算法:GradientBoostingClassifier/GradientBoostingRegressor。GBM是目前非常流行的一類算法,在后面詳細說明。

3. Stacking
?Stacking訓練一個模型用于組合(combine)其他各個基模型。具體方法是把數據分成兩部分,用其中一部分訓練幾個基模型A1,A2,A3,用另一部分數據測試這幾個基模型,把A1,A2,A3的輸出作為輸入,訓練組合模型B。注意,它不是把模型的結果組織起來,而把模型組織起來。理論上,Stacking可以組織任何模型,實際中常使用單層logistic回歸作為模型。Sklearn中也實現了stacking模型:StackingClassifier

梯度提升算法(GB**)

?Gradient Boosting Machine(GBM)梯度提升算法是目前比較流行的數據挖掘模型,它是泛化能力較強的算法,常用于各種數據挖掘比賽之中。常用的工具有XGBoost,LightGBM,sklearn提供的GradientBoostingClassifier等等。GBM常把決策樹作為基模型,我們常看到的GBDT梯度提升決策樹,一般也是指該算法。
?通常我們使用GBM都是直接調庫,所以我們關注的是:什么時候用它,選用哪個GBM庫,給它什么樣的數據,以及具體調參。
GBM的原理是希望通過集成基模型使得模型總體的損失函數在梯度方向上下降(梯度下降具體見《深度學習——BP神經網絡》篇),模型不斷改進。
在調參方面,作為梯度下降算法,我們也需要在參數中指定學習率(每次迭代改進多少),誤差函數(在回歸問題中判斷預測值與實際值的差異);是與決策樹結合時,還需要指定樹的大小;另外還要設置迭代的次數,每次抽取樣本的比例等等。
?在選庫方面,sklearn中提供的GradientBoostingClassifier是GBM最基本的實現,同時還提供了圖形化工具,讓開發者對GBM中的各屬性有直觀理解。不過Sklearn是一個算法集,不是專門做GBM的。

Feature

?XGBoost(eXtreme Gradient Boosting)是一個單獨的工具包,對GBDT做了一些改進:比如加入線性分類器的支持,正則化,對代價函數進行了二階泰勒展開,缺失值處理,提高了效率,支持分布式計算等等。
?LightGBM(Light Gradient Boosting Machine)同樣是一款基于決策樹算法的分布式梯度提升框架。相對于XGBoost,速度又有提高,并且占用內存更少。
幾個工具的比較詳見《關于樹的幾個ensemble模型的比較(GBDT、xgBoost、lightGBM、RF)》

實例:

  1. 說明:
    實例摘自sklearn官網上GBM的例程,實現的是波士頓房價預測,它使用4層決策樹,經過500次迭代之后預測房價,從圖中可看到,預測結果的均方誤差在迭代的過程中是如何下降的,以及從模型中提取的變量與結果的相關性。

  2. 核心代碼

params = {'n_estimators': 500, 'max_depth': 4, 'min_samples_split': 2,
          'learning_rate': 0.01, 'loss': 'ls'}
clf = ensemble.GradientBoostingRegressor(**params)
clf.fit(X_train, y_train)
mse = mean_squared_error(y_test, clf.predict(X_test))
print("MSE: %.4f" % mse)
  1. 完整代碼下載
    http://scikit-learn.org/stable/auto_examples/ensemble/plot_gradient_boosting_regression.html#sphx-glr-auto-examples-ensemble-plot-gradient-boosting-regression-py
  2. 運行結果


    房價預測

參考

  1. GBDT源碼分析之一 :總覽
    http://www.lxweimin.com/p/02cfaae3fd01
  2. 機器學習算法中GBDT和XGBOOST的區別有哪些?
    https://www.zhihu.com/question/41354392
  3. GBDT:梯度提升決策樹
    http://www.lxweimin.com/p/005a4e6ac775
  4. Ensemble methods
    http://scikit-learn.org/stable/modules/ensemble.html
  5. 機器學習系列(12)_XGBoost參數調優完全指南
    http://blog.csdn.net/han_xiaoyang/article/details/52665396
  6. 關于樹的幾個ensemble模型的比較(GBDT、xgBoost、lightGBM、RF)
    http://m.blog.csdn.net/xwd18280820053/article/details/68927422
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,505評論 6 533
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,556評論 3 418
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,463評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,009評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,778評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,218評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,281評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,436評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,969評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,795評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,993評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,537評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,229評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,659評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,917評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,687評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,990評論 2 374

推薦閱讀更多精彩內容