到現在為止, 我們介紹了一些分類回歸的模型, 當然還有許許多多的模型沒有介紹, 同時我們到現在還沒有對數據有過任何的加工,真實情況下,數據是需要清洗提煉,特征也是需要挖掘和選...

到現在為止, 我們介紹了一些分類回歸的模型, 當然還有許許多多的模型沒有介紹, 同時我們到現在還沒有對數據有過任何的加工,真實情況下,數據是需要清洗提煉,特征也是需要挖掘和選...
這一篇開始介紹Boosting,我們先介紹Boosting中的第一個模型, AdaBoost, 二分類學習模型 AdaBoost的基本原理,是每次改變樣本的權重,增大本次學習...
這一篇繼續boosting,介紹一下提升樹算法, 提升樹以決策樹為基模型, 依然是加法模型,優化算法是前向分步算法。 針對分類問題, 決策樹是二叉分類樹, 回歸問題則是二叉回...
這一篇, 我們希望提升模型的性能, 除了更多的數據,更好的EDA等,集成學習可以從模型的角度提升模型的學習性能,即將基模型組合成一個大模型。 在介紹集成學習前, 我們先介紹一...
這一篇開始講GBDT(梯度提升決策樹), 根據上一篇可知,該模型每次學習的是損失函數的負梯度。所以基模型是回歸樹(因為每次都在擬合一個確定的值, 這和提升樹不一樣了,提升樹中...
這一篇開始介紹XGBoost。 和GBDT不同, XGBoost不僅僅使用了一階梯度, 還使用了二階梯度。同時增加了正則化。 第m步的損失函數: 是第m棵樹的復雜度,是前m-...
這一講要開始講SVM(Support Vector Machine)了,在深度學習流行以前,SVM占據著很重要的位置,它的理論推導是非常優美的。 SVM也是硬分類的一種,因為...
這一篇會接著介紹硬分類模型-線性判別分析(LDA),也稱為fisher判別分析 同樣以二分類為出發點, 數據集,是列向量,維度為p, 定義, , 表示標簽是1的樣本集, 同理...
概率問題有兩大學派,一個是頻率派,另一個是貝葉斯派。 頻率派的是統計機器學習方法,本質是優化問題,流程可以簡化為1.設計模型 2.定義loss function 3.使用算法...