8
5
26
22953
1
1. Notations
在傳統的強化學習任務中,通常通過計算累積獎賞來學習最優策略(policy),這種方式簡單直接,而且在可以獲得較多訓練數據的情況下有較好的表現。然而在多步決策(sequenti...
在 Kaggle 的很多比賽中,我們可以看到很多 winner 喜歡用 xgboost,而且獲得非常好的表現,今天就來看看 xgboost 到底是什么以及如何應用。 本文結構...