序 RF中有相應的缺失值處理方法,本次記錄其兩種缺失值處理技巧 暴力填補 Python中的na.roughfix包提供簡單的缺失值填補策略:對于...

序 RF中有相應的缺失值處理方法,本次記錄其兩種缺失值處理技巧 暴力填補 Python中的na.roughfix包提供簡單的缺失值填補策略:對于...
序 集成學習模型的一大特點是可以輸出特征重要性,特征重要性能夠在一定程度上輔助我們對特征進行篩選,從而使得模型的魯棒性更好。 隨機森林中進行特征...
序 boosting是集成學習中的一個大家族,本次記錄boosting的相關概念以及與bagging的區別。 boosting思想 Boosti...
為何要剪枝 決策樹遞歸地構建樹,直到不能繼續分裂下去為止,這樣的樹對于訓練集可能擬合的較好,但對于訓練集可能產生過擬合現象,原因是過多的考慮對訓...
序 本次以及后續幾次博客將陸續記錄關于集成學習模型的相關知識點。 Ensemble概述 集成學習 就是構造若干模型并用它們的(加權預測/投票)值...
序 面試過程中經常會被問到關于方差和偏差的概念以及比對。 偏差 偏差度量了學習算法的期望預測值與真實結果間的偏離程度,也就是刻畫了模型本身的擬合...
序 集成學習大類中常見的有兩個子類:Bagging和Boosting。本次記錄一下Bagging以及其代表模型RandomForest。 Bag...
序 本次記錄樸素貝葉斯的相關原理,并上一張手寫的面試級推導過程 樸素貝葉斯模型是什么? 樸素貝葉斯是基于貝葉斯定理與特征條件獨立假設的分類方法。...
序 本次記錄一下決策樹的相關概念以及思想,后面博客再貼上具體的算法原理 一句話介紹 決策樹是一種基本的分類與回歸的判別式模式,在分類問題中,表示...
序 熵的概念中有信息熵、信息增益、信息增益比、基尼指數,這些統統作為決策樹分裂的依據,其中,我們需要知道信息熵與基尼指數的關系。 信息熵與基尼指...