以決策樹為例看傳統監督學習過程

一、導入數據

  1. 一般使用pandas來處理 csv格式 或 pickle模塊處理pickle格式
  2. 將獲取的數據處理為訓練特征(features) 和 目標(target)兩部分

二、分析數據

  1. 計算相關的數學特征,包含不限于 均值、極值、中值、方差/標準差等。
  2. 處理數據集中的異常值,視項目對異常值的友好程度而定
  3. 數據分割,處理為訓練數據和測試數據

三、確定模型衡量標準

  1. 確定指標,如使用R-Square作為決策樹模型評分標準

四、分析模型表現

  1. 觀測不同參數下,模型在訓練集和驗證集上的表現。如繪制學習曲線和復雜度曲線,觀測不同參數值對模型的影響

五、選擇最優參數、獲取最優模型

  1. 如使用網格訓練法和交叉驗證確定最優參數、并獲取最優模型

六、作出預測

  1. 使用測試集進行測試,并對測試結果進行評分
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。