一、導入數據
- 一般使用pandas來處理 csv格式 或 pickle模塊處理pickle格式
- 將獲取的數據處理為訓練特征(features) 和 目標(target)兩部分
二、分析數據
- 計算相關的數學特征,包含不限于 均值、極值、中值、方差/標準差等。
- 處理數據集中的異常值,視項目對異常值的友好程度而定
- 數據分割,處理為訓練數據和測試數據
三、確定模型衡量標準
- 確定指標,如使用R-Square作為決策樹模型評分標準
四、分析模型表現
- 觀測不同參數下,模型在訓練集和驗證集上的表現。如繪制學習曲線和復雜度曲線,觀測不同參數值對模型的影響
五、選擇最優參數、獲取最優模型
- 如使用網格訓練法和交叉驗證確定最優參數、并獲取最優模型
六、作出預測
- 使用測試集進行測試,并對測試結果進行評分