數據集劃分為 訓練集 開發集(交叉驗證集) 測試集,最大化團隊效率。
如何劃分
將所有的數據隨機洗牌,放入交叉驗證集和測試集中。選擇的交叉驗證集和測試集要能夠反映你未來得到的數據。要嘗試收集多的數據,并隨機分配。這樣就能瞄準想要的目標,高效迭代地進入同一個目標。
訓練集將會影響到達目標的速度有多快。
在小的數據集上面,70/30 或者 60/20/20 經驗法則,無疑是更好的。
但是當你有1000000張圖片的時候,98/1/1 會更加合理。
測試集可以幫助評估投產系統的性能,大量測試數據,帶來更高的置信度在評估系統整體性能的時候。當不需要非常高的精確評估的時候,測試數據可以不用太大,同時不用測試數據也是可以的,條件是有比較大的驗證集,但一般還是要有測試集的。
另一方面,要讓驗證和測試更能反映真實的使用場景。
修改評估指標(驗證,測試,指標)
什么時候修改?
當當前的指標下訓練測試表現比較后,但是在實際的表現中效果不好的時候,需要修改。就是評估指標不能衡量不同的訓練算法之間的優劣排序時。
方法?
針對一個特殊的數據實例,可以增加權重項,使得對于特殊項識別錯誤加大懲罰的力度,有一個問題是 需要在數據上進行一些另外的標注,才能判斷是不是一些特殊的項。
一個好的評估指標和數據集能更快的做出決策,最佳實踐是,如果不能定義出一個很完美的評估指標和開發集,就快設立一個簡單模型,驅動團隊進行迭代,然后快速不斷進行改進。