Training set: A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier.
訓(xùn)練集是用來學(xué)習(xí)的樣本集,通過匹配一些參數(shù)來建立一個分類器
Validation set: A set of examples used to tune the parameters [i.e., architecture, not weights] of a classifier, for example to choose the number of hidden units in a neural network.
驗證集是用來調(diào)整分類器的參數(shù)的樣本集,比如在神經(jīng)網(wǎng)絡(luò)中選擇隱藏單元數(shù)。驗證集還用來確定網(wǎng)絡(luò)結(jié)構(gòu)或者控制模型復(fù)雜程度的參數(shù)。作用是當(dāng)通過訓(xùn)練集訓(xùn)練出多個模型后,為了能找出效果最佳的模型,使用各個模型對驗證集數(shù)據(jù)進行預(yù)測,并記錄模型準(zhǔn)確率。選出效果最佳的模型所對應(yīng)的參數(shù),即用來調(diào)整模型參數(shù)。如svn中的參數(shù)c和核函數(shù)等。
Test set: A set of examples used only to assess the performance [generalization] of a fully specified classifier.
測試集純粹是為了測試已經(jīng)訓(xùn)練好的模型的分類能力的樣本集。
一般驗證集在交叉驗證里應(yīng)用的比較多:利用交叉驗證方法選擇模型思路是:使用訓(xùn)練集(trainset)數(shù)據(jù)所有候選模型進行參數(shù)估計,使用驗證集(validationset)為檢驗樣本,然后計算預(yù)測均方誤差,比較各個模型的預(yù)測均方誤差,選擇預(yù)測均方誤差最小的擬合模型為選擇模型。