1.kNN算法:給定測(cè)試樣本,基于某種距離度量,找出訓(xùn)練集中與其最近靠近的k個(gè)訓(xùn)練樣本,然后基于這k個(gè)鄰居的信息進(jìn)行預(yù)測(cè).通常分類任務(wù)中,使用“投票”法;回歸任務(wù)中,使用“平均”法。
2.維數(shù)災(zāi)難(curse of dimensionality):高維情形下,數(shù)據(jù)樣本稀疏、距離計(jì)算困難。
3.降維(dimension reduction)。pca一種降維方法。
4. root mean square error(RMSE):a typical performance measure for regression problems.
5. sklearn.preprocessing.OneHotEncoder:a OneHotEncoder encoder converts integer categorical values into to one-hot vectors。
6. feature scaling:min-max scaling、standardization。