1.kNN算法:給定測試樣本,基于某種距離度量,找出訓練集中與其最近靠近的k個訓練樣本,然后基于這k個鄰居的信息進行預測.通常分類任務中,使用“投票”法;回歸任務中,使用“平均”法。
2.維數災難(curse of dimensionality):高維情形下,數據樣本稀疏、距離計算困難。
3.降維(dimension reduction)。pca一種降維方法。
4. root mean square error(RMSE):a typical performance measure for regression problems.
5. sklearn.preprocessing.OneHotEncoder:a OneHotEncoder encoder converts integer categorical values into to one-hot vectors。
6. feature scaling:min-max scaling、standardization。