從1維到3維,為我們的感覺是:維度越高,分類性能越優。然而,維度過高將導致一定的問題:在一維特征空間下,我們假設一個維度的寬度為5個單位,這樣樣本密度為
10/5=2;在2維特征空間下,10個樣本所分布的空間大小55=25,這樣樣本密度為
10/25=0.4;在3維特征空間下,10個樣本分布的空間大小為55*5=125,樣本密度就為
10/125=0.08。
如果繼續增加特征數量,隨著維度的增加,樣本將變得越來越稀疏,在這種情況下,也更容易找到一個超平面將目標分開。然而,如果我們將高維空間向低維空間投影,高維空間隱藏的問題將會呈現出來。
過多的特征導致的過擬合現象:訓練集上表現良好,但是對新數據缺乏泛化能力。
從1維到3維
總結
距離測量開始失去其在高維空間中測量的有效性,由于分類器取決于這些距離測量,因此在較低維空間中分類通常更容易,其中較少特征用于描述感興趣對象。
如果理論無限數量的訓練樣本可用,則維度的詛咒不適用,我們可用簡單的使用無數個特征來獲得完美的分類。訓練數據的大小越小,應使用的功能就越少。如果N個訓練樣本足以覆蓋單位區間大小的1D特征空間,則需要N ^ 2個樣本來覆蓋具有相同密度的2D特征空間,并且在3D特征空間中需要N ^ 3個樣本。換句話說,所需的訓練實例數量隨著使用的維度數量呈指數增長。