動機一:壓縮數據(Data Compression)
現假設有如下數據集,橫坐標為特征變量x1,其單位為厘米(cm);縱坐標為特征變量x2,其單位為英寸(inches)。
我們知道這兩個特征變量均為長度計量單位,同時使用不免重復。因此,我們需要將這個二維數據集降為一維數據集。
對于該問題降維的具體做法為:先找到一條合適的直線,然后將數據投影到這條直線上,最后我們將這些投影到直線上的數據用z(i)標識。
降維可以將對存儲、內存占用空間減半,使得運行這些數據的算法運行得更快。
下圖為三維數據集降為二維數據集的例子。
動機二:數據可視化
我們將數據可視化能讓我們更為直觀地找尋一個更好的解決方案。但對于維度較高的數據集,我們將其可視化是不可能的。因此,我們可以通過降維使得數據集可視化。