機器學習最常面臨的兩類任務(wù)即是分類與回歸。這兩者有什么區(qū)別呢?
最常見的一種解釋為:
定量輸出稱為回歸,或者說是連續(xù)變量預(yù)測;
定性輸出稱為分類,或者說是離散變量預(yù)測。
舉個例子:
預(yù)測明天的氣溫是多少度,這是一個回歸任務(wù);
預(yù)測明天是陰、晴還是雨,就是一個分類任務(wù)。
但這種解釋根本上是一種錯誤的解釋,因為回歸與分類的本質(zhì)區(qū)別并不在于連續(xù)還是離散,只不過通常回歸問題以連續(xù)的形式表現(xiàn)、而分類問題以離散的形式表現(xiàn)罷了。
“回歸與分類的根本區(qū)別在于輸出空間是否為一個度量空間。”
我們不難看到,回歸問題與分類問題本質(zhì)上都是要建立映射關(guān)系:
而兩者的區(qū)別則在于:
對于回歸問題,其輸出空間B是一個度量空間,即所謂“定量”。也就是說,回歸問題的輸出空間定義了一個度量
去衡量輸出值與真實值之間的“誤差大小”。例如:預(yù)測一瓶700毫升的可樂的價格(真實價格為5元)為6元時,誤差為1;預(yù)測其為7元時,誤差為2。這兩個預(yù)測結(jié)果是不一樣的,是有度量定義來衡量這種“不一樣”的。
對于分類問題,其輸出空間B不是度量空間,即所謂“定性”。也就是說,在分類問題中,只有分類“正確”與“錯誤”之分,至于錯誤時是將Class 5分到Class 6,還是Class 7,并沒有區(qū)別,都是在error counter上+1。
而非很多回答所提到的“連續(xù)即回歸,離散即分類”。
事實上,在實際操作中,我們確實常常將回歸問題和分類問題互相轉(zhuǎn)化(分類問題回歸化:邏輯回歸;回歸問題分類化:年齡預(yù)測問題——>年齡段分類問題),但這都是為了處理實際問題時的方便之舉,背后損失的是數(shù)學上的嚴謹性。