Neil Zhu,簡書ID Not_GOD,University AI 創始人 & Chief Scientist,致力于推進世界人工智能化進程。制定并實施 UAI 中長期增長戰略和目標,帶領團隊快速成長為人工智能領域最專業的力量。
作為行業領導者,他和UAI一起在2014年創建了TASA(中國最早的人工智能社團), DL Center(深度學習知識中心全球價值網絡),AI growth(行業智庫培訓)等,為中國的人工智能人才建設輸送了大量的血液和養分。此外,他還參與或者舉辦過各類國際性的人工智能峰會和活動,產生了巨大的影響力,書寫了60萬字的人工智能精品技術內容,生產翻譯了全球第一本深度學習入門書《神經網絡與深度學習》,生產的內容被大量的專業垂直公眾號和媒體轉載與連載。曾經受邀為國內頂尖大學制定人工智能學習規劃和教授人工智能前沿課程,均受學生和老師好評。
譯自wikipedia
# 基礎
The Hinge Loss 定義為 E(z) = max(0,1-z),在圖中是藍色的線所表示的那個,the Log Loss 為紅色的線所表示,而 the Square Loss 是綠色 the misclassification error 用黑色表示。
Figure 1 來自 Chris Bishop's PRML book
Hinge Loss 最常用在 SVM 中的最大化間隔分類中[1]。
對可能的輸出 t = ±1 和分類器分數 y,預測值 y 的 hinge loss 定義如下:
看到 y 應當是分類器決策函數的“原始”輸出,而不是最終的類標。例如,在線性的 SVM 中
可以看出當 t 和 y 有相同的符號時(意味著 y 預測出正確的分類)
擴展
盡管 SVM 常常被采用 1 v all 或者 1v1 的方式擴展到 multiclass classification中 [2],事實上還有一種“真正的”多類 Hinge loss 版本,由Crammer and Singer,[3]提出,
在[4]中給出定義了。
在 結構化推斷structured prediction中,hinge loss 可以被更遠地擴展到結構話輸出空間上。采用下面的變體的間隔重形變技術的Structured SVMs ,其中 y 表示 SVM 的參數, φ 是聯合特征函數, 而 Δ 是 Hamming loss:
優化
Hinge loss 是一個 凸函數, 所以很多常用的凸優化技術都可以使用。不過它是不可微的, 只是有subgradient
所以人們多采用平滑后的版本進行優化,例如二次平滑
在這篇文章中 Zhang 提出這樣的想法。[5]
[Modified Huber loss] 是這個 loss function 的特例 [5],其中
參考:
-
Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. (2004). "Are Loss Functions All the Same?". ?
-
Duan, K. B.; Keerthi, S. S. (2005). "Which Is the Best Multiclass SVM Method? An Empirical Study". Multiple Classifier Systems. [LNCS] ?
-
Crammer, Koby; Singer, Yoram (2001). "On the algorithmic implementation of multiclass kernel-based vector machines". [J. Machine Learning Research] ?
-
Moore, Robert C.; DeNero, John (2011). "L1
and L2 regularization for multiclass hinge loss models". ? -
Zhang, Tong (2004). Solving large scale linear prediction problems using stochastic gradient descent algorithms. ICML. ? ?