理解L1,L2 范數在機器學習中應用

理解L1,L2 范數

L1,L2 范數即 L1-normL2-norm,自然,有L1、L2便也有L0、L3等等。因為在機器學習領域,L1 和 L2 范數應用比較多,比如作為正則項在回歸中的使用 Lasso Regression(L1) 和 Ridge Regression(L2)。

因此,此兩者的辨析也總被提及,或是考到。不過在說明兩者定義和區別前,先來談談什么是范數(Norm)吧。

什么是范數?

在線性代數以及一些數學領域中,norm 的定義是

a function that assigns a strictly positive length or size to each vector in a vector space, except for the zero vector. ——Wikipedia

簡單點說,一個向量的 norm 就是將該向量投影到 [0, ?) 范圍內的值,其中 0 值只有零向量的 norm 取到。看到這樣的一個范圍,相信大家就能想到其與現實中距離的類比,于是在機器學習中 norm 也就總被拿來表示距離關系:根據怎樣怎樣的范數,這兩個向量有多遠。

上面這個怎樣怎樣也就是范數種類,通常我們稱?為p-norm,嚴格定義是:

其中當 p 取 1 時被稱為 1-norm,也就是提到的 L1-norm,同理 L2-norm 可得。

L1 和 L2 范數的定義

根據上述公式 L1-norm 和 L2-norm 的定義也就自然而然得到了。

先將 p=1 代入公式,就有了 L1-norm 的定義:

然后代入 p=2,L2-norm 也有了:

L2 展開就是熟悉的歐幾里得范數:

題外話,其中 L1-norm 又叫做 taxicab-norm 或者 Manhattan-norm,可能最早提出的大神直接用在曼哈頓區坐出租車來做比喻吧。下圖中綠線是兩個黑點的 L2 距離,而其他幾根就是 taxicab 也就是 L1 距離,確實很像我們平時用地圖時走的路線了。

L1 和 L2 范數在機器學習上最主要的應用大概分下面兩類

  • 作為損失函數使用

  • 作為正則項使用也即所謂 L1-regularizationL2-regularization

我們可以擔當損失函數

先來看個回歸問題

我們需要做的是,獲得一條線,讓數據點到線上的總距離(也就是error)最小。

還記得之前在范數介紹中提到的用來表示距離嗎,于是也可以用能表示距離的 L1-norm 和 L2-norm 來作為損失函數了。

首先是 L1-norm 損失函數,又被稱為 least absolute deviation (LAD,最小絕對偏差)

如果我們最小化上面的損失函數,其實就是在最小化預測值 ? 和目標值 ? 的絕對值。

之后是大家最熟悉的 L2-norm 損失函數,又有大名最小二乘誤差 (least squares error, LSE):

這個便不多解釋了。

那么問題來了,這里不談挖掘機,為什么大家一般都用 L2 損失函數,卻不用 L1 呢?

這個就說來話長了,如果你問一個學習過微積分的同學,如何求一個方程的最小值,他/她大概會想當然的說:“求導,置零,解方程。” 號稱微積分屆的農夫三拳。

但如果給出一個絕對值的方程,突然就會發現農夫三拳不管用了,求最小值就有點麻煩了。主要是因為絕對值的倒數是不連續的。

同樣的對于 L1 和 L2 損失函數的選擇,也會碰到同樣的問題,所以最后大家一般用 L2 損失函數而不用 L1 損失函數的原因就是:

因為計算方便!

可以直接求導獲得取最小值時各個參數的取值。

此外還有一點,用 L2 一定只有一條最好的預測線,L1 則因為其性質可能存在多個最優解。(更多關于L1 L2 損失函數參考索引5)

當然 L1 損失函數難道就沒有什么好處了嗎,也是有的,那就是魯棒性 (Robust) 更強,對異常值更不敏感

我們還能擔當正則項

因為機器學習中眾所周知的過擬合問題,所以用正則化防止過擬合,成了機器學習中一個非常重要的技巧。

但數學上來講,其實就是在損失函數中加個正則項(Regularization Term),來防止參數擬合得過好。

L1-regularization 和 L2-regularization 便都是我們常用的正則項,兩者公式的例子分別如下

這兩個正則項最主要的不同,包括兩點:

  • 如上面提到的,L2 計算起來更方便,而 L1 在特別是非稀疏向量上的計算效率就很低;

  • 還有就是 L1 最重要的一個特點,輸出稀疏,會把不重要的特征直接置零,而 L2 則不會;

  • 最后,如之前多次提過,L2 有唯一解,而 L1 不是。

這里關于第二條輸出稀疏我想再進行一些詳細講解,因為 L1 天然的輸出稀疏性,把不重要的特征都置為 0,所以它也是一個天然的特征選擇器

可是為什么 L1 會有這樣的性質呢,而 L2 沒有呢?這里用個直觀的例子來講解。

來一步一步看吧,首先獲知用梯度下降法來優化時,需要求導獲得梯度,然后用以更新參數。

于是分別先對 L1 正則項和 L2 正則項來進行求導,可得。

之后將 L1 和 L2 和它們的導數畫在圖上

于是會發現,在梯度更新時,不管 L1 的大小是多少(只要不是0)梯度都是1或者-1,所以每次更新時,它都是穩步向0前進。

而看 L2 的話,就會發現它的梯度會越靠近0,就變得越小。

也就是說加了 L1 正則的話基本上經過一定步數后很可能變為0,而 L2 幾乎不可能,因為在值小的時候其梯度也會變小。于是也就造成了 L1 輸出稀疏的特性。

Reference

  1. Differences between L1 and L2 as Loss Function and Regularization

  2. Why L1 norm for sparse models

  3. L1 Norms versus L2 Norms

  4. Norm (mathematics)-Wiki

  5. Why we use “least squares” regression instead of “least absolute deviations” regression

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,791評論 6 545
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,795評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,943評論 0 384
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 64,057評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,773評論 6 414
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,106評論 1 330
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,082評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,282評論 0 291
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,793評論 1 338
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,507評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,741評論 1 375
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,220評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,929評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,325評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,661評論 1 296
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,482評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,702評論 2 380

推薦閱讀更多精彩內容