機器學習:最小二乘、正則化和廣義線性模型

1. 最小二乘法(Least squares)

最小二乘法是一種數學優化技術,它通過最小化誤差的平方來尋找數據的最佳函數匹配。

先引入一些先驗知識:

1. 高斯分布(Gaussian distribution)
-.-
若隨機變量X服從一個位置參數為 μ(數學期望) 、尺度參數為 σ(標準差)的概率分布,記為:X~(μ, σ2)。其概率密度函數為:


高斯分布曲線:

2. 拉普拉斯分布(Laplace distribution)
-.-
可以看作是兩個不同位置的指數分布背靠背拼接在一起,所以它也叫作雙指數分布。其中,μ 是位置參數,b > 0 是尺度參數。
·

拉普拉斯分布曲線:

3. 最大似然估計(Maximum likelihood estimation, ML)
-.-
假設有一組獨立同分布的觀測樣本 x1, x2, …, xn ,它們來自一個概率密度函數為 f0 = f (·|θ0) 的分布。其中,θ0為該分布未知的真實參數。而我們的目標是找到最接近 θ0 的參數估計 θ' 。為了做到這一點,我們引入了最大似然估計。對于前面提到的n個獨立同分布的觀測樣本,其聯合密度函數為:
·
························ f (x1, x2, …, xn | θ) = f (x1|θ) f (x2|θ) ··· f (xn|θ)
·
考慮到觀測樣本是該函數的固定參數,而 θ 才是該函數的變量參數,這樣我們就可以定義該函數為 似然函數
.


對兩邊取自然對數后得到 對數似然,然后,我們可以通過最大化對數似然來求解 θ0 的最大似然估計 θML
·
4. 最大后驗估計(Maximum a posteriori estimation, MAP)
-.-
最大后驗概率估計可以獲得對實驗數據中無法直接觀察到的量的點估計。它與最大似然估計中的經典方法有密切關系,但是它使用了一個增廣的優化目標,進一步考慮了被估計量的先驗概率分布。所以最大后驗概率估計可以看作是規則化的最大似然估計。
假設 θ 存在一個先驗分布 g,利用貝葉斯定理,我們可以得到 θ 的后驗分布為:

最大化該分布得到 MAP(當先驗 g 是均勻分布時,MAP與MLE重合):

對上式取自然對數得:

Note: MLE不考慮先驗知識,很容易造成過擬合現象。MAP 比 MLE 多了一項先驗分布 g(θ),這一項正好起到了正則化的作用。如果假設 g(θ) 服從高斯分布,則相當于 L2 norm;如果假設 g(θ) 服從拉普拉斯分布,則相當于 L1 norm

現在,我們來理解(線性)最小二乘法。假設線性回歸模型具有如下形式:


其中,x∈R1xdW∈Rdx1,誤差 ?∈R。

若已知,X = (X1, X2, …, Xn)∈Rnxdy∈Rnx1,如何求解參數 W

策略: 假設 ?i ~ N(0, σ2),則 yi ~ N(XiW, σ2),用最大似然估計可推得最小二乘(所以最小二乘是基于高斯分布的):

令上式一階導數等于0,得: XTX W = XTy,若 XTX 非奇異(即 XTX 的行列式不為0),則 W 有唯一解: W = (XTX)-1XTy (normal equations)

a). 如果我們假設參數W 的先驗分布為 Wi ~ N(0, τ2),那么用最大后驗估計可推得 Ridge 回歸(L2 正則化):

b). 如果我們假設參數W 的先驗分布為 Wi ~ Laplace(0, τ2),那么用最大后驗估計可推得 LASSO 回歸(L1 正則化):

現在,我們可以給出正則化的概率角度解釋: 正則化項相當于參數 W 的先驗分布(若該分布是 μ=0 的高斯分布,就是 L2 正則化;若該分布是 μ=0 的拉普拉斯分布,則是 L1 正則化),通過加入正則化項,限制參數空間,來控制模型復雜度,從而防止過擬合。

從下圖中可以看出, L2/Gaussian在零值點附近的梯度小且變化緩慢,L1/Laplace 在零值點附近的梯度大且變化劇烈,因此,L1/Laplace相比于L2/Gaussian,在零和非零的差異捕捉上是更加敏感/容易的(也就是L1更容易取到零);這一特點符合 "L1 比 L2 更容易獲得稀疏解" 這一結論。

正則化的幾何角度解釋(參數/模型空間被限定在了下圖的涂色區域內):


左:L2 正則化,右:L1 正則化

從圖中我們可以看到 L1 比 L2 更容易獲得稀疏解, L2 正則化只有在參數 W 初始化值為0(但是,通常我們不會讓權重初始化為0的)的情況下才能獲得稀疏解。所以, L1 會趨向于選擇少量的特征,而其他特征的權重(參數)都是0,而 L2 會選擇更多的特征,這些特征的權重(參數)都會接近于0。 L1 在特征選擇(有監督)的時候也非常有用,而 L2 就只是一種正則化手段而已。當作為正則化手段的時候,L2 通常是好于 L1 的,所以通常我們會選擇 L2 。

2. Frequentist statistics vs. Bayesian statistics

統計推斷的主張和思想,大體可以納入到兩個體系之內:頻率學派(Frequentist statistics)和貝葉斯學派(Bayesian statistics)。

Frequentist statistics: 認為需要推斷的參數 W 是固定(唯一)且未知的常數。而樣本 X 是隨機的,其著眼點在樣本空間,相關的概率計算都是針對 X 的分布。所以他們的方法論一開始就是從 "哪個參數最有可能產生樣本的真實分布" 這個角度出發,于是就有了最大似然(maximum likelihood)以及置信區間(confidence interval)。 ---> [ 求得唯一的最優參數 W ]

Bayesian statistics: 認為參數 W 是隨機變量,而樣本 X 是固定的,其著眼點在參數空間,重視參數 W 的分布。所以參數空間里的每個值都有可能是真實模型所使用的值,區別只是概率不同而已。于是才會引入先驗分布 (prior distribution) 和后驗分布(posterior distribution)這樣的概念來設法找出參數空間上的每個值的概率。---> [ 求得的是參數 W 的分布 ]

Note: 最大后驗估計(MAP)是對貝葉斯后驗分布進行最大化估計,得到唯一的最優參數 W,這樣做是因為對于大多數模型涉及到貝葉斯后驗分布的操作大多很難處理,而 MAP 提供了一個可行的近似估計。

所以,在機器學習中,許多情況下貝葉斯概率推斷更能解決觀察者推斷的問題,而繞開了關于事件本體的討論(過多的關注訓練樣本容易產生過擬合,e.g. 最大似然估計)。

既然這里說到了正態分布,那我們就延伸一下,談談U分布,T分布,F分布和X2分布。

<1>. U分布

對于任意一個均值為 μ,標準差為 σ 的正態分布,都可以通過變換得到標準正態分布。變換方法:將變量 X 變換為 u,u = (X - μ) / σ,u 值的分布即為U分布(標準正態分布)。

<2>. T分布

從正態分布的同一總體中,隨機抽取樣本含量相等的若干組樣本,分別計算它們的均值,這些樣本均值的標準差(standard deviation)稱為標準誤(standard error)。標準誤大,說明抽樣誤差大,用樣本均值估計總體均值的可靠性小。

由于這個總體呈正態分布 N(μ, σ),這些樣本均值(假設有 n 組樣本,每組樣本有 m 個采樣值)的頻數分布任是以 μ 為中心的正態分布。這些均值的標準差,即標準誤,可以通過如下公式計算得到:

實際工作中,標準誤常用 S 估算得到(因為我們并不知道 σ 的大小),其計算公式如下(其中小 x 表示每組樣本的均值):

t 值就是樣本均值與總體均值 μ 的差數除以 S ,即

t 值的頻數分布就是統計學上的T分布。下圖為T分布的概率密度函數(PDF),其中 v = n -1 表示自由度,黑色曲線就是標準正態分布。

PDF of T-distribution
<3>. 卡方分布(X2分布)

假設 Z1, ..., Zkk 個相互獨立且服從標準正態分布 N(0,1) 的隨機變量,則這 k 個隨機變量的平方和 Q 服從自由度為 kX2分布,記作:Q ~ X2(k) 。其均值為 k,方差為 2k 。下圖為 X2 分布的概率密度函數:

PDF of *X*<sup>*2*</sup>-distribution
<4>. F分布

假設 XY 兩個獨立的隨機變量,X 服從自由度為 nX2分布,Y 服從自由度為 mX2分布,則這兩個獨立的 X2分布 除以各自的自由度以后的比率服從F分布,即:

下圖為F分布的概率密度函數:

PDF of F-distribution

3. 廣義線性模型(Generalized Linear Model, GLM)

由于GLM是基于指數分布族(The exponential family),所以先引入一下指數分布族。指數分布族是指可以表示為指數形式的一類概率分布,指數分布的形式如下:

其中,η 為分布的自然參數(nature parameter);T(y) 是充分統計量(sufficient statistic),通常 T(y) = y 。當參數 abT 都固定的時候,就定義了一個以 η 為參數的函數族。

實際上線性最小二乘回歸和Logistic回歸都是廣義線性模型的一個特例。當隨機變量 y 服從高斯分布,那么得到的是線性最小二乘回歸(前面已經提到過),當隨機變量 y 服從伯努利分布,則得到的是Logistic回歸。


· 伯努利分布(Bernoulli distribution)

對于 Bernoulli(φ),y ? {0,1},有 p(y=1;φ) = φ,p(y=0;φ) = 1?φ,其期望為 φ 。將其推導成指數分布形式:

將其與指數族分布形式對比,可以看出:

從上述式子可以看到,η 的形式與logistic回歸用到的sigmoid函數一致。

· 高斯分布(Gaussian distribution)

將高斯分布推導成指數分布形式:

將其與指數族分布形式對比,可以看出:

通過這兩個例子,我們大致可以得出:η 以不同的映射函數與其它概率分布函數中的參數發生聯系,從而得到不同的模型。廣義線性模型正是將指數分布族中的所有成員(每個成員正好有一個這樣的聯系)都作為線性模型的擴展,通過各種非線性的連接函數將線性函數映射到其他空間,從而擴大了線性模型可解決的問題。

下面給出GLM的形式化定義,GLM 有三個假設:

(1) 給定樣本 x 與參數 θ,樣本輸出 y 服從指數分布族中的某個分布,即P(y|x;θ) ~ ····Exponential Family(η);
(2) 給定一個 x,預測T(y)的期望,即目標函數為 hθ(x) = E[T(y)|x];
(3) ηx 之間是線性的,即 η = θTx

依據這三個假設,我們可以推導出logistic回歸模型與最小二乘回歸模型。

伯努利分布 logistic回歸模型 (用于二分類問題):

高斯分布 最小二乘回歸模型(用于線性回歸問題):

[ 廣義線性模型通過假設一個概率分布,得到不同的模型,而梯度下降和牛頓方法等優化方法都是為了求解模型中的線性部分 (θTx) 的參數 θ 的。]

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
禁止轉載,如需轉載請通過簡信或評論聯系作者。

推薦閱讀更多精彩內容