機器學習|最小二乘法的概率解釋

在擬合數據時,為什么選擇最小二乘來作為誤差函數呢?

雖然不明白為什么,但是一直覺得很有道理的樣子。最小二乘或平方差作為誤差函數,是基于一些概率假設推導出了這個公式。這里有一些概率上的解釋。讓我們慢慢來看。

1.允許誤差存在

首先要說明的,所有的預測值都不可能完美地與真實值契合,所以誤差必然存在,而我們的目的就是如何讓誤差盡可能地小。這樣就可以假設有一組θ,使真實的數據存在以下關系式,y(i)表示真實值,θTx(i)表示預測值,ε表示誤差項:

2.假設誤差是高斯分布

ε作為誤差項,它捕捉了一些沒有被設置為特征的變量,以房價為例,它可以代表房東的心情對售價的影響,或者代表此地區霧霾嚴重程度對房價的影響,或者隨機誤差。再假設ε是IID分布,即獨立、同等分布,也就是高斯分布(或正態分布):

其中μ是正態分布隨機變量的均值,σ2是此隨機變量的方差,也可以記作N(μ,σ2)。

設ε的平均值為0,方差為ε2,ε的高斯分布,也就是ε的概率密度函數表示如下:

3.求真實值的概率分布

而ε的概率密度函數,就是預測值與真實值差的概率密度函數,那么可以把上述兩個等式合并,經過變換,得到如下等式:

根據正態分布公式,這個式子還可以這樣理解,真實值y(i)是一個隨機變量,θTx(i)是隨機變量的平均值,p為變量y的概率密度函數。那么真實值y(i)的概率分布可以寫作:

4.求聯合概率分布

這樣相當于給定一組θ、x,求出了y的概率密度分布。將此公式推廣,用向量y和向量X代表所有的數據,就能夠求出所有數據的聯合概率分布:

把這個函數定義為似然函數。聯合概率分布等于邊緣概率分布的乘積,π代表累乘。

5.定義對數似然函數

這里我們就得到了一個關于x、y、θ的模型,它表示真實值y的聯合概率分布。當我們想使預測正確的概率最大時,只需要將L(θ)最大化就可以了。于是,求值問題又變成了求最大值問題。為了方便計算,我們定義對數似然函數,l(θ),也就是對L(θ)取對數,再求最大值。對數函數為一個單調遞增函數,所以不會對原函數造成影響。取對數后,累乘變成累和:

左側是一個常數項,右邊是一個負數項。要讓l(θ)最大,就要讓負數項最小:

是不是很熟悉?這就是回歸中的風險函數J(θ)的由來,也就是最小二乘法。最小二乘法是一種概率上的解釋,它的目標是尋找一個θ值,使準確預測的概率最大化。因此,基于這些概率的假設,最小二乘法是回歸問題中重要的估算方法。

如果你又問我,為什么誤差項是高斯分布,那就等我想好怎么介紹中心極限定理吧。

本文參考:吳恩達CS 229 Machine Learning

http://cs229.stanford.edu/materials.html

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容