1.允許誤差存在

首先要說明的，所有的預測值都不可能完美地與真實值契合，所以誤差必然存在，而我們的目的就是如何讓誤差盡可能地小。這樣就可以假設有一組θ，使真實的數據存在以下關系式，y(i)表示真實值，θTx(i)表示預測值，ε表示誤差項：

2.假設誤差是高斯分布

ε作為誤差項，它捕捉了一些沒有被設置為特征的變量，以房價為例，它可以代表房東的心情對售價的影響，或者代表此地區霧霾嚴重程度對房價的影響，或者隨機誤差。再假設ε是IID分布，即獨立、同等分布，也就是高斯分布（或正態分布）：

其中μ是正態分布隨機變量的均值，σ2是此隨機變量的方差，也可以記作N(μ,σ2)。

設ε的平均值為0，方差為ε2，ε的高斯分布，也就是ε的概率密度函數表示如下：

3.求真實值的概率分布

而ε的概率密度函數，就是預測值與真實值差的概率密度函數，那么可以把上述兩個等式合并，經過變換，得到如下等式：

根據正態分布公式，這個式子還可以這樣理解，真實值y(i)是一個隨機變量，θTx(i)是隨機變量的平均值，p為變量y的概率密度函數。那么真實值y(i)的概率分布可以寫作：

4.求聯合概率分布

這樣相當于給定一組θ、x，求出了y的概率密度分布。將此公式推廣，用向量y和向量X代表所有的數據，就能夠求出所有數據的聯合概率分布：

把這個函數定義為似然函數。聯合概率分布等于邊緣概率分布的乘積，π代表累乘。

5.定義對數似然函數

這里我們就得到了一個關于x、y、θ的模型，它表示真實值y的聯合概率分布。當我們想使預測正確的概率最大時，只需要將L(θ)最大化就可以了。于是，求值問題又變成了求最大值問題。為了方便計算，我們定義對數似然函數，l(θ)，也就是對L(θ)取對數，再求最大值。對數函數為一個單調遞增函數，所以不會對原函數造成影響。取對數后，累乘變成累和：

左側是一個常數項，右邊是一個負數項。要讓l(θ)最大，就要讓負數項最小：

是不是很熟悉？這就是回歸中的風險函數J(θ)的由來，也就是最小二乘法。最小二乘法是一種概率上的解釋，它的目標是尋找一個θ值，使準確預測的概率最大化。因此，基于這些概率的假設，最小二乘法是回歸問題中重要的估算方法。

如果你又問我，為什么誤差項是高斯分布，那就等我想好怎么介紹中心極限定理吧。

本文參考：吳恩達CS 229 Machine Learning

http://cs229.stanford.edu/materials.html

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

機器學習|最小二乘法的概率解釋

機器學習|最小二乘法的概率解釋

1.允許誤差存在

2.假設誤差是高斯分布

3.求真實值的概率分布

4.求聯合概率分布

5.定義對數似然函數

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

機器學習|最小二乘法的概率解釋

1.允許誤差存在

2.假設誤差是高斯分布

3.求真實值的概率分布

4.求聯合概率分布

5.定義對數似然函數

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频