線性回歸 (linear regression)
給定數據集,其中
,
。線性回歸試圖學得一個線性模型
來盡可能好地擬合數據
。
為了求解模型參數,我們通常采用均方誤差(mean squared error, MSE)損失函數:
均方誤差有非常好的幾何意義,對應了常用的歐氏距離。
采用最小化均方誤差來進行模型求解的方法就是最小二乘法,我們高中就接觸過的方法,可求得的解析解。
邏輯回歸 (logistic regression)
在回歸任務中,,是連續變量。而在分類任務中,
是離散變量,比如二分類
,因此我們需要找個單調可微的函數將線性回歸的預測實值和分類任務的離散標簽聯系起來。
針對二分類任務,,線性回歸模型的預測實值
,為了將實值
映射到
,我們考慮利用
Sigmoid函數,即:
當時,
,預測標簽為
;
當時,
,預測標簽為
。
Sigmoid
Sigmoid函數值域為(0, 1),形似S曲線,可以方便將實值轉化為一個在0或1附近的值。
進一步地,我們將Sigmoid函數的輸出視為將樣本預測為正類
的概率,即:
然后我們采用極大似然法來估計模型參數:
似然函數為
對數似然函數為
等價于最小化loss為
這就是交叉熵損失函數(Cross Entropy Loss Function)。
更進一步地,我們將二分類任務的交叉熵損失函數擴展到多分類,假設總共分為類,
,
。則:
表示第
個樣本真實標簽是否為
,當第
個樣本屬于第
類時,
,否則
。
表示第
個樣本被預測為第
類的概率。
為了分析方便,我們令,則當第
個樣本的真實標簽為
時,該項可簡寫為:
兩者關聯
- 線性回歸采用均方誤差損失等價于極大似然。
在邏輯回歸中,求解模型參數我們采用的是極大似然估計法;而在線性回歸中,求解模型參數我們采用了最小二乘法。
但其實本質上,線性回歸求解參數采用最小化均方誤差等價于極大似然估計,證明如下:
首先,我們將模型參數也融入向量
中,可得線性回歸采用均方誤差損失函數為:
我們假設預測值和真實值之間的誤差服從標準正態分布,即
,則有:
所以,
忽略常量,
可以看出,最小化Loss等價于極大化似然。
- 邏輯回歸也稱對數幾率回歸,幾率(odds)的定義為將樣本預測為正例的概率與樣本預測為負例的概率的比值,因此對數幾率定義為:
可見在邏輯回歸中,樣本預測為正例的對數幾率是輸入的線性函數,因此也稱對數幾率回歸。