logistic回歸模型與最大熵模型
標簽: 統計學習
目錄
[TOC]
logistic回歸模型
?分布
??定義:logistic分布,指具有如下分布函數與密度函數。式中,u為位置參數,r為形狀參數
??分布函數為一條S形曲線(sigmoid curve),該曲線以點(u, 1/2)中心對稱,即
?二項logistic回歸模型
??binomial logistic regression model 是一種分類模型,由條件概率分布P(Y|X)表示。可以通過監督學習的方法來估計模型參數
??定義:二項logistic回歸模型為如下的條件概率分布
??將x擴充為(x,1),這時模型可以表示為
??如果事件發生概率為p,定義該時間的幾率為p/(1-p),那么該事件的對數幾率(log odds)或logit函數為
??對于logistic回歸而言,其logit函數為
??也就是說,在logistic回歸模型中,輸出Y=1的對數幾率是輸入x的線性函數
?模型參數估計
??使用極大似然法估計模型參數。
??對于分布函數,
??似然函數為,
??對數似然函數為,
&=\sum\limits_{i=1}^N{\left[y_i\log{\frac{\pi(x_i)}{1-\pi(x_i)}}+\log{(1-\pi(x_i))}\right]} \ &=\sum\limits_{i=1}^N{[y_i(\omega\cdot x_i)-\log{(1+e^{\omega\cdot x_i})}]}\end{aligned}
??對L(w)求極大值,得到w的估計。一般采用梯度下降法或擬牛頓法
?多項logistic回歸模型
??上述模型可以推廣為多項logistic回歸模型(multi-nominal logistic regression model)
最大熵模型
?最大熵原理
??最大熵原理是概率模型學習的一個準則:學習概率模型時,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。
??假設隨機變量X的概率分布是P(X),則其熵為
??熵滿足不等式,
??|X|為x的取值個數。僅當X服從均勻分布時,熵最大
?最大熵模型
??應用最大熵原理得到的模型就是最大熵模型
??對于給定數據集,可以確定聯合分布與邊緣分布的經驗分布公式,
??用特征函數(feature function)f(x,y)描述x,y之間的一個事件,定義為,
??特征函數f(x,y)關于經驗分布的期望為
??特征函數關于模型與經驗分布的期望為
??假設這兩個期望值相等,
??該式可以作為模型學習的約束條件。假設有n個特征函數,則可以得到n個約束條件。
<br>
??定義:在條件概率分布P(Y|X)上的條件熵H(P)最大的模型為最大熵模型
?最大熵模型的學習
??等價于如下的約束優化問題
??等價于如下的最小值問題
??求解過程如下。首先引入拉格朗日乘子,定義拉格朗日函數L(P,w),
??原始問題是
??對偶問題是
??兩個問題是等價的。先求解對偶問題的極小化問題。對偶函數記作
??其解記作,
??求L對P的偏導,可得到P,
??令偏導等于0,得到
??另外由于P(y|x)關于y累加和為1,得到
??其中,
??Z稱為規范化因子,f為特征函數,w為特征權值。所求得P即為最大熵模型。
??最后求解對偶問題外部的極大化問題
??其解為
?極大似然估計
??對偶函數的極大化等價于最大熵模型的極大似然估計
??條件概率分布P(Y|X)的對數似然函數可以表示為,
??當條件概率分布P(Y|X)為最大熵模型時,可得,
??對于對偶函數,代入其最小化問題的最優解Pw,同樣可以得到上述式子,即有,
??這樣,最大熵模型的學習問題就轉換為求解對數似然函數極大化或對偶函數極大化問題。
??最大熵模型與logistic回歸模型,又稱為對數線性模型(log linear model)。該類模型就是在給定數據集上進行極大似然估計或正則化的極大似然估計
模型學習的最優化算法
??目標函數為似然函數,屬于光滑的凸函數,適用于多種最優化方法。
?改進的迭代尺度法
??改進的迭代尺度法(improved iterative scaling, IIS)
??已知最大熵模型為
??其中,
??對數似然函數為
??IIS的想法是:
????假設最大熵模型當前的參數向量是
????我們希望找到一個新的參數向量使得模型的對數似然函數值增大。
????如果能找到這樣一種參數向量更新的方法,那么就能重復使用,直至最大值。
??對數似然函數的改變量為,
??利用不等式
??有