logistic回歸模型與最大熵模型

標簽：統計學習

logistic回歸模型

?分布

??定義：logistic分布，指具有如下分布函數與密度函數。式中，u為位置參數，r為形狀參數

$F(x)=P(X \le x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}$

$f(x)=F(x)^{'}=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}$

??分布函數為一條S形曲線（sigmoid curve）,該曲線以點(u, 1/2)中心對稱，即

$F(-x+\mu)-\frac{1}{2}=-F(x-\mu)+\frac{1}{2}$

?二項logistic回歸模型

??binomial logistic regression model 是一種分類模型，由條件概率分布P(Y|X)表示。可以通過監督學習的方法來估計模型參數
??定義：二項logistic回歸模型為如下的條件概率分布

$P(Y=1|x)=\frac{e^{\omega\cdot x+b}}{1+e^{\omega\cdot x+b}}$

$P(Y=0|x)=\frac{1}{1+e^{\omega\cdot x+b}}$

??將x擴充為(x,1),這時模型可以表示為

$P(Y=1|x)=\frac{e^{\omega\cdot x}}{1+e^{\omega\cdot x}}$

$P(Y=0|x)=\frac{1}{1+e^{\omega\cdot x}}$

??如果事件發生概率為p，定義該時間的幾率為p/(1-p)，那么該事件的對數幾率(log odds)或logit函數為

$logit(p)=\log{\frac{p}{1-p}}$

??對于logistic回歸而言，其logit函數為

$\log{\frac{P(Y=1|x)}{1-P(Y=1|x)}} = w\cdot x$

??也就是說，在logistic回歸模型中，輸出Y=1的對數幾率是輸入x的線性函數

?模型參數估計

??使用極大似然法估計模型參數。
??對于分布函數，

$P(Y=1|x) = \pi(x)\quad ,\quad P(Y=0|x) = 1-\pi(x)$

??似然函數為，

$\prod\limits_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$

??對數似然函數為，

\begin{aligned}L(\omega) &=\sum\limits_{i=1}^N{[y_i\log{\pi(x_i)}+(1-y_i)\log{(1-\pi(x_i))}]} \

&=\sum\limits_{i=1}^N{\left[y_i\log{\frac{\pi(x_i)}{1-\pi(x_i)}}+\log{(1-\pi(x_i))}\right]} \ &=\sum\limits_{i=1}^N{[y_i(\omega\cdot x_i)-\log{(1+e^{\omega\cdot x_i})}]}\end{aligned}

??對L(w)求極大值，得到w的估計。一般采用梯度下降法或擬牛頓法

?多項logistic回歸模型

??上述模型可以推廣為多項logistic回歸模型（multi-nominal logistic regression model）

$P(Y=k|x)=\frac{e^{(\omega_k\cdot x)}}{1+\sum\limits_{i=1}^{K-1}e^{(\omega_i\cdot x)}}\quad,\quad k=1,2,\cdots,K-1$

最大熵模型

?最大熵原理

??最大熵原理是概率模型學習的一個準則：學習概率模型時，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。
??假設隨機變量X的概率分布是P(X)，則其熵為

$H(P)=-\sum\limits_xP(x)\log{P(x)}$

??熵滿足不等式，

$0\le H(P)\le \log{|X|}$

??|X|為x的取值個數。僅當X服從均勻分布時，熵最大

?最大熵模型

??應用最大熵原理得到的模型就是最大熵模型
??對于給定數據集，可以確定聯合分布與邊緣分布的經驗分布公式，

$\begin{aligned}&\widetilde P(X=x,Y=y)=\frac{v(X=x,Y=y)}{N} \\ &\widetilde P(X=x)=\frac{v(X=x)}{N}\end{aligned}$

??用特征函數（feature function）f(x,y)描述x,y之間的一個事件，定義為，

$f(x,y)=\begin{cases}1, & event\;\;occurred \\ 0, & not\end{cases}$

??特征函數f(x,y)關于經驗分布的期望為

$E_{\widetilde P}(f)=\sum\limits_{x,y}\widetilde P(x,y)f(x,y)$

??特征函數關于模型與經驗分布的期望為

$E_{P}(f)=\sum\limits_{x,y}\widetilde P(x)P(y|x)f(x,y)$

??假設這兩個期望值相等，

$\sum\limits_{x,y}\widetilde P(x,y)f(x,y)=\sum\limits_{x,y}\widetilde P(x)P(y|x)f(x,y)$

??該式可以作為模型學習的約束條件。假設有n個特征函數，則可以得到n個約束條件。
<br>
??定義：在條件概率分布P(Y|X)上的條件熵H(P)最大的模型為最大熵模型

$H(P)=-\sum\limits_{x,y}\widetilde P(x)P(y|x)\log{P(y|x)}$

?最大熵模型的學習

??等價于如下的約束優化問題

$\begin{aligned}\max_{p \in C}\quad & H(P)=-\sum\limits_{x,y}\widetilde P(x)P(y|x)\log{P(y|x)} \\ s.t.\quad & E_p(f_i)=E_{\widetilde P}(f_i)\quad ,\quad i=1,2,\cdots,n \\ & \sum\limits_yP(y|x)=1\end{aligned}$

??等價于如下的最小值問題

$\begin{aligned}\min_{p \in C}\quad & -H(P)=-\sum\limits_{x,y}\widetilde P(x)P(y|x)\log{P(y|x)} \\ s.t.\quad & E_p(f_i)-E_{\widetilde P}(f_i)=0\quad ,\quad i=1,2,\cdots,n \\ & \sum\limits_yP(y|x)=1\end{aligned}$

??求解過程如下。首先引入拉格朗日乘子，定義拉格朗日函數L(P,w),

$\begin{aligned}L(P,\omega)=& -H(P)+\omega_0\left(1-\sum\limits_yP(y|x)\right)+\sum\limits_{i=1}^n\omega_i(E_{\widetilde P}(f_i)-E_p(f_i)) \\ =& \sum\limits_{x,y}\widetilde P(x)P(y|x)\log P(y|x)+\omega_0\left(1-\sum\limits_yP(y|x)\right) \\ & +\sum\limits_{i=1}^n\left(\sum\limits_{x,y}\widetilde P(x,y)f_i(x,y)-\sum\limits_{x,y}\widetilde P(x)P(y|x)f_i(x,y)\right)\end{aligned}$

??原始問題是

$\min_{P \in C}\max_\omega L(P,\omega)$

??對偶問題是

$\max_\omega \min_{P \in C}L(P,\omega)$

??兩個問題是等價的。先求解對偶問題的極小化問題。對偶函數記作

$\Psi(\omega)=\min_{P\in C}L(P,\omega)=L(P_\omega,\omega)$

??其解記作，

$P_\omega=arg\min_{P\in C}L(P,\omega)=P_\omega(y|x)$

??求L對P的偏導，可得到P，

$\begin{aligned}\frac{\partial L(P,\omega)}{\partial P(y|x)}& =\sum\limits_{x,y}\widetilde P(x)(\log P(y|x)+1)-\sum\limits_y\omega_0-\sum\limits_{x,y}\left(\widetilde P(x)\sum\limits_{i=1}^n\omega_if_i(x,y)\right) \\ & = \sum\limits_{x,y}\widetilde P(x)\left(\log P(y|x)+1-\omega_0-\sum\limits_{i=1}^n\omega_if_i(x,y)\right)\end{aligned}$

??令偏導等于0，得到

$P(y|x)=e^{\left(\sum\limits_{i=1}^n\omega_if_i(x,y)+\omega_0-1\right)}=\frac{e^{\left(\sum\limits_{i=1}^n\omega_if_i(x,y)\right)}}{e^{(1-\omega_0)}}$

??另外由于P(y|x)關于y累加和為1，得到

$P_\omega(y|x)=\frac{1}{Z_\omega(x)}e^{\left(\sum\limits_{i=1}^n\omega_if_i(x,y)\right)}$

??其中，

$Z_\omega(x)=\sum\limits_ye^{\left(\sum\limits_{i=1}^n\omega_if_i(x,y)\right)}$

??Z稱為規范化因子，f為特征函數，w為特征權值。所求得P即為最大熵模型。
??最后求解對偶問題外部的極大化問題

$\max_\omega \Psi(\omega)$

??其解為

$\omega^*=arg\max_\omega \Psi(\omega)$

?極大似然估計

??對偶函數的極大化等價于最大熵模型的極大似然估計

??條件概率分布P(Y|X)的對數似然函數可以表示為，

$L_{\widetilde p}(P_\omega)=\log{\prod\limits_{x,y}P(y|x)^{\widetilde P(x,y)}}=\sum\limits_{x,y}\widetilde P(x,y)\log{P(y|x)}$

??當條件概率分布P(Y|X)為最大熵模型時，可得，

$\begin{aligned}L_{\widetilde p}(P_\omega)& =\sum\limits_{x,y}\widetilde P(x,y)\log{P(y|x)} \\& =\sum\limits_{x,y}\widetilde P(x,y)\sum\limits_{i=1}^n\omega_if_i(x,y)-\sum\limits_{x,y}\widetilde P(x,y)\log{Z_\omega(x)} \\& =\sum\limits_{x,y}\widetilde P(x,y)\sum\limits_{i=1}^n\omega_if_i(x,y)-\sum\limits_{x}\widetilde P(x)\log{Z_\omega(x)}\end{aligned}$

??對于對偶函數，代入其最小化問題的最優解Pw，同樣可以得到上述式子，即有，

$\Psi(\omega)=L_{\widetilde p}(P_\omega)$

??這樣，最大熵模型的學習問題就轉換為求解對數似然函數極大化或對偶函數極大化問題。

??最大熵模型與logistic回歸模型，又稱為對數線性模型（log linear model）。該類模型就是在給定數據集上進行極大似然估計或正則化的極大似然估計

模型學習的最優化算法

??目標函數為似然函數，屬于光滑的凸函數，適用于多種最優化方法。

?改進的迭代尺度法

??改進的迭代尺度法（improved iterative scaling, IIS）
??已知最大熵模型為

$P_\omega(y|x)=\frac{1}{Z_\omega(x)}e^{\left(\sum\limits_{i=1}^n\omega_if_i(x,y)\right)}$

??其中，

$Z_\omega(x)=\sum\limits_ye^{\left(\sum\limits_{i=1}^n\omega_if_i(x,y)\right)}$

??對數似然函數為

$L(\omega)=\sum\limits_{x,y}\widetilde P(x,y)\sum\limits_{i=1}^n\omega_if_i(x,y)-\sum\limits_{x}\widetilde P(x)\log{Z_\omega(x)}$

??IIS的想法是：
????假設最大熵模型當前的參數向量是

$\omega=(\omega_1,\omega_2,\dots,\omega_n)^T$

????我們希望找到一個新的參數向量使得模型的對數似然函數值增大。

$\omega+\delta=(\omega_1+\delta_1,\omega_2+\delta_2,\dots,\omega_n+\delta_n)^T$

????如果能找到這樣一種參數向量更新的方法，那么就能重復使用，直至最大值。

??對數似然函數的改變量為，

$L(\omega+\delta)-L(\omega)=\sum\limits_{x,y}\widetilde P(x,y)\sum\limits_{i=1}^n\delta_if_i(x,y)-\sum\limits_x\widetilde P(x)\log{\frac{Z_{\omega+\delta}(x)}{Z_\omega(x)}}$

??利用不等式

$-\log{\alpha}\ge1-\alpha$

??有

$\begin{aligned}L(\omega+\delta)-L(\omega)\ge& \sum\limits_{x,y}\widetilde P(x,y)\sum\limits_{i=1}^n\delta_if_i(x,y)+1-\sum\limits_x\widetilde P(x)\frac{Z_{\omega+\delta}(x)}{Z_\omega(x)} \\=& \sum\limits_{x,y}\widetilde P(x,y)\sum\limits_{i=1}^n\delta_if_i(x,y)\end{aligned}$

最后編輯于：2017.12.10 12:54:02

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 229,117評論 6贊 537
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,860評論 3贊 423
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 177,128評論 0贊 381
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,291評論 1贊 315
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,025評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,421評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,477評論 3贊 444
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,642評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,177評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,970評論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,157評論 1贊 371
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,717評論 5贊 362
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,410評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,821評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,053評論 1贊 289
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,896評論 3贊 395
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,157評論 2贊 375

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

logistic回歸模型與最大熵模型

logistic回歸模型與最大熵模型

logistic回歸模型與最大熵模型

目錄

logistic回歸模型