邏輯回歸與最大熵模型

轉自微信公眾號:機器學習算法與Python學習

以及統計學習方法

Logistic回歸

邏輯回歸是用來分類的,是一種線性分類器,需要注意的地方有:

1. Logistic函數的表達式:


其導數形式為


2. logsitc回歸方法主要是用最大似然估計來學習的,所以單個樣本的后驗概率為:


到整個樣本的后驗概率:


其中:


可通過對數進一步簡化:


3. 其實它的loss function為-l(θ),因此我們需使loss function最小,可采用梯度下降法得到。梯度下降法公式為:



Logistic回歸優點:

1、實現簡單;

2、分類時計算量非常小,速度很快,存儲資源低;

缺點:

1、容易欠擬合,一般準確度不太高

2、只能處理兩分類問題(在此基礎上衍生出來的softmax可以用于多分類),且必須線性可分;



也就是說在邏輯回歸模型中,輸出Y=1的對數幾率是關于x的線性函數

因此,可以推出

邏輯回歸是針對二分類模型的,下面推廣到多分類(我們暫時不管多分類)


最大熵模型

由最大熵原理推導實現。

最大熵原理是概率模型學習的一個準則,最大熵認為,學習概率模型時,在所有可能的分布中,熵最大的模型是最好的模型。

直觀地來講,最大熵原理認為要選擇的概率模型首先必須要滿足既有事實,即約束條件。在沒有更多信息的情況下,那些不確定的部分都是等可能的,最大熵原理通過熵的最大化來表示等可能性。

在滿足約束條件下求等可能概率方法估計概率分布。


最大熵原理定義:

假設分類模型是一個條件概率分布P(Y|X),可以認為是

的推導實現

學習目標是用最大熵原理選擇最好的分類模型



從最大熵模型學習中,可以看出對偶函數的極大化,等價于最大熵模型的極大似然估計。

算法:梯度下降和擬牛頓法

sgd

隨機梯度下降算法的偽代碼如下:

################################################

初始化回歸系數為1

重復下面步驟直到收斂{

對數據集中每個樣本

計算該樣本的梯度

使用alpha xgradient來更新回歸系數

}

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容