轉自微信公眾號:機器學習算法與Python學習
以及統計學習方法
Logistic回歸
邏輯回歸是用來分類的,是一種線性分類器,需要注意的地方有:
1. Logistic函數的表達式:
其導數形式為
2. logsitc回歸方法主要是用最大似然估計來學習的,所以單個樣本的后驗概率為:
到整個樣本的后驗概率:
其中:
可通過對數進一步簡化:
3. 其實它的loss function為-l(θ),因此我們需使loss function最小,可采用梯度下降法得到。梯度下降法公式為:
Logistic回歸優點:
1、實現簡單;
2、分類時計算量非常小,速度很快,存儲資源低;
缺點:
1、容易欠擬合,一般準確度不太高
2、只能處理兩分類問題(在此基礎上衍生出來的softmax可以用于多分類),且必須線性可分;
也就是說在邏輯回歸模型中,輸出Y=1的對數幾率是關于x的線性函數
因此,可以推出
邏輯回歸是針對二分類模型的,下面推廣到多分類(我們暫時不管多分類)
最大熵模型
由最大熵原理推導實現。
最大熵原理是概率模型學習的一個準則,最大熵認為,學習概率模型時,在所有可能的分布中,熵最大的模型是最好的模型。
直觀地來講,最大熵原理認為要選擇的概率模型首先必須要滿足既有事實,即約束條件。在沒有更多信息的情況下,那些不確定的部分都是等可能的,最大熵原理通過熵的最大化來表示等可能性。
在滿足約束條件下求等可能概率方法估計概率分布。
最大熵原理定義:
假設分類模型是一個條件概率分布P(Y|X),可以認為是
的推導實現
學習目標是用最大熵原理選擇最好的分類模型
從最大熵模型學習中,可以看出對偶函數的極大化,等價于最大熵模型的極大似然估計。
算法:梯度下降和擬牛頓法
sgd
隨機梯度下降算法的偽代碼如下:
################################################
初始化回歸系數為1
重復下面步驟直到收斂{
對數據集中每個樣本
計算該樣本的梯度
使用alpha xgradient來更新回歸系數
}