極大似然估計MLE

〇、說明

極大似然估計(Maximum Likelihood Estimation,MLE),也稱最大似然估計。統計學中,極大似然估計是重要的參數估計方法;機器學習領域,也經常看到直接使用極大似然估計以及使用極大似然思想的方法。

在這篇筆記里,主要涉及極大似然的思想和非參數極大似然估計NPMLE。

如有錯誤疏漏,煩請指出。如要轉載,請聯系筆者,hpfhepf@gmail.com。

一、常規極大似然估計

1.1、問題描述

在參數估計[1]任務中,極大似然估計在給定樣本已知概率分布(密度)條件下,估計分布參數的重要方法。

(在機器學習中,會用到未知概率分布(密度)的極大似然估計,見下文)

1.2、極大似然思想

極大似然估計的核心思想,就是估計出使樣本出現概率最大的參數作為分布(密度)參數;從另一個角度,極大似然估計認為已經發生的(這些樣本出現)就是是概率最大的,從而求出分布(密度)參數。

1.3、極大似然估計

極大似然估計在絕大多數概率論或統計課程中都有詳細的介紹,我這里就不贅述了,具體參見課本和網上資料。

這里貼幾個還不錯的網上資料:

維基百科《極大似然估計》[2]

《最大似然估計》[3]

二、非參數極大似然估計

2.1、緣起

筆者在參考李航博士《統計學習方法》[4]學習最大熵模型,遇到條件概率P(Y|X)的對數似然函數(6.2.4節)時,真的是一頭霧水。如下圖

[4]

一直接觸的極大似然估計都是已知模型,通過樣本求參數。而這個似然函數,模型未知,參數未知,更不知道是怎么來的,懵圈了。。。

2.2、搜尋

為了搞清楚這個問題,查閱了《統計學習方法》的參考文獻《A Maximum Entropy Approach to Natural Language Processing》[5],也沒有搞清楚這個問題。

后來各種關鍵字在google上搜,終于搜到了比較靠譜的信息,大概如下:

https://www.stat.washington.edu/thompson/S581_04/Notes/chapter_8.pdf[6]

http://www.ms.uky.edu/~mai/sta709/Owen2005.pdf[7]

http://statweb.stanford.edu/~owen/empirical/[8]

這大概是一個經驗似然(Empirical Likelihood)問題,但是有點艱深,筆者并不打算深入挖掘下去,只是從機器學習數學基礎的角度搞清楚上述公式的由來。筆者看到了[4]的第一個公式,終于明白了李航博士書中公式的由來,如下。

2.3、NPMLE

非參數極大似然估計(Non-Parametric Maximum Likelihood Estimation,NPMLE),在大多數初級的概率論課本里是沒有的。

這里根據常規MLE的假設和建模過程,來簡略推導NPMLE的似然函數。下圖[3]為常規MLE的假設和似然函數建模過程。

[3]

參考常規MLE,假設非參數的分布有相同的采樣,但沒有參數。


附錄

參考

[1]、百度百科《參數估計》

[2]、維基百科《極大似然估計》

[3]、《最大似然估計》

[4]、李航《統計學習方法》

[5]、Adam L. Berger, Stephen A. Della Pietra《A Maximum Entropy Approach to Natural Language Processing》

[6]、https://www.stat.washington.edu/thompson/S581_04/Notes/chapter_8.pdf

[7]、http://www.ms.uky.edu/~mai/sta709/Owen2005.pdf

[8]、http://statweb.stanford.edu/~owen/empirical/

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容