〇、說明
極大似然估計(Maximum Likelihood Estimation,MLE),也稱最大似然估計。統計學中,極大似然估計是重要的參數估計方法;機器學習領域,也經常看到直接使用極大似然估計以及使用極大似然思想的方法。
在這篇筆記里,主要涉及極大似然的思想和非參數極大似然估計NPMLE。
如有錯誤疏漏,煩請指出。如要轉載,請聯系筆者,hpfhepf@gmail.com。
一、常規極大似然估計
1.1、問題描述
在參數估計[1]任務中,極大似然估計在給定樣本且已知概率分布(密度)條件下,估計分布參數的重要方法。
(在機器學習中,會用到未知概率分布(密度)的極大似然估計,見下文)
1.2、極大似然思想
極大似然估計的核心思想,就是估計出使樣本出現概率最大的參數作為分布(密度)參數;從另一個角度,極大似然估計認為已經發生的(這些樣本出現)就是是概率最大的,從而求出分布(密度)參數。
1.3、極大似然估計
極大似然估計在絕大多數概率論或統計課程中都有詳細的介紹,我這里就不贅述了,具體參見課本和網上資料。
這里貼幾個還不錯的網上資料:
維基百科《極大似然估計》[2]
《最大似然估計》[3]
二、非參數極大似然估計
2.1、緣起
筆者在參考李航博士《統計學習方法》[4]學習最大熵模型,遇到條件概率P(Y|X)的對數似然函數(6.2.4節)時,真的是一頭霧水。如下圖
一直接觸的極大似然估計都是已知模型,通過樣本求參數。而這個似然函數,模型未知,參數未知,更不知道是怎么來的,懵圈了。。。
2.2、搜尋
為了搞清楚這個問題,查閱了《統計學習方法》的參考文獻《A Maximum Entropy Approach to Natural Language Processing》[5],也沒有搞清楚這個問題。
后來各種關鍵字在google上搜,終于搜到了比較靠譜的信息,大概如下:
https://www.stat.washington.edu/thompson/S581_04/Notes/chapter_8.pdf[6]
http://www.ms.uky.edu/~mai/sta709/Owen2005.pdf[7]
http://statweb.stanford.edu/~owen/empirical/[8]
這大概是一個經驗似然(Empirical Likelihood)問題,但是有點艱深,筆者并不打算深入挖掘下去,只是從機器學習數學基礎的角度搞清楚上述公式的由來。筆者看到了[4]的第一個公式,終于明白了李航博士書中公式的由來,如下。
2.3、NPMLE
非參數極大似然估計(Non-Parametric Maximum Likelihood Estimation,NPMLE),在大多數初級的概率論課本里是沒有的。
這里根據常規MLE的假設和建模過程,來簡略推導NPMLE的似然函數。下圖[3]為常規MLE的假設和似然函數建模過程。
參考常規MLE,假設非參數的分布有相同的采樣,但沒有參數。
附錄
參考
[1]、百度百科《參數估計》
[2]、維基百科《極大似然估計》
[3]、《最大似然估計》
[4]、李航《統計學習方法》
[5]、Adam L. Berger, Stephen A. Della Pietra《A Maximum Entropy Approach to Natural Language Processing》
[6]、https://www.stat.washington.edu/thompson/S581_04/Notes/chapter_8.pdf