轉自:https://blog.csdn.net/zengxiantao1994/article/details/72787849
貝葉斯決策
首先來看貝葉斯分類,我們都知道經典的貝葉斯公式:
其中:p(w):為先驗概率,表示每種類別分布的概率;p(x | w):類條件概率,表示在某種類別前提下,某事發生的概率;而p(w | x)為后驗概率,表示某事發生了,并且它屬于某一類別的概率,有了這個后驗概率,我們就可以對樣本進行分類。后驗概率越大,說明某事物屬于這個類別的可能性越大,我們越有理由把它歸到這個類別下。
我們來看一個直觀的例子:已知:在夏季,某公園男性穿涼鞋的概率為1/2,女性穿涼鞋的概率為2/3,并且該公園中男女比例通常為2:1,問題:若你在公園中隨機遇到一個穿涼鞋的人,請問他的性別為男性或女性的概率分別為多少?
從問題看,就是上面講的,某事發生了,它屬于某一類別的概率是多少?即后驗概率。
設:w1 = 男性 ;w2 = 女性;x = 穿涼鞋
由已知可得:
(若只考慮分類問題,只需要比較后驗概率的大小,的取值并不重要)。
由貝葉斯公式算出:問題引出
但是在實際問題中并不都是這樣幸運的,我們能獲得的數據可能只有有限數目的樣本數據,而先驗概率p(wi)
和類條件概率(各類的總體分布) p(x | wi)都是未知的。根據僅有的樣本數據進行分類時,一種可行的辦法是我們需要先對先驗概率和類條件概率進行估計,然后再套用貝葉斯分類器。
先驗概率的估計較簡單,1、每個樣本所屬的自然狀態都是已知的(有監督學習);2、依靠經驗;3、用訓練樣本中各類出現的頻率估計。
類條件概率的估計(非常難),原因包括:概率密度函數包含了一個隨機變量的全部信息;樣本數據可能不多;特征向量x的維度可能很大等等。總之要直接估計類條件概率的密度函數很難。解決的辦法就是,把估計完全未知的概率密度 p(x | wi)轉化為估計參數。這里就將概率密度估計問題轉化為參數估計問題,極大似然估計就是一種參數估計方法。當然了,概率密度函數的選取很重要,模型正確,在樣本區域無窮時,我們會得到較準確的估計值,如果模型都錯了,那估計半天的參數,肯定也沒啥意義了。
重要前提
上面說到,參數估計問題只是實際問題求解過程中的一種簡化方法(由于直接估計類條件概率密度函數很困難)。所以能夠使用極大似然估計方法的樣本必須需要滿足一些前提假設。
重要前提:訓練樣本的分布能代表樣本的真實分布。每個樣本集中的樣本都是所謂獨立同分布的隨機變量 (iid條件),且有充分的訓練樣本。
極大似然估計
極大似然估計的原理,用一張圖片來說明,如下圖所示:
總結起來,最大似然估計的目的就是:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。
原理:極大似然估計是建立在極大似然原理的基礎上的一個統計方法,是概率論在統計學中的應用。極大似然估計提供了一種給定觀察數據來評估模型參數的方法,即:“模型已定,參數未知”。通過若干次試驗,觀察其結果,利用試驗結果得到某個參數值能夠使樣本出現的概率為最大,則稱為極大似然估計。
由于樣本集中的樣本都是獨立同分布,可以只考慮一類樣本集D,來估計參數向量θ。記已知的樣本集為:似然函數(linkehood function):聯合概率密度函數 p(D | θ) 稱為相對于 {x1, x2, x3,..., xN} 的θ的似然函數。
求解極大似然函數
ML估計:求使得出現該組樣本的概率最大的θ值。1. 未知參數只有一個(θ為標量)
在似然函數滿足連續、可微的正則條件下,極大似然估計量是下面微分方程的解:2.未知參數有多個(θ為向量)
極大似然估計的例子
例1:設樣本服從正態分布,則似然函數為:
它的對數:
求導,得方程組:
聯合解得:
總結
求最大似然估計量[圖片上傳失敗...(image-8d0986-1536201351159)]
的一般步驟:
(1)寫出似然函數;
(2)對似然函數取對數,并整理;
(3)求導數;
(4)解似然方程。
最大似然估計的特點:
1.比其他估計方法更加簡單;
2.收斂性:無偏或者漸近無偏,當樣本數目增加時,收斂性質會更好;
3.如果假設的類條件概率模型正確,則通常能獲得較好的結果。但如果假設模型出現偏差,將導致非常差的估計結果。