? ? ? ? 樸素貝葉斯算法中的拉普拉斯平滑,是為了緩解先驗概率為零的情況。在貝葉斯估計中,使用狄利克雷分布作為先驗分布,來估計多項分布中的參數值,即可得到拉普拉斯平滑。證明如下:
一、狄利克雷分布
? ? ? ? 引入狄利克雷分布的定義,若隨機向量符合狄利克雷分布,即?,其中?
,設
,則?
?的概率密度函數為:
? ? 下面計算隨機向量??的分量?
?的期望。我們通過計算?
?來代替,這仍然不失一般性。
?的概率密度函數為:
?的期望為:
故,
二、多項分布
? ? ? ? 引入多項分布的定義,若隨機向量滿足多項分布,即??,其中?
,則?
?的分布律為:
? ? ? ? 在多項分布參數的貝葉斯估計中,使用狄利克雷分布作為先驗分布。設 ?為狄利克雷分布的概率密度函數,
?為多項分布的分布律,則后驗分布為:
? ? ? ? 由于多項分布的后驗分布也是狄利克雷分布,故狄利克雷分布是多項分布的共軛分布。由此可得多項分布參數??的貝葉斯估計值為:
三、拉普拉斯平滑
? ? ? ? 設??為數據集中的樣本,
?為樣本特征向量,
?為分類變量。?
?為數據集樣本數,
?為分類個數,
?表示第
?個分類,
?表示數據集中第?
?個分類的樣本數。現在要根據數據集來估計分類的先驗概率
。
? ? ? ? 由于?,所以這是一個多項分布的參數估計問題。使用上面已經證明的多項分布參數的貝葉斯估計,并設?
,則:
? ? ? ? 根據數據集估計特定分類下特征值的先驗概率,其實就是在該分類的子數據集中進行多項分布的參數估計。按照上面相同的方法,設??為特征個數,?
?為第?
?個特征包含的值個數,
?為第
?個特征的第
?個值,
?為第
?個分類的數據集中第
?個特征取第?
?個值的樣本數,則:
? ? ? ? 這就證明了樸素貝葉斯算法中的拉普拉斯平滑。