文章原創,最近更新:2018-06-23
參考鏈接:
1、 理解樸素貝葉斯分類的拉普拉斯平滑
前言:通過參考《理解樸素貝葉斯分類的拉普拉斯平滑》的方法結合李航的案例寫的讀書筆記,根據自己的理解寫的文章,具體如下:
例4.2問題同例4.1,按照拉普拉斯平滑估計概率,即取λ=1
引入拉普拉斯平滑的公式如下:
其中ajl,代表第j個特征的第l個選擇,Sj代表第j個特征的個數,K代表種類的個數。N表達某個特征的總數
λ為1,這也很好理解,加入拉普拉斯平滑之后,避免了出現概率為0的情況,又保證了每個值都在0到1的范圍內,又保證了最終和為1的概率性質!
加入拉普拉斯平滑后,即λ為1,我們一起看看下面的案例的運算.
1.下面我們需要算出p(Y=1|1、2、3、S、M、L)的概率
我們先需要分別計算p(X(1)=1|Y=1)、p(X(1)=2|Y=1)、p(X(1)=3|Y=1)、p(X(2)=S|Y=1),p(X(2)=M|Y=1),p(X(2)=L|Y=1),p(Y=1)
1)首先計算p(X(1)=1|Y=1),統計滿足要求的如下面紅色部分:
如截圖,具體數據如下:
- X(1)=1,Y=1,這樣的數只有2個
- X(1)特征的個數為1,2,3,三種情況,那么Sj為3
- Y=1的個數有9個
依據公式:
因λ=1則最終概率為p(X(1)=1|Y=1)=(2+1)/(9+3*1) =3/12 (備注:Y=1的個數為9+特征個數為3)
2)計算p(X(1)=2|Y=1),統計滿足要求的如下面紅色部分:
如截圖,具體數據如下:
- X(1)=2,Y=1,這樣的數只有3個
- X(1)特征的個數為1,2,3,三種情況,那么Sj為3
- Y=1的個數有9個
依據公式:
因λ=1則最終概率為p(X(1)=2|Y=1)=(3+1)/(9+3*1) =4/12 (備注:Y=1的個數為9+特征個數為3)
3)計算p(X(1)=3|Y=1),統計滿足要求的如下面紅色部分:
如截圖,具體數據如下:
- X(1)=3,Y=1,這樣的數只有4個
- X(1)特征的個數為1,2,3,三種情況,那么Sj為3
- Y=1的個數有9個
依據公式:
因λ=1則最終概率為p(X(1)=3|Y=1)=(4+1)/(9+3*1) =5/12 (備注:Y=1的個數為9+特征個數為3)
4)計算p(X(2)=S|Y=1),統計滿足要求的如下面紅色部分:
如截圖,具體數據如下:
- X(2)=S,Y=1,這樣的數只有1個
- X(2)特征的個數為S,M,L三種情況,那么Sj為3
- Y=1的個數有9個
依據公式:
因λ=1則最終概率為p(X(2)=S|Y=1)=(1+1)/(9+3*1) =2/12 (備注:Y=1的個數為9+特征個數為3)
5)計算p(X(2)=M|Y=1),統計滿足要求的如下面紅色部分:
如截圖,具體數據如下:
- X(2)=M,Y=1,這樣的數只有4個
- X(2)特征的個數為S,M,L三種情況,那么Sj為3
- Y=1的個數有9個
依據公式:
因λ=1則最終概率為p(X(2)=M|Y=1)=(4+1)/(9+3*1) =5/12 (備注:Y=1的個數為9+特征個數為3)
6)計算p(X(2)=L|Y=1),統計滿足要求的如下面紅色部分:
如截圖,具體數據如下:
- X(2)=L,Y=1,這樣的數只有4個
- X(2)特征的個數為S,M,L三種情況,那么Sj為3
- Y=1的個數有9個
依據公式:
因λ=1則最終概率為p(X(2)=L|Y=1)=(4+1)/(9+3*1) =5/12 (備注:Y=1的個數為9+特征個數為3)
7)計算p(Y=1),統計滿足要求的如下面紅色部分:
如截圖,具體數據如下:
- Y=1的個數有9個
- Y種類個數為1,-1,共2種情況,那么Sj為2
- Y這1行共有15個數
依據公式:
因λ=1則最終概率為p(Y=1)=(9+1)/(15+2*1) =10/17 (備注:Y個數為15+特征個數為2)
以上結果匯總:
p(X(1)=1|Y=1)=3/12
p(X(1)=2|Y=1)=4/12
p(X(1)=3|Y=1)=5/12
p(X(2)=S|Y=1)=2/12
p(X(2)=M|Y=1)=5/12
p(X(2)=L|Y=1)=5/12
p(Y=-1)=10/17
到這里為止,我們已經算出了在給定的x=(2,S)條件下,Y=1概率為:
p(Y=1)p(X(1)=2|Y=1)p(X(2)=S|Y=1)=10/174/122/12=5/153=0.0327
2.算出p(Y=-1|1、2、3、S、M、L)的概率
與上面的數值進行比較即可,算法與上面完全一模一樣!這里也走一遍。
我們需要估計出p(X(1)=1|Y=-1)、p(X(1)=2|Y=-1)、p(X(1)=3|Y=-1)、p(X(2)=S|Y=-1),p(X(2)=M|Y=-1)、p(X(2)=L|Y=-1)、p(Y=-1)的概率分別為多少。
1)計算p(X(1)=1|Y=-1),統計滿足要求的如下面紅色部分:
如截圖,具體數據如下:
- X(1)=1,Y=-1,這樣的數只有3個
- X(1)特征的個數為1,2,3三種情況,那么Sj為3
- Y=-1的個數有6個
依據公式:
因λ=1則最終概率為p(X(1)=1|Y=-1)=(3+1)/(6+3*1) =4/9 (備注:Y=-1的個數為6+特征個數為3)
2)計算p(X(1)=2|Y=-1),統計滿足要求的如下面紅色部分:
如截圖,具體數據如下:
- X(1)=2,Y=-1,這樣的數只有2個
- X(1)特征的個數為1,2,3三種情況,那么Sj為3
- Y=-1的個數有6個
依據公式:
因λ=1則最終概率為p(X(1)=2|Y=-1)=(2+1)/(6+3*1) =3/9 (備注:Y=-1的個數為6+特征個數為3)
3)計算p(X(1)=3|Y=-1),統計滿足要求的如下面紅色部分:
如截圖,具體數據如下:
- X(1)=3,Y=-1,這樣的數只有1個
- X(1)特征的個數為1,2,3三種情況,那么Sj為3
- Y=-1的個數有6個
依據公式:
因λ=1則最終概率為p(X(1)=3|Y=-1)=(1+1)/(6+3*1) =2/9 (備注:Y=-1的個數為6+特征個數為3)
4)計算p(X(2)=S|Y=-1),統計滿足要求的如下面紅色部分:
如截圖,具體數據如下:
- X(2)=S,Y=-1,這樣的數只有3個
- X(2)特征的個數為S,M,L三種情況,那么Sj為3
- Y=-1的個數有6個
依據公式:
因λ=1則最終概率為p(X(2)=S|Y=-1)=(3+1)/(6+3*1) =4/9 (備注:Y=-1的個數為6+特征個數為3)
5)計算p(X(2)=M|Y=-1),統計滿足要求的如下面紅色部分:
如截圖,具體數據如下:
- X(2)=M,Y=-1,這樣的數只有2個
- X(2)特征的個數為S,M,L三種情況,那么Sj為3
- Y=-1的個數有6個
依據公式:
因λ=1則最終概率為p(X(2)=M|Y=-1)=(2+1)/(6+3*1) =3/9 (備注:Y=-1的個數為6+特征個數為3)
6)計算p(X(2)=L|Y=-1),統計滿足要求的如下面紅色部分:
如截圖,具體數據如下:
- X(2)=L,Y=-1,這樣的數只有1個
- X(2)特征的個數為S,M,L三種情況,那么Sj為3
- Y=-1的個數有6個
依據公式:
因λ=1則最終概率為p(X(2)=L|Y=-1)=(1+1)/(6+3*1) =2/9 (備注:Y=-1的個數為6+特征個數為3)
7)計算p(Y=-1),統計滿足要求的如下面紅色部分:
如截圖,具體數據如下:
- Y=-1的個數有6個
- Y種類個數為1,-1,共2種情況,那么Sj為2
- Y這1行共有15個數
依據公式:
因λ=1則最終概率為p(Y=-1)=(6+1)/(15+2*1) =7/17 (備注:Y個數為15+特征個數為2)
以上結果匯總:
p(X(1)=1|Y=-1)=4/9
p(X(1)=2|Y=-1)=3/9
p(X(1)=3|Y=-1)=2/9
p(X(2)=S|Y=-1)=4/9
p(X(2)=M|Y=-1)=3/9
p(X(2)=L|Y=-1)=2/9
p(Y=-1)=7/17
到這里為止,我們已經算出了在給定的x=(2,S)條件下,Y=-1概率為:
p(Y=-1)p(X(1)=2|Y=-1)p(X(2)=S|Y=-1)=7/173/94/9=28/459=0.0610
3.總結
于是我們可以得到
p(Y=-1|X(1)=1、X(1)=2、X(1)=3、X(2)=S、X(2)=M、X(2)=L) = p(Y=-1)p(X(1)=2|Y=-1)p(X(2)=S|Y=-1)=0.0610 >p(Y=1|X(1)=1、X(1)=2、X(1)=3、X(2)=S、X(2)=M、X(2)=L) =p(Y=1)p(X(1)=2|Y=1)p(X(2)=S|Y=1)=0.0327,所以Y=-1