1:演變關(guān)系
上邊的圖是
這一篇論文中的一個截圖,而第一張圖其實講的是幾種模型的演進的一個過程,而這個過程如果加以簡單的概括的話,可以歸類于上邊的一欄為產(chǎn)生型模型,下邊的一欄為判別型模型,那這兩種模型有什么區(qū)別,這兩種模型又是什么?接下來我們分別來掰扯掰扯這兩種模型.
1:產(chǎn)生型模型
定義: 由數(shù)據(jù)學習聯(lián)合概率密度分布P(X,Y),然后求出條件概率分布P(Y|X)作為預測的模型,即生成模型:P(Y|X)= P(X,Y)/ P(X).
那產(chǎn)生型模型的典型代表其實就是樸素貝葉斯.這一種的模型的主要思想是先估算聯(lián)合概率密度p(x,y),再通過貝葉斯公式求出p(y|x).那現(xiàn)在我們就以之前文章中所說過的垃圾郵件分類的例子再來講一下產(chǎn)生型模型的處理方法.
現(xiàn)在我們假設要分類垃圾郵件和正常的郵件(分類處理郵件是文本分類和模式識別的一種典型應用),現(xiàn)在我們假設采用最簡單的特征描述的方法,首先我們先去找一個詞庫,然后把詞庫中的單詞都歸類起來,然后把每一封郵件表示成一個向量,向量中的每一維都是詞庫中一個詞的0-1值,1表示出現(xiàn)這個詞語,0表示沒有出現(xiàn)這個詞語.
比如一封郵件出現(xiàn)了”偉哥”,”理財”,”投資”,卻沒有出現(xiàn)”邀請”,”還款”,”金融”這樣的詞語,我們就可以把這個向量表示為:(mathtype沒法輸入中文,所以用拼音代替了)
如果這個詞庫里的詞語過多,我們的x的維度也會很大,這時候我們就應該要采取一些比如多項式分布模型的方法來去簡化計算,這個我們就不多做討論.
回到上邊的垃圾郵件問題中來,對于郵件,我們大致上可以將每一封郵件看作是相互獨立的,這樣每一次我們?nèi)∫环忄]件就可以看作是一次隨機事件,那么我們的可能性就會有2的n次方種可能性,這樣我們處理起來參數(shù)過多,那也就沒有什么實用價值.
那這時候我們?nèi)绻蒙赡P腿プ?就會有新的思路,我們要求的是p(y|x),那么按照條件概率公式可以的到,我們只需要求p(x|y),p(z),那么如果假設郵件x之間是相互獨立的,這個就可以說符合貝葉斯假設,舉個例子說:
假設我們?nèi)ヅ袆e一封郵件已經(jīng)是垃圾郵件了(y=1),并且這個郵件出現(xiàn)”偉哥”和出現(xiàn)其他的詞是無關(guān)的,那么就說”偉哥”和其他的詞是相互獨立的.
那現(xiàn)在我們假設:
給定條件z,使得X,Y條件獨立,那形式化可以表示為:
那如果詞庫中出現(xiàn)了5000個詞語,我們?nèi)堪言~語放進來,這時候我們再回到問題中,就可以根據(jù)上式列出公式來:
而這一步的處理其實和我們之前的文章的n元語法模型是類似的,但是這里邊說的是每個詞語之間是相互獨立的,而”偉哥”和”性”,一般來說是有很大的關(guān)系的,這樣的詞匯會經(jīng)常出現(xiàn)在垃圾郵件中.
那現(xiàn)在我們建立形式化的模型: