文本挖掘第三周

一 概率主題模型

1.1 混合語言模型

如何擺脫背景詞(數據中頻率高)——常見詞不應用分布解釋

背景主題模型:生成常用詞匯

使用另個分布:需決定產生詞時用哪一個分布

計算一個詞概率:兩種情況的總和


問題:是如何區分詞在哪一個分布的?詞在每個分布的概率是如何計算的?


1.2 d中詞的概率

假設背景詞已知,如何調整θd來讓已觀測到的高頻詞概率達到最大



當已知背景詞模型時,B中詞的概率高,d中詞的概率就小了。、

1.3在文檔中添加更多的背景詞


????????一個詞出現得越多,那么這個詞在d中的概率越高,對整體影響越大。

????????而如果提高p(thetaB),那么提高d中的P的作用就不大了。即詞出現的P還是受到p(thetaB)概率的規范影響的。

總結:

????????將高概率分配給數據中高頻率的詞匯。這是協作最大化可能性。其次,不同的組件模型傾向于在不同的詞上下注高概率。這是為了避免競爭或浪費概率。這將使他們能夠更有效地合作,最大限度地發揮作用。

1.4 期望最大化算法(EM)




Z=0:單詞來自于d。? ? Z=1:單詞來自于背景B


EM操作:

給所有參數(一個詞的概率)分配隨機數。

在θd的情況下,來猜測這些詞的z值(E)

在z值確定后,把相同分布的詞分到同一組,利用正態計數來預測概率,修正參數(M)

? ? EM將趨于局部最大值

爬坡演算法


計算下限,不直接計算似然函數(E)

最大化下限,使得我們能將參數移動到一個新的位置(M)

最終確保得到局部最大值



二:概率潛在語義分析(PLSA)

2.1簡要介紹


輸入:集合、主題數量、一個詞匯集。

輸出:主題類別,特征描述






有約束的優化問題:

(1)詞分布和為1? ? ? ?(2)話題覆蓋的分布和為1


2.2 通過EM計算最大估計


z:隱藏變量(話題指標)


在(E)中:預測單詞屬于哪一類。從每個分布觀察這個詞的概率。

在(M)中:通過計算得到真實的估計。可以在所有的主題之間進行歸一化以得到pi的重新估計,覆蓋面。或者我們可以根據所有單詞重新規范化。



三:隱含利克雷分布(LDA)

3.1.先驗知識擴展PLSA(監督)

標準PLSA:完全基于數據做最大似然估計

用戶“檢索模型”作為主題,對特定概念感興趣


p(^)即為先驗知識


偽計數:用先驗知識中的詞概率定義

增加偽計數,構成γ分布

μ反應先驗知識的強度(0,不考慮先驗知識。無窮大—背景語言模型)

3.2.將PLSA擴展為生成模型(LDA)

LDA是PLSA的貝葉斯版本

LDA不允許釋放鏈條,強制其從另一個分配中抽取。將分別從兩個Dirichlet分布中抽取,但??是狄利克雷分布是向量的分布。所以它給了我們一個向量四個特定選擇的概率。


對比差異:

LDA的最大似然估計;

名稱,主題,和覆蓋范圍不再是LDA中的參數,要使用基本的推論或后驗推斷來根據α和β的參數來計算它們。




最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容