一 概率主題模型
1.1 混合語言模型
如何擺脫背景詞(數據中頻率高)——常見詞不應用分布解釋
背景主題模型:生成常用詞匯
使用另個分布:需決定產生詞時用哪一個分布
計算一個詞概率:兩種情況的總和
問題:是如何區分詞在哪一個分布的?詞在每個分布的概率是如何計算的?
1.2 d中詞的概率
假設背景詞已知,如何調整θd來讓已觀測到的高頻詞概率達到最大
當已知背景詞模型時,B中詞的概率高,d中詞的概率就小了。、
1.3在文檔中添加更多的背景詞
????????一個詞出現得越多,那么這個詞在d中的概率越高,對整體影響越大。
????????而如果提高p(thetaB),那么提高d中的P的作用就不大了。即詞出現的P還是受到p(thetaB)概率的規范影響的。
總結:
????????將高概率分配給數據中高頻率的詞匯。這是協作最大化可能性。其次,不同的組件模型傾向于在不同的詞上下注高概率。這是為了避免競爭或浪費概率。這將使他們能夠更有效地合作,最大限度地發揮作用。
1.4 期望最大化算法(EM)
Z=0:單詞來自于d。? ? Z=1:單詞來自于背景B
EM操作:
給所有參數(一個詞的概率)分配隨機數。
在θd的情況下,來猜測這些詞的z值(E)
在z值確定后,把相同分布的詞分到同一組,利用正態計數來預測概率,修正參數(M)
? ? EM將趨于局部最大值
爬坡演算法
計算下限,不直接計算似然函數(E)
最大化下限,使得我們能將參數移動到一個新的位置(M)
最終確保得到局部最大值
二:概率潛在語義分析(PLSA)
2.1簡要介紹
輸入:集合、主題數量、一個詞匯集。
輸出:主題類別,特征描述
有約束的優化問題:
(1)詞分布和為1? ? ? ?(2)話題覆蓋的分布和為1
2.2 通過EM計算最大估計
z:隱藏變量(話題指標)
在(E)中:預測單詞屬于哪一類。從每個分布觀察這個詞的概率。
在(M)中:通過計算得到真實的估計。可以在所有的主題之間進行歸一化以得到pi的重新估計,覆蓋面。或者我們可以根據所有單詞重新規范化。
三:隱含利克雷分布(LDA)
3.1.先驗知識擴展PLSA(監督)
標準PLSA:完全基于數據做最大似然估計
用戶“檢索模型”作為主題,對特定概念感興趣
p(^)即為先驗知識
偽計數:用先驗知識中的詞概率定義
增加偽計數,構成γ分布
μ反應先驗知識的強度(0,不考慮先驗知識。無窮大—背景語言模型)
3.2.將PLSA擴展為生成模型(LDA)
LDA是PLSA的貝葉斯版本
LDA不允許釋放鏈條,強制其從另一個分配中抽取。將分別從兩個Dirichlet分布中抽取,但??是狄利克雷分布是向量的分布。所以它給了我們一個向量四個特定選擇的概率。
對比差異:
LDA的最大似然估計;
名稱,主題,和覆蓋范圍不再是LDA中的參數,要使用基本的推論或后驗推斷來根據α和β的參數來計算它們。