三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

<legend id="pxzup"></legend>

登錄注冊寫文章

文本挖掘第三周

文本挖掘第三周

一概率主題模型

1.1 混合語言模型

如何擺脫背景詞（數據中頻率高）——常見詞不應用分布解釋

背景主題模型：生成常用詞匯

使用另個分布：需決定產生詞時用哪一個分布

計算一個詞概率：兩種情況的總和

問題：是如何區分詞在哪一個分布的？詞在每個分布的概率是如何計算的？

1.2 d中詞的概率

假設背景詞已知，如何調整θd來讓已觀測到的高頻詞概率達到最大

當已知背景詞模型時，B中詞的概率高，d中詞的概率就小了。、

1.3在文檔中添加更多的背景詞

????????一個詞出現得越多，那么這個詞在d中的概率越高，對整體影響越大。

????????而如果提高p（thetaB）,那么提高d中的P的作用就不大了。即詞出現的P還是受到p（thetaB）概率的規范影響的。

總結：

????????將高概率分配給數據中高頻率的詞匯。這是協作最大化可能性。其次，不同的組件模型傾向于在不同的詞上下注高概率。這是為了避免競爭或浪費概率。這將使他們能夠更有效地合作，最大限度地發揮作用。

1.4 期望最大化算法（EM）

Z=0：單詞來自于d。? ? Z=1：單詞來自于背景B

EM操作：

給所有參數（一個詞的概率）分配隨機數。

在θd的情況下，來猜測這些詞的z值（E）

在z值確定后，把相同分布的詞分到同一組，利用正態計數來預測概率，修正參數（M）

? ? EM將趨于局部最大值

爬坡演算法

計算下限，不直接計算似然函數（E）

最大化下限，使得我們能將參數移動到一個新的位置（M）

最終確保得到局部最大值

二：概率潛在語義分析（PLSA）

2.1簡要介紹

輸入：集合、主題數量、一個詞匯集。

輸出：主題類別，特征描述

有約束的優化問題：

（1）詞分布和為1? ? ? ?（2）話題覆蓋的分布和為1

2.2 通過EM計算最大估計

z：隱藏變量（話題指標）

在（E）中：預測單詞屬于哪一類。從每個分布觀察這個詞的概率。

在（M）中：通過計算得到真實的估計。可以在所有的主題之間進行歸一化以得到pi的重新估計，覆蓋面。或者我們可以根據所有單詞重新規范化。

三：隱含利克雷分布（LDA）

3.1.先驗知識擴展PLSA（監督）

標準PLSA:完全基于數據做最大似然估計

用戶“檢索模型”作為主題，對特定概念感興趣

p(^)即為先驗知識

偽計數：用先驗知識中的詞概率定義

增加偽計數，構成γ分布

μ反應先驗知識的強度（0，不考慮先驗知識。無窮大—背景語言模型）

3.2.將PLSA擴展為生成模型（LDA）

LDA是PLSA的貝葉斯版本

LDA不允許釋放鏈條，強制其從另一個分配中抽取。將分別從兩個Dirichlet分布中抽取，但??是狄利克雷分布是向量的分布。所以它給了我們一個向量四個特定選擇的概率。

對比差異：

LDA的最大似然估計;

名稱,主題，和覆蓋范圍不再是LDA中的參數,要使用基本的推論或后驗推斷來根據α和β的參數來計算它們。

最后編輯于：2018.01.03 22:52:24

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

推薦閱讀更多精彩內容

竟有這種操作?貝葉斯方法的簡單學習
各位小伙伴們大家好,前些日子,我看了一些關于貝葉斯方法的文章,其中以今天這一篇文章覺得最好,不僅講的簡單通俗易懂并...
云時之間閱讀 5,657評論 4贊 72
數學之美番外篇：平凡而又神奇的貝葉斯方法
本文轉自劉未鵬的博客！概率論只不過是把常識用數學公式表達了出來。記得讀本科的時候，最喜歡到城里的計算機書店里...
Bioquan閱讀 4,611評論 1贊 29
淺談智能搜索和對話式OS
前面的文章主要從理論的角度介紹了自然語言人機對話系統所可能涉及到的多個領域的經典模型和基礎知識。這篇文章，甚至之后...
我偏笑_NSNirvana閱讀 14,073評論 2贊 64
LDA主題模型簡介
LDA的代碼實現：http://blog.csdn.net/u010551621/article/details/...
wlj1107閱讀 34,125評論 0贊 31
【愛情/間諜】紳士約會指南 7
1 Feb 前幾天我在報紙看到了MI6的招聘信息，我看了一下，工資竟然只有30000鎊每年，令人發指。媽媽還不知...
珀西瓦爾夫人閱讀 317評論 0贊 0

贊1贊

贊賞

手機看全文

主站蜘蛛池模板：定结县| 和林格尔县| 凤翔县| 六盘水市| 大埔县| 通城县| 阿荣旗| 卫辉市| 连州市| 恩施市| 方正县| 华池县| 天津市| 汉中市| 六枝特区| 浮梁县| 连云港市| 农安县| 新疆| 上栗县| 长治县| 都安| 花莲市| 安宁市| 岳西县| 明星| 巍山| 临汾市| 康定县| 阿勒泰市| 芦山县| 江阴市| 葵青区| 新昌县| 特克斯县| 忻城县| 温州市| 新乡县| 九龙城区| 东乌珠穆沁旗| 鄄城县|

<legend id="hdhjh"><track id="hdhjh"></track></legend>

<cite id="hdhjh"><track id="hdhjh"></track></cite>