之前有說過pLSA模型,這是一個鏈式模型,這個模型能夠快速生成主題,但是也有它的不足之處(畢竟是1999年左右提出的嘛!),一個很致命的缺點就是不能解決一詞多義的問題。 這樣就不能很好的區分主題的個數了。(但是不能否認這確確實實是一個經典的模型,花了很長時間去看,通過這個模型我才接下來看到更經典的LDA模型)。所以在這里和大家分享一個可以說是文本主題模型里面最為經典的模型之一-----------------LDA模型。提出這個模型的那篇英文原版論文引用次數已經是用萬來計數的。。。。。。。很恐怖(比我們這種為了發一篇論文苦苦搜鍛煉腦細胞的強太多?? 手動流汗 流汗 流汗)
1.游戲規則
看懂這個模型的話需要對照著PLDA模型來看,就在上一篇文檔里面吧!
有一個很神奇的學派叫做貝葉斯學派(這個模型實際上是在PLSA模型上加上貝葉斯框架形成的,至于什么叫貝葉斯框架,那就得說Beta/Dirichlet分布了,也在之前的文章有),這個學派對于PLSA模型是有意見滴!他們覺得doc-topic之中 θm 和? topic-word? 之中???~k都是模型之中的參數,既然都是參數,怎么能沒有先驗分布呢? 為了裝個逼,他們進行如下改造:
類似于Unigram Model? 的貝葉斯改造,我們也可以在如下兩
Gibbs Sampling
??( 哎呦,看到這個是不是有點熟悉,嘿嘿前面的文章專門有介紹吉布斯采樣。說過這個采樣確實是非常經典的方法!)
使用上面兩個公式就可以推導出吉布斯采樣公式
利用LDA模型進行訓練和推導
?? ? 學習LDA模型說到底就是為了用嘛,其實說句實在話,在工程上,? 利用LDA模型進行文本主題檢測就是一段代碼的事,網上有用C/C++,JAVA,Python編好的代碼,但是對于想用這個模型進行創新的話就得學習它的理論知識,并且知道它的整個流程,才有機會結合具體情況對模型進行創新,改造。(寫論文的苦逼之處啊!)
??
最后一句費曼的名言和大家分享,探索之路還很長............
?????????????????????????? What I cannot create, I do not understand.
?????????????????????????????????????????????????????????????????????????????????? — Richard Feynman