LDA 和 LSI 聚類效果比較

LDA獨立性假設太強了,經常不是很work,而且跑起來太慢。但是數學上比較完備,模型漂亮。工程上可以用PLSA

? LDA的獨立性假設不算很強吧,畢竟是條件獨立。主要的假設其實是可交換性。由de Finetti's theorem,其實隱含變量下的條件獨立性假設就不是很強了(雖然存在不意味著能找到)。

? 我這邊使用LDA很爽快,雖然說優化的過程很折磨人,我們公司使用LDA模型對全網文本建立了分類模型

LDA(latent dirichlet allocation) 應該會好很多。LSI 雖然很簡單,但是有一個不太合理的假設是各個topic是互相垂直的向量,結果是得到的類比較難有明確的意義。LSI用來降維因該還行。

另外有一種LDA(Linear discriminant analysis)效果應該比PCA好些,但是需要有標注的數據

LDA的效果實際中看來更好,但LDA的收斂速度會比LSA慢。LSA通常是用其他算法的預處理分類中,很少單獨使用。

LDA從模型角度老說,是無監督算法(聚類算法),但是如果僅僅把LDA作為聚類模型來使用,我覺得就有點殺雞用牛刀的感覺了,我對LDA的看法是:天生的適合大數據環境下的文本分類算法

PLSI不錯,LDA適合發論文

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容