LDA獨立性假設太強了,經常不是很work,而且跑起來太慢。但是數學上比較完備,模型漂亮。工程上可以用PLSA
? LDA的獨立性假設不算很強吧,畢竟是條件獨立。主要的假設其實是可交換性。由de Finetti's theorem,其實隱含變量下的條件獨立性假設就不是很強了(雖然存在不意味著能找到)。
? 我這邊使用LDA很爽快,雖然說優化的過程很折磨人,我們公司使用LDA模型對全網文本建立了分類模型
LDA(latent dirichlet allocation) 應該會好很多。LSI 雖然很簡單,但是有一個不太合理的假設是各個topic是互相垂直的向量,結果是得到的類比較難有明確的意義。LSI用來降維因該還行。
另外有一種LDA(Linear discriminant analysis)效果應該比PCA好些,但是需要有標注的數據
LDA的效果實際中看來更好,但LDA的收斂速度會比LSA慢。LSA通常是用其他算法的預處理分類中,很少單獨使用。
LDA從模型角度老說,是無監督算法(聚類算法),但是如果僅僅把LDA作為聚類模型來使用,我覺得就有點殺雞用牛刀的感覺了,我對LDA的看法是:天生的適合大數據環境下的文本分類算法
PLSI不錯,LDA適合發論文