A Probabilistic Model for Bursty Topic Discovery in Microblogs
AAAI
論文簡介
本文首先采用伯努利分布判斷當(dāng)前二元詞對是突發(fā)詞對還是非突發(fā)詞對,若為突發(fā)詞對,則在突發(fā)詞匯和突發(fā)話題空間使用BTM模型,否則在背景詞匯及背景話題空間使用BTM模型。伯努利分布的參數(shù)為詞匯的新穎性度量值,用詞匯當(dāng)前頻率與歷史頻率間的差值表示。
Baselines:Twevent、OLDA、UTM、IBTM、BBTM-S
Baseline簡介:
Twevent:對tweet進行分片,衡量每個片段的突發(fā)性,然后聚類得到突發(fā)話題
OLDA:首先使用online LDA方法對每一時間片內(nèi)的數(shù)據(jù)進行訓(xùn)練,然后根據(jù)話題更新前后詞匯分布間的Jensen-Shannon距離探測突發(fā)話題
UTM:User-Temporal Mixture model,包含一些啟發(fā)式規(guī)則,增大突發(fā)詞匯的突發(fā)概率
IBTM:首先對每一時間片內(nèi)的數(shù)據(jù)采用BTM模型進行訓(xùn)練,然后使用余弦相似度將后一片段中的話題與前一片段進行匹配,最后根據(jù)話題更新前后詞匯分布間的Jensen-Shannon距離探測突發(fā)話題
BBTM-S:與BBTM的不同在于,該模型不使用背景話題及背景詞匯,直接將伯努利分布判定為突發(fā)詞的所有詞對加入訓(xùn)練集,用于訓(xùn)練,不使用非突發(fā)詞。
衡量指標(biāo):
- 發(fā)現(xiàn)的突發(fā)話題的準(zhǔn)確性(人工評價):BBTM>BBTM-S>Twevent>UTM>IBTM
- 發(fā)現(xiàn)的突發(fā)話題的新穎性(用時間片t內(nèi)包含的不在時間片t-1中出現(xiàn)的詞匯占比表示):BBTM和BBTM-S表現(xiàn)很穩(wěn)定,一直處于0.6左右,BBTM稍優(yōu)于BBTM-S;Twevent隨突發(fā)話題數(shù)增加而呈現(xiàn)新穎性遞減的趨勢,30以前優(yōu)于BBTM,30以后劣于BBTM;IBTM和OLDA一直比較差,且不穩(wěn)定,呈遞減趨勢;
- 話題連貫性(PMI點對間的互信息):BBTM和IBTM接近,均為最高,后續(xù)依次是BBTM-S,OLDA,UTM和Twevent
- 效率(時間消耗):BBTM-S>OLDA>BBTM>IBTM>UTM
基于BTM模型,該模型能夠很好地適應(yīng)稀疏數(shù)據(jù),不過新穎性衡量指標(biāo)比較簡單,只考慮了詞匯的詞頻差,不能很好地度量詞匯的質(zhì)量,也不能很好地區(qū)分處于快速增長期的背景詞匯。
Twevent: Segment-based Event Detection from Tweets
CIKM'12
算法流程
- 對tweet分片,分片過程中引用了外部知識(維基百科和微軟的N-Gram詞匯);
- 事件片段探測:根據(jù)如下權(quán)重公式計算時間片t內(nèi)每個片段的權(quán)重,然后取權(quán)重最高K個片段作為潛在突發(fā)片段,用于后續(xù)聚類過程;
- 事件片段聚類:采用Jarvis-Patrick算法的變種進行事件片段聚類操作,使用余弦相似性度量兩個片段間的相似程度
- 引入維基百科知識對聚類結(jié)果進行過濾
實驗
實驗數(shù)據(jù)
維基百科和Twitter數(shù)據(jù)
Baselines
EDCoW、Tweventu(使用一元詞匯而非片段的Twevent)
評價指標(biāo)
探測到的事件數(shù):Tweventu>Twevent>EDCoW
準(zhǔn)確率:探測到的事件中真實事件比率,Twevent>EDCoW>Tweventu
召回率:一天中探測到的事件中不同事件比率,Tweventu>Twevent>EDCoW
重復(fù)率:探測到的真實事件中重復(fù)事件比率,Tweventu>EDCoW>Twevent
Twevent的可讀性要明顯優(yōu)于另外兩者