論文小結(一)

前言

懶惰如我,總是想著有時間將所看的論文好好總結一番,卻總是如拖延癥晚期患者一般,一直拖一直拖,今晚終于下定決心進行總結,現在開工!

Emerging Topic Detection on Twitter based on Temporal and Social Terms Evaluation

MDMKDD'10

論文流程

  1. 獲取t時刻的tweet數據集,將每條推文表示成詞頻向量
  2. 采用PageRank算法計算每條推文的發布者權威值
  3. 根據novel aging theory,建立每個term的生命周期模型
  4. 對每個term,根據其生命周期狀態進行排序,選取emerging terms
  5. 建立話題導航圖,由圖的強連通子圖中的terms構成emergent topic的詞匯集

論文小記

本文所采用的詞頻向量是由未經過預處理的所有詞匯構成,雖然這在某種程度上能夠保留下所有的推文信息,但是,推文數據量極大,數據集中包含大量噪聲信息,如拼寫錯誤、無意義詞匯信息、廣告信息等,所以在使用時,可以考慮使用經過預處理后的實驗數據集。

時間間隔的選取會影響到后續挖掘到的事件數量和質量,當時間間隔設置的比較小時,會挖掘到大量小型事件,同時一些周期性詞匯可能會影響挖掘效果。如good morning、afternoon等詞匯,以及一些周一上班、周五放假、工作日與非工作日相關的周期性詞匯等。所以在對時間間隔進行設置時需要根據數據集的特點,以及挖掘的目的進行相應的設置。

在計算用戶權威值時,實際上考慮的是用戶的粉絲數,只考慮用戶粉絲這一個指標,可以考慮增加幾個指標,如用戶發布的推文數、推文質量、評論數、轉發數、點贊數,被@與@用戶等。

生命周期模型比較有吸引力,通過類比的方式,能夠比較清晰地表達詞匯的變化過程。在話題探測過程中,詞匯/話題會經歷新生、快速增長、趨于穩定、逐漸消失等過程,但是不同的話題在每個過程中持續的時間長短不一致,需要綜合考慮背景話題、周期性話題、激增激沒話題、平穩話題等不同類型的話題的不同表現形式,及對話題探測的不同影響

SigniTrend: Scalable Detection of Emerging Topics in Textual Streams by Hashed Significance Thresholds

KDD'14

創新性

  1. 提出一個基于指數權重移動平均/方差和Z-score的term/term對的重要性衡量指標
  2. hash算法可以顯著減少內存消耗,本文采用hash的方式對所有詞對的重要性進行度量,從而提高可擴展性
  3. 對小話題進行聚類形成大話題

論文小結

本文并非專門針對tweet設計的算法,實驗數據集使用了新聞語料、tweet和stackOverflow三個語料,但是實驗結果只展示了一個探測到的top-50的話題-詞匯表,同時采用的是手工評估方式,所以并不能夠很好地看出算法的優勢。主要工作集中在重要性衡量指標上。

Streaming First Story Detection with application to Twitter

ACL'10

論文簡介

本文以文本/推文為單位,著眼于挖掘關于某一個事件的第一篇報道/推文,具體步驟:

  1. 采用LSH(局部敏感哈希)算法,計算新報道/推文的最近鄰;
  2. 根據新推文與最近鄰之間余弦相似性,計算該推文的novelty值;
  3. 該推文的novelty值大于閾值時,認為該推文是一個新事件的首篇推文,否則,將該推文放入最近鄰所在事件中。
    實驗語料集為TDT5和Twitter數據集,評價指標分別為歸一化損失函數(遺失一篇新推文、錯將一篇舊推文作為新推文以及探測的新推文并非真的新推文的損失)和人工評估

論文小結

本文采用改進的LSH方式能夠實現常量級時間開銷,但是在計算novelty值時只考慮了新舊文本詞頻間的余弦相似性,考慮的因素比較少,對于推文這類高噪聲短文本,詞頻向量比較稀疏,效果不會很好。本文主要針對新推文的挖掘,而非新事件。

Topic Dynamics: An Alternative Model of ‘Bursts’ in Streams of Topics

KDD'10

論文簡介

本文借用物理學中的一些基本概念來對度量突發性,如速度、加速度、質量、動量等,文中采用兩個時點移動平均值間的差異表示速度,用速度與質量的積表示動量,用動量激增的區間表示突發區間。

論文小結

該模型主要用于長文本數據,度量的是一個話題的突發區間,而非對突發話題進行檢測,不過文中提出的一些概念可以加以借鑒。

小結

目前,新興話題探測主要集中于詞匯新穎性的度量,詞匯聚類形成話題,抽取代表性的詞匯表示話題這幾個步驟,關鍵在于詞匯新穎性的度量。
突發話題檢測主要有幾個主要的問題:如何盡可能早的探測到話題,這涉及到時間片的劃分,時間片的長度會影響到所探測到的話題的粒度以及周期性話題所帶來的噪聲;新穎性值的度量,主要需要考慮如何區分背景詞匯、新興詞匯、噪聲詞匯,凸顯新興詞匯的值;詞匯聚類,不同話題的規模不一致,詞匯間距離不一致,如何確定聚類函數,定義距離閾值,最好能夠自適應。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容