背景:
某個論壇的帖子評論分成positive和negative兩種,你已經拿到了sample(影評)和label(評價)兩個集合,現在你想知道:
詞匯 --- 評價
之間的關系,即情感傾向詞匯。
這時候很容易想到的方法是:計算某個詞匯的positive/negative的比例,就可以知道詞匯的情感傾向,而不需要借助情感詞典,假設:ratio = positive/negative,很明顯ratio是一個以1為中心的評價指標,ratio=1可以將詞匯看成中性詞匯。如下圖抽取影評結果:
around 1
而你會發現后期的計算嘗嘗要求指標以0為中心的,像這樣:
around 0
這時候怎么辦呢,答案就是對數變換!