校驗二分類特征相關性
image.png
1.1 統計樣本集中文檔總數(N)。
1.2 統計每個詞的正文檔出現頻率(A)、負文檔出現頻率(B)、正文檔不出現頻率)、負文檔不出現頻率。
1.3 計算每個詞的卡方值,公式如下:
卡方公式
1.4 將每個詞按卡方值從大到小排序,選取前k個詞作為特征,k即特征維數。
在文本分類的特征選擇階段中,我們主要關心一個問題:詞條t與類別C是否相互獨立
1)相互獨立,說明詞條t對類別c完全沒有表征能
2)不獨立,說明詞條t對類別c有一定的表征能力
卡方檢驗的缺點是:它只統計文檔是否出現詞,而不管出現了幾次。這會使得他對低頻詞有所偏袒(因為它夸大了低頻詞的作用)。
多分類中也是能夠運用卡方校驗進行特征選擇
image.png
式中n為總例數;A為各觀察值;nR和nC為與各A值相應的行和列合計的總數。
參考博客
[ https://www.cnblogs.com/liyongzhao/articles/3369117.html ]