卡方校驗

校驗二分類特征相關性

image.png

1.1 統計樣本集中文檔總數(N)。

1.2 統計每個詞的正文檔出現頻率(A)、負文檔出現頻率(B)、正文檔不出現頻率)、負文檔不出現頻率。

1.3 計算每個詞的卡方值,公式如下:

卡方公式

1.4 將每個詞按卡方值從大到小排序,選取前k個詞作為特征,k即特征維數。

在文本分類的特征選擇階段中,我們主要關心一個問題:詞條t與類別C是否相互獨立
1)相互獨立,說明詞條t對類別c完全沒有表征能
2)不獨立,說明詞條t對類別c有一定的表征能力

卡方檢驗的缺點是:它只統計文檔是否出現詞,而不管出現了幾次。這會使得他對低頻詞有所偏袒(因為它夸大了低頻詞的作用)。

多分類中也是能夠運用卡方校驗進行特征選擇

image.png

式中n為總例數;A為各觀察值;nR和nC為與各A值相應的行和列合計的總數。

參考博客
[ https://www.cnblogs.com/liyongzhao/articles/3369117.html ]

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容