傳統(tǒng)機器學(xué)習(xí) 一、樸素貝葉斯樸素貝葉斯(na?ve Bayes)法是基于貝葉斯定理與特征條件獨立假設(shè)的分類方法。對于給定的訓(xùn)練數(shù)據(jù)集,首先基于特征條件獨立假設(shè)學(xué)習(xí)輸入/輸出的...

特征選擇 1、TF-IDF原理TF-IDF(Term Frequency-Inverse Document Frequency)是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或...
特征提取 一、基本文本處理 1. 分詞 分詞即將句子拆分成常見的詞語組合。 中文分詞根據(jù)實現(xiàn)原理和特點,主要分為基于詞典分詞算法和基于統(tǒng)計的機器學(xué)習(xí)算法。 我們主要討論基于詞...
IMDB數(shù)據(jù)集探索 數(shù)據(jù)探索與分析。鏈接:https://github.com/XinToWorld/NLP-/blob/master/IMDB%E7%BB%83%E4%B9...