簡(jiǎn)述:將新數(shù)據(jù)的每個(gè)特征與樣本集中數(shù)據(jù)對(duì)應(yīng)的特征進(jìn)行比較,然后算法提取樣本集中特征最相似數(shù)據(jù)(前K個(gè))的分類(lèi)標(biāo)簽,選擇前K個(gè)中出現(xiàn)次數(shù)最多的分類(lèi),作為新數(shù)據(jù)的分類(lèi)。
用于回歸:將K個(gè)樣本的實(shí)值平均,還可基于距離遠(yuǎn)近進(jìn)行加權(quán)平均或加權(quán)投票
優(yōu)點(diǎn):精度高、異常值不敏感、無(wú)數(shù)據(jù)輸入假定
缺點(diǎn):計(jì)算復(fù)雜度高、空間復(fù)雜度高
適用數(shù)據(jù)范圍:數(shù)值型和標(biāo)稱(chēng)型
歸一化數(shù)值為了提高準(zhǔn)確度
因?yàn)镵-近鄰算法的計(jì)算復(fù)雜度實(shí)在太高,K決策樹(shù)是K近鄰算法的優(yōu)化版
KNN雖然簡(jiǎn)單,但它的泛化錯(cuò)誤率不超過(guò)貝葉斯最優(yōu)分類(lèi)器的錯(cuò)誤率的兩倍