機(jī)器學(xué)習(xí)：K近鄰算法

本文來(lái)自同步博客。

P.S. 不知道簡(jiǎn)書(shū)怎么顯示數(shù)學(xué)公式以及更好的排版內(nèi)容。所以如果覺(jué)得文章下面格式亂的話(huà)請(qǐng)自行跳轉(zhuǎn)到上述鏈接。后續(xù)我將不再對(duì)數(shù)學(xué)公式進(jìn)行截圖，畢竟行內(nèi)公式截圖的話(huà)排版會(huì)很亂。看原博客地址會(huì)有更好的體驗(yàn)。

本文內(nèi)容介紹機(jī)器學(xué)習(xí)的K近鄰算法，用它處理分類(lèi)問(wèn)題。分類(lèi)問(wèn)題的目標(biāo)是利用采集到的已經(jīng)經(jīng)過(guò)分類(lèi)處理的數(shù)據(jù)來(lái)預(yù)測(cè)新數(shù)據(jù)屬于何種類(lèi)別。

K近鄰算法

K近鄰算法對(duì)給定的某個(gè)新數(shù)據(jù)，讓它與采集到的樣本數(shù)據(jù)點(diǎn)分別進(jìn)行比較，從中選擇最相似的K個(gè)點(diǎn)，然后統(tǒng)計(jì)這K個(gè)點(diǎn)中出現(xiàn)的各個(gè)類(lèi)別的頻數(shù)，并判定頻數(shù)最高的類(lèi)別作為新數(shù)據(jù)所屬的類(lèi)別。

這里有個(gè)問(wèn)題是如何判定樣本數(shù)據(jù)與新數(shù)據(jù)是否相似。常用的一種計(jì)算方法叫歐幾里得距離。

歐幾里得距離（Euclidean Distance）

假設(shè)有兩個(gè)數(shù)據(jù)分別是： $- X = (x\_1,x\_2,...,x\_n) -$ 和 $- Y = (y\_1,y\_2,...,y\_n) -$ 。則 $-X-$ 與 $-Y-$ 的距離為：

$D = \sqrt{\sum\_{i=1}^{n}(x\_i-y\_i)^2}$

用Python實(shí)現(xiàn)這個(gè)式子代碼如下：

def euclidean_distance(x, y):
    if len(x) != len(y):
        warnings.warn('Input error')
    return sqrt( sum( [(x[i] - y[i])**2 for i in range(0, len(x))] ) )

print(euclidean_distance([1,2,3], [2,4,5]))

NumPy提供則可以用下面方法計(jì)算兩個(gè)ndarray的距離：

np.linalg.norm(np.array([1,2,3]) - np.array([2,4,5]))

實(shí)現(xiàn)K近鄰算法

接下來(lái)依照上面描述的算法原理實(shí)現(xiàn)K近鄰算法。先定義一下輸入數(shù)據(jù)的格式：

#二維測(cè)試數(shù)據(jù)的格式
dataset = {'k': [[1,2],[2,3],[3,1]], 'r':[[6,5],[7,7],[8,6]]}
new_features = [5,7]

我們假定樣本數(shù)據(jù)的結(jié)構(gòu)如dataset為一個(gè)字典類(lèi)型的數(shù)據(jù)，字典的元素的關(guān)鍵字為類(lèi)型名稱(chēng)，元素值為一個(gè)包含該類(lèi)型所有樣本點(diǎn)的列表。新數(shù)據(jù)為一個(gè)數(shù)據(jù)點(diǎn)。

所以K近鄰算法的實(shí)現(xiàn)如下：

# KNN實(shí)現(xiàn)
def k_nearest_neighbors(data, predict, k=3):
    if len(data) >= k:
        warnings.warn('K less than total voting groups')
    # 計(jì)算距離
    distances = []
    for group in data:
        for features in data[group]:
            #distance = euclidean_distance(features, predict)
            distance = np.linalg.norm(np.array(features)-np.array(predict))
            distances.append([distance, group])
    # 排序后取前k項(xiàng)數(shù)據(jù)類(lèi)別構(gòu)成新數(shù)組
    votes = [i[1] for i in sorted(distances)[:k]]
    # 統(tǒng)計(jì)數(shù)組中頻數(shù)最高的類(lèi)別
    vote_result = Counter(votes).most_common(1)[0][0]
    return vote_result

# 調(diào)用KNN
result = k_nearest_neighbors(dataset, new_features, k=3)
print(result)

使用真實(shí)數(shù)據(jù)測(cè)試

在UCI網(wǎng)站的機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中可以找到Breast Cancer Wisconsin(Original)的真實(shí)統(tǒng)計(jì)數(shù)據(jù)。數(shù)據(jù)可以從這個(gè)鏈接下載，數(shù)據(jù)的描述可以看這個(gè)鏈接。

看到數(shù)據(jù)描述中提到了數(shù)據(jù)每一列的定義如下：

乳癌數(shù)據(jù)描述

這份數(shù)據(jù)的預(yù)測(cè)目標(biāo)是判斷給定特征數(shù)據(jù)對(duì)應(yīng)的乳癌情況，2表示良性、4表示惡性。

根據(jù)描述我們先處理一下下載到的數(shù)據(jù)，給它的每一列加上個(gè)列名。這樣在Python里面就可以把它當(dāng)成一個(gè)CSV文件處理。我這里把它保存到了一個(gè)名為breast-cancer-wisconsin.data的文件里。形狀如下：

數(shù)據(jù)格式

數(shù)據(jù)里面還有一些統(tǒng)計(jì)不到的數(shù)據(jù)，用英文問(wèn)號(hào)?表示。還有一個(gè)很奇怪的現(xiàn)象是數(shù)據(jù)讀取進(jìn)來(lái)后有些數(shù)字會(huì)被處理成字符串類(lèi)型，如'1'這樣的數(shù)據(jù)。這些都需要我們提前處理一下。

df = pd.read_csv('./dataset/breast-cancer-wisconsin.data')
# 處理問(wèn)號(hào)
df.replace('?', -99999, inplace=True)
# id字段不應(yīng)該當(dāng)成一個(gè)統(tǒng)計(jì)特征字段，因此去除該列的內(nèi)容
df.drop(['id'], 1, inplace=True)
# 源數(shù)據(jù)有部分?jǐn)?shù)據(jù)是字符串，如'1'，這對(duì)我們的模型有影響，所以整理一下類(lèi)型
# 用列表存放數(shù)據(jù)
full_data = df.astype(float).values.tolist()
random.shuffle(full_data) # 洗亂數(shù)據(jù)

接下來(lái)生成訓(xùn)練數(shù)據(jù)集和統(tǒng)計(jì)數(shù)據(jù)集，代碼如下：

# 生成訓(xùn)練數(shù)據(jù)集和統(tǒng)計(jì)數(shù)據(jù)集
test_size = 0.2
train_set = {2:[], 4:[]} # 訓(xùn)練集，占80%
test_set = {2:[], 4:[]} # 統(tǒng)計(jì)集，占20%
train_data = full_data[:-int(test_size*len(full_data))]
test_data = full_data[-int(test_size*len(full_data)):]
for i in train_data:
    train_set[i[-1]].append(i[:-1])
for i in test_data:
    test_set[i[-1]].append(i[:-1])

最后，利用上述KNN函數(shù)統(tǒng)計(jì)測(cè)試數(shù)據(jù)的準(zhǔn)確性。

correct = 0
total = 0
for group in test_set:
    for data in test_set[group]:
        vote = k_nearest_neighbors(train_set, data, k=5)
        if group == vote:
            correct += 1
        total += 1
# 打印結(jié)果
print('correct: ', correct)
print('total: ', total)
print('Accuracy: ', correct/total)

完整代碼請(qǐng)查看github鏈接。

sklearn的K近鄰算法

同樣需要先處理一下數(shù)據(jù)并生成符合sklearn的輸入格式的數(shù)據(jù)集。

from sklearn import model_selection
# 讀取乳癌統(tǒng)計(jì)數(shù)據(jù)
df = pd.read_csv('./dataset/breast-cancer-wisconsin.data')
# 處理問(wèn)號(hào)
df.replace('?', -99999, inplace=True)
# 因?yàn)镮D字段與分類(lèi)無(wú)關(guān)，所以去除他先，稍后我們看一下它的影響
df.drop(['id'], 1, inplace=True)
df = df.astype(float)

# 生成數(shù)據(jù)集
X = np.array(df.drop(['class'], 1))
y = np.array(df['class'])
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=0.2)

然后生成KNN模型對(duì)象，用數(shù)據(jù)訓(xùn)練模型，評(píng)估模型準(zhǔn)確性。

from sklearn import neighbors
# 構(gòu)建模型與訓(xùn)練
clf = neighbors.KNeighborsClassifier()
clf.fit(X_train, y_train)

# 計(jì)算精確度
accuracy = clf.score(X_test, y_test)
print('Accuracy: ', accuracy)

# 預(yù)測(cè)我們自己構(gòu)造的數(shù)據(jù)屬于哪個(gè)類(lèi)型
example_measures = np.array([[4,2,1,1,1,2,3,2,1],[2,3,4,4,1,2,3,4,1]])
prediction = clf.predict(example_measures)
print('Predict resuct: ', prediction)

完整代碼請(qǐng)查看github鏈接。

最后編輯于：2018.07.09 15:27:31

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書(shū)系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,501評(píng)論 6贊 544
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 99,673評(píng)論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人，你說(shuō)我怎么就攤上這事。” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 178,610評(píng)論 0贊 383
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 63,939評(píng)論 1贊 318
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 72,668評(píng)論 6贊 412
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 56,004評(píng)論 1贊 329
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 44,001評(píng)論 3贊 449
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 43,173評(píng)論 0贊 290
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 49,705評(píng)論 1贊 336
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 41,426評(píng)論 3贊 359
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 43,656評(píng)論 1贊 374
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,139評(píng)論 5贊 364
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,833評(píng)論 3贊 350
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 35,247評(píng)論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 36,580評(píng)論 1贊 295
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 52,371評(píng)論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 48,621評(píng)論 2贊 380

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

機(jī)器學(xué)習(xí)：K近鄰算法

機(jī)器學(xué)習(xí)：K近鄰算法

K近鄰算法

歐幾里得距離（Euclidean Distance）

實(shí)現(xiàn)K近鄰算法

使用真實(shí)數(shù)據(jù)測(cè)試

sklearn的K近鄰算法

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

機(jī)器學(xué)習(xí)：K近鄰算法

K近鄰算法

歐幾里得距離（Euclidean Distance）

實(shí)現(xiàn)K近鄰算法

使用真實(shí)數(shù)據(jù)測(cè)試

sklearn的K近鄰算法

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频