注:因為簡書的公式輸入不便以及排版等等種種問題,這里僅僅轉載了文字部分。建議你移步至我的博客閱覽:KAAAsS‘s Blog - 簡明機器學習教程
本篇教程的目標很明顯,就是實踐。進一步的來說,就是,當你學到了一些關于機器學習的知識后,怎樣通過實踐以加深對內容的理解。這里,我們從李航博士的《統計學習方法》的第2章感知機來做例子,由此引出大致的學習方法。需要注意的是,這篇教程并不是來介紹感知機模型的,而是用來說明如何學習并實踐一個模型的,所以對感知機的解釋不會很詳細。本篇教程的內容較基礎,內容主要面向對機器學習有興趣且有初步了解的人。由于本文目標人群特殊,加之作者水平實在有限,有表述不嚴謹或錯誤之處,還請各路大神多多指出。本篇需要讀者的準備:matlab(測試模型用)、熱愛機器學習的大腦(啊喂我的嚴肅氣氛!)。
首先:了解模型
模型類型
當我們在學習一個模型時,很重要的一點就是我們要了解這個模型的作用,以及其適用的情況。下面我們就來分析感知機:
感知機(perceptron)是二類分類的線性分類模型,其輸入為實例的特征向量,輸出為實例的類別,取+1和-1二值。開篇第一句,我們就能對這個模型建立起一個大概的框架了。首先,感知機是一個二類分類模型,也就是說感知機只能分類出兩個類別。其次,感知機是線性的分類模型,也就是說感知機這個模型所適用的數據必須是線性可分的。到此為止,對于感知機的適用范圍,我們已經知道了不少:首先,感知機是判別模型,適用于分類問題,且可以區分的類別數為2類;其次,感知機是線性分類模型。如果你還是不理解感知機適用的問題類型,那我在這里舉個例子:在二維的情況下,感知機相當于在平面上劃一根線,從而把平面分成兩半;在三維的情況下,感知機相當于拿一把菜刀在空間里切一刀,從而把空間分為兩類。這兩句話在其適用范圍內,等價于下面這句話:感知機對應于輸入空間(特征空間)中將實例劃分為正負兩類的分離超平面(三維下是“菜刀”),屬于判別模型。
模型
下式即感知機模型中,將輸入空間映射到輸出空間的函數:
w就是模型的權值(weight),又稱權重;b即偏置(bias)。其中的sign函數定義如下(有些地方作:sgn):
需要注意的是,一般情況下,sign(0)的值是0。這里為了保證模型輸出為+1或-1,故規定sign(0)=+1。根據模型,我們不難看出感知機的幾何意義。線性方程
就是分開空間的超平面。其中,w是平面的一個法向量(幾何上),b就是其截距。
訓練
損失函數
簡而言之,最小化損失函數。首先,定義(經驗)損失函數(詳細過程請見原書2.2.2 P27):
損失函數,可以理解為是對感知機模型錯誤分類程度的評估函數。有了損失函數,我們就可以將訓練感知機問題轉化為極小化損失函數問題。
普通形式——梯度下降
這里,我們采用梯度下降法(gradient descent)的變式隨機梯度下降法(Stochastic Gradient Descent)進行極小化。關于兩種算法的關系、優劣均不在本文討論范圍內,故省略。偏導求解梯度:
算法步驟如下:
選擇初始超平面S,即選擇
。
隨機選擇一個誤分類點
,更新w、b。其中,α 是每次迭代的步長,又稱為學習率。
重復2,直到無分類點為止。
不難發現,若數據集是線性可分的,那么損失函數最終將會等于0。
實踐
代碼是徹底沒辦法放上去了QAQ,請移步至博客:KAAAsS‘s Blog - 簡明機器學習教程
訓練效果:
感知機第3次迭代
感知機第5次迭代
感知機第9次迭代
感知機最后結果