nndl 讀書筆記 第3章 線性模型

github開源:https://nndl.github.io/
nndl作者:邱錫鵬
筆記作者:Isaac.(原創)

本書其他章節的筆記目錄

線性模型(Linear Model)是機器學習中應用最廣泛的模型,指通過樣本特征的線性組合來進行預測的模型。

分類問題中,由于輸出目標 y 是一些離散的標簽,而 f(x; w)的值域為實數,因此無法直接用 f(x; w)來進行預測,需要引入一個非線性的決策函數(Decision Function)g(·)來預測輸出目標。

其中 f(x; w)也稱為判別函數(Discriminant Function)

對于兩類分類問題,比較典型的非線性決策函數g(·)可以是符號函數(Sign Function)。

目錄結構

3.1 線性判別函數和決策邊界
3.1.1 兩類分類
3.1.2 多類分類
3.2 Logistic回歸
3.2.1 參數學習
3.3 Softmax回歸
3.3.1 參數學習
3.4 感知器
3.4.1 參數學習
3.4.2 感知器的收斂性
3.4.3 參數平均感知器
3.4.4 擴展到多類分類
3.5 支持向量機
3.5.1 參數學習
3.5.2 核函數
3.5.3 軟間隔
3.6 損失函數對比
3.7 總結和深入閱讀

3.1 線性判別函數和決策邊界

一個線性分類模型(Linear Classification Model)或線性分類器(Linear Classifier),是由一個(或多個)線性的判別函數 f(x; w) = wTx + b 和非線性的決策函數 g(·)組成。

3.1.1 兩類分類

兩類分類(Binary Classification)的類別標簽 y 只有兩種取值,通??梢栽O為 {+1, -1}。

在兩個分類中,我們只需要一個線性判別函數 f(x; w) = wTx + b。特征空間Rd 中所有滿足 f(x; w) = 0的點組成用一個分割超平面(Hyperplane),稱為決策邊界(Decision Boundary)決策平面(Decision Surface)。決策邊界將特征空間一分為二,劃分成兩個區域,每個區域對應一個類別。

所謂“線性分類模型”就是指其決策邊界是線性超平面

兩類分類的決策邊界示例

3.1.2 多類分類

多類分類(Multi-class Classification)問題是指分類的類別數 C 大于 2。多類分類一般需要多個線性判別函數。

  1. “一對其余”方式:把多類分類問題轉換為 C 個“一對其余”的兩類分類問題。這種方式共需要C 個判別函數,其中第c個判別函數fc 是將類c的樣本和不屬于類 c的樣本分開。

  2. “一對一”方式:把多類分類問題轉換為 C(C - 1)/2個“一對一”的兩類分類問題。這種方式共需要 C(C - 1)/2個判別函數,其中第 (i, j)個判別函數是把類 i和類 j 的樣本分開。

  3. “argmax”方式:這是一種改進的“一對其余”方式,共需要 C 個判別函數

如果存在類別c,對于所有的其他類別 ? (? ≠ c)都滿足

那么 x 屬于類別 c。即

“一對其余”方式和“一對一”方式都存在一個缺陷:特征空間中會存在一些難以確定類別的區域,而“argmax”方式很好地解決了這個問題。

三個多類分類方式

argmax()函數簡單的說就是取最大值的自變量。

  • y = max f(t) 代表:y 是f(t)函式所有的值中最大的output。
  • y = argmax f(t) 代表:y 是f(t)函式中,會產生最大output的那個參數t。

3.2 Logistic回歸

Logistic回歸(Logistic Regression, LR)是一種常用的處理兩類分類問題線性模型。

為了解決連續的線性函數不適合進行分類的問題,我們引入非線性函數 g :Rd → (0, 1)來預測類別標簽的后驗概率 p(y = 1|x)。

其中g(·)通常稱為激活函數(Activation Function),其作用是把線性函數的值域從實數區間“擠壓”到了(0, 1)之間,可以用來表示概率。

在 Logistic回歸中,我們使用 Logistic函數來作為激活函數。

3.2.1 參數學習

Logistic 回歸采用交叉熵作為損失函數,并使用梯度下降法來對參數進行優化。

Logistic函數具有如下的特性:當x趨近于負無窮時,y趨近于0;當x趨近于正無窮時,y趨近于1;當x= 0時,y=0.5。Logistic函數是Sigmoid函數的一種。

理解 logistic 回歸 寫的很好

3.3 Softmax回歸

Softmax 回歸(Softmax Regression),也稱為多項(multinomial)或多類(multi-class)的 Logistic回歸,是 Logistic回歸在多類分類問題上的推廣。

對于多類問題,類別標簽 y ∈ {1, 2, · · · , C}可以有 C 個取值。給定一個樣本x,Softmax回歸預測的屬于類別 c的條件概率為:

當類別數 C = 2時,Softmax回歸的決策函數就是Logistic函數。

3.3.1 參數學習

Softmax回歸使用交叉熵損失函數來學習最優的參數矩陣 W。

小白都能看懂的softmax詳解

3.4 感知器

感知器(Perceptron) 是一種廣泛使用的線性分類器。感知器可謂是最簡單的人工神經網絡,只有一個神經元。

3.4.1 參數學習

給出了感知器參數學習的更新過程,其中紅色實心點為正例,藍色空心點為負例。黑色箭頭表示權重向量,紅色虛線箭頭表示權重的更新方向。

感知器參數學習的更新過程

3.4.2 感知器的收斂性

雖然感知器在線性可分的數據上可以保證收斂,但其存在以下不足之處:

  1. 在數據集線性可分時,感知器雖然可以找到一個超平面把兩類數據分開,但并不能保證能其泛化能力。

  2. 感知器對樣本順序比較敏感。每次迭代的順序不一致時,找到的分割超平面也往往不一致。

  3. 如果訓練集不是線性可分的,就永遠不會收斂

3.4.3 參數平均感知器

感知器并不能保證找到的判別函數是最優的(比如泛化能力高),這樣可能導致過擬合。

感知器的學習到的權重向量和訓練樣本的順序相關。在迭代次序上排在后面錯誤樣本,比前面錯誤樣本對最終的權重向量影響更大

比如有 1, 000個訓練樣本,在迭代 100 個樣本后,感知器已經學習到一個很好的權重向量。在接下來的 899個樣本上都預測正確,也沒有更新權重向量。但是在最后第 1, 000個樣本時預測錯誤,并更新了權重。這次更新可能反而使得權重向量變差。

為了改善這種情況,可以使用“參數平均”策略來提高感知器的魯棒性,也叫投票感知器(Voted Perceptron)

投票感知器記錄第 k 次更新后得到的權重 wk 在之后的訓練過程中正確分類樣本的次數 ck。

投票感知器雖然提高了感知器的泛化能力,但是需要保存 K 個權重向量。在實際操作中會帶來額外的開銷。

因此,人們經常會使用一個簡化的版本,也叫做平均感知器(Averaged Perceptron) 。

3.4.4 擴展到多類分類

略。

3.5 支持向量機

支持向量機(Support Vector Machine,SVM)是一個經典兩類分類算法,其找到的分割超平面具有更好的魯棒性,因此廣泛使用在很多任務上,并表現出了很強優勢。

給定一個兩類分類器數據集 D = {(x(n) , y(n) )}N n=1 ,其中 yn ∈ {+1, -1},如果兩類樣本是線性可分的,即存在一個超平面

將兩類樣本分開,那么對于每個樣本都有 y(n) ( wTx(n) + b ) > 0。

數據集 D 中每個樣本 x(n) 到分割超平面的距離為:

我們定義整個數據集 D 中所有樣本到分割超平面的最短距離為間隔(Margin),用 γ 來表示。

如果間隔 γ 越大,其分割超平面對兩個數據集的劃分越穩定,不容易受噪聲等因素影響。支持向量機的目標是尋找一個超平面 (w?, b?)使得 γ 最大

數據集中所有滿足 y(n) ( wTx(n) + b ) = 1 的樣本點,都稱為支持向量(Support Vector)

對于一個線性可分的數據集,其分割超平面有很多個,但是間隔最大的超平面是唯一的

支持向量機示例

3.5.1 參數學習

支持向量機的目標函數可以通過 SMO等優化方法得到全局最優解,因此比其它分類器的學習效率更高。

此外,支持向量機的決策函數只依賴于支持向量,與訓練樣本總數無關,分類速度比較快。

3.5.2 核函數

支持向量機還有一個重要的優點是可以使用核函數(Kernel Function)隱式地將樣本從原始特征空間映射到更高維的空間,并解決原始特征空間中的線性不可分問題。

3.5.3 軟間隔

在支持向量機的優化問題中,約束條件比較嚴格。如果訓練集中的樣本在特征空間中不是線性可分的,就無法找到最優解。

為了能夠容忍部分不滿足約束的樣本,我們可以引入松弛變量 ξ,引入松弛變量的間隔稱為軟間隔(Soft Margin)。

支持向量機很重要,這里寫的還是不夠詳細,這里面有幾篇其他人寫的文章鞏固一下知識點

SVM支持向量機入門及數學原理

支持向量機(SVM)從入門到放棄再到掌握

通俗易懂的支持向量機SVM

3.6 損失函數對比

除了平方損失,Logistic回歸損失函數、感知器的損失函數 、軟間隔支持向量機的損失函數 都比較適合于兩類分類問題 。

3.7 總結和深入閱讀

幾種不同的線性模型對比

本書其他章節的筆記目錄

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。