預備知識
令 表示輸入數據
的數據空間, 被稱為輸入空間 (input space).
是一個映射, 令
表示特征空間 (feature space).
- 數據實例
可以任意對象, 如文本, 序列, 圖像, 字符串等;
- 對于給定的數據實例
,
是一個向量, 被稱為特征向量.
內積運算 定義為
上的核函數 為 , 即
令 為輸入空間中包含
個對象的數據集, 則將
中的點對間的核函數 (亦稱為相似度函數, 或核) 表示為一個
的核矩陣, 定義為
核方法避免了顯式地將輸入空間中的每個點 變換到特征空間中的映射點
, 而是直接通過核矩陣來獲取. 這樣,所有的相關分析均可轉移到對核矩陣的研究上來. 當然, 核矩陣也可以看作對應
個輸入點的完全圖的帶權鄰接矩陣.
對于輸入空間中的任一 , 都被映射到如下函數 (被稱為再生核映射):
其中 代表
中任一參數. 這意味著輸入空間中的每一個對象
都映射到一個特征點
, 該特征點事實上是一個函數
, 代表了該點與輸入空間
中其他點的相似度.
令
代表能夠由特征點的任意子集的線性組合得到的所有函數點或點的集合.
對于 為特征空間中任意兩點:
定義這兩個點的內積為
易證 是希爾伯特空間,
具有再生性質 (reproducing property), 即可以通過取
和
的內積來計算一個函數
在一個點
上的值:
由此, 也被稱為再生希爾伯特空間.
再生核映射 將輸入空間映射到一個可能是無限維的特征空間中, 然而, 給定一個數據集
, 可以只計算
中的點核, 從而得到一個有限維的映射, 即定義經驗核映射
如下:
故而
其中 代表核矩陣
的第
列.
設 為參數向量, 基函數向量為
在統計學中, 通常把基于參數的線性模型稱為參數模型, 把核模型稱為非參數模型.
與參數相關的非線性模型, 稱為非線性模型 (如層級模型).
- 線性模型:
- 層級模型:
其中, 是含有參數
的基函數.
若基函數 內積運算, 則可將線性模型轉換為核模型;把
替換為核函數, 則是核模型; 把
當作超參數, 則是線性模型.
最小二乘學習法 (Least Squares)
模型假設: , 定義損失函數為
學習目標:
如果使用線性模型的話, 可以轉換為
這里 ,
被稱為設計矩陣:
由 , 便得出最小二乘解
亦即
其中 表示
的偽逆, 若
可逆時, 有
.
帶有約束條件的最小二乘學習法
可微分的凸函數
和
的約束條件的最小化問題
的拉格朗日對偶問題, 可以使用拉格朗日乘子 和拉格朗日函數
采用以下方式進行定義:
拉格朗日對偶問題的 的解, 與原問題的解是一致的.
下面探討線性模型:
的帶約束的最小二乘法.
部分空間約束
約束條件
這里, 滿足
, 表示
的值域
的正交投影矩陣. 約束條件
使得參數
不會偏移值域
的范圍外.
該問題的最小二乘解為
約束
約束條件
是以參數空間的圓點為圓心, 在一定半徑范圍的超球內進行求解的. 利用其拉格朗日對偶問題為
該問題的最小二乘解為
矩陣 提高了其正則性, 進而可以更穩定地進行逆矩陣的求解. 因此,
約束的最小二乘法也稱為
正則化的最小二乘法或稱為嶺回歸.
將約束條件改為
稱為一般 約束的最小二乘法. 當矩陣
為正定矩陣時,
可以把數據限制在橢球內.
該問題的最小二乘解為
稀疏學習
模型假設:
模型假設: , 定義損失函數為
學習目標:
約束條件為
對于 范數的處理,
即使用可微分的二次函數來控制 范數
原問題可化為
其中
是對角元為
的對角矩陣,
是不依賴于
的常數.
對于有參數的線性模型
該問題的最小二乘解為
使用隨機梯度下降法求解
對于有參數的線性模型 , 使用隨機選擇的樣本
按下式對其參數進行更新:
為了得到隨機梯度下降法的稀疏解, 建議在多次進行梯度下降的過程中, 對各個參數值 進行如下的值域處理
約束的最小二乘法
, 約束條件是
-
,
-
, 有
其中
也就是說, 范數表示的是非零的向量的元素個數.
詳細見彈性網回歸學習法.
魯棒學習
在統計學和機器學習領域, 對異常值也能保持穩定、可靠的性質, 稱為魯棒性.
當訓練樣本中混入了異常值時往往希望采用先除去這些異常值再進行學習的方法 (異常檢驗), 或者采用保留異常值, 但結果不易受異常值影響的方法 (魯棒學習方法).
損失最小化學習
最小二乘學習中, 對訓練樣本的合理性, 一般使用 損失
來測定.
這里 為殘差. 但是
損失對異常值很敏感, 故而可以使用
損失對殘差的增幅加以抑制
這里 是 Least Absolute 的縮寫.
Huber 損失最小化學習
Huber 損失
- 如果殘差的絕對值 |r| 小于閾值
的話 (即正常值), 上式就變成了
損失;
- 如果殘差的絕對值 |r| 大于閾值
的話 (即異常值), 上式就變成了
損失, 但是, 為了使與
平滑地連接, 在
損失中減去了常數
這樣的學習方法就是 Huber 損失最小化學習.