線性模型 (Linear Model) :
原理
3.1 線性回歸
- 最小均方誤差(square loss) - 即是 最小二乘的參數估計
- 當變量數據超過樣本數據時(解線性方法時變量過多,會出現多組解),選擇哪一個解作為輸出將由學習算法的歸納偏好決定,常見的做法是引入正則化 (regularization)項。
3.2 對數幾率回歸(logistic regression)
- 分類:只需要找到一個單調可微函數將分類任務的真實標記y與線性回歸模型的預測值聯系起來。
- Sigmoid函數
3.3 線性判別分析(Linear Discriminant Analysis, LDA)
- LDA基本思想: 給定訓練樣例集,設法將樣例投影到一條直線上,使得同類樣例的投影點盡可能接近,異類樣例的投影點盡可能遠離;在對新樣本進行分類時,將其投影到同樣的這條直線上,再根據投影點的位置來確定新樣本的類別。
3.4 類別不平衡問題
- 再縮放(rescaling):“訓練集是真實樣本的無偏采樣”這個假設往往不成立,也就是說,我們未必能有效地基于訓練集觀測幾率推斷出真實幾率。
- 解決方法:
- 欠采樣(undersampling):EasyEnsemble算法
- 過采樣(oversampling):SMOTE算法
- 閾值移動(threashold-moving)