第十課 特征選擇

筆記:http://lib.csdn.net/article/machinelearning/1079

本講大綱:

1.VC維(VC dimension)
2.模型選擇(model selection)
—交叉驗證(cross validation)
—特征選擇(feature selection)

1. VC維

VC(H)代表可以在任意標簽的情況下仍可以被線性分割的最大集合。
在2D情況下,VC(H)=3。
在VC維的定義下,為了證明VC(H)至少是d,我們要證明H能分開至少一個大小為d的集合.

重要定理:


換句話來說,如果猜想有有限的VC維,當m足夠大時會有一致收斂性

推論:


換句話說,用H訓練好的訓練樣本數量和VC維是線性的.結果表明,對大部分的猜想類,VC維(假設合理的參數化)和參數的數量大致也是線性相關的.把這兩個放到一起,可以說(對于最小化訓練誤差的算法來說)需要的訓練樣本的數量大致和參數的類型是線性的.

VC維到底有什么用?
如果假設空間中的hypothesis數是固定的,經過證明可以得到:


也就是說,H有限且m很大時,真實誤差的上界是有限的,也就是說,通過訓練,我們可以接近真實誤差,從理論上說明機器是有學習能力的。
但是如果H無窮大呢?
因此又證明了如下公式:

這樣真是誤差就與H無關,而與VC(H)有關了。所以說,VC維是用來證明誤差的上界的,知道常用的分類的誤差上界,就會對分類器的分類效果有進一步的認識,從而選擇最優的分類器。

</br>

2. 模型選擇

然而VC維在理論上證明誤差上界,可是真實誤差有時候和理論上的誤差有一定差距,所以常用的模型選擇方法有

  • CV(Cross-validation) 最常用,且易理解
  • AIC(Akaike Information Criterion)
  • BIC(Bayesian Information Critrion)

**交叉驗證(Cross-validation) **

假設我們有一個有限的模型集合
我們要從這些模型中做出選擇,例如我們要從SVM,神經網絡或者是邏輯回歸中做出選擇,那么我們的模型集合就要包含這些模型.
  • 保留交叉驗證
    a. 隨機把訓練集S分成兩個子集,Strain(70%)和Scv(30%).Scv是保留驗證集。
    b. 用Strain訓練每個模型,得到猜想hi.
    c. 選擇在交叉驗證集中有最小錯誤的猜想。
    </br>
    交叉驗證的缺點是浪費了30%的數據,即使我們最后用整個訓練集去訓練模型. 在數據充足并且很容易獲得的情況下,這是好的,但是如果數據是很稀少的,我們需要采用另外一種方式了.

  • k-fold交叉驗證
    a. 隨機把S分成k個子集,每個有m/k個訓練樣本,為S1,…,Sk;
    b. 對每個模型,我們這樣評價:


    c. 選擇具有最低估計泛化誤差的模型,并且用整個數據集對模型進行訓練,最后輸出的猜想就是我們的答案.
    一個對fold典型的選擇是k=10.

  • 留一交叉驗證
    當數據非常稀有時,極端的選擇是把k=m,為了盡可能使留下來的數據少,這種情況下我們會用除了一個之外的數據集進行訓練,剩下的用來測試,k個錯誤的平均值用來作為模型的估計泛化誤差.
    即使這在邊說的是交叉驗證用來進行模型選擇,但是只有單個模型時也可以用來評價模型的好壞.

特征選擇
工程上的方法:
參考:https://www.zhihu.com/question/28641663/answer/41653367

  1. 計算每一個特征與響應變量的相關性:工程上常用的手段有計算皮爾遜系數和互信息系數,皮爾遜系數只能衡量線性相關性而互信息系數能夠很好地度量各種相關性,但是計算相對復雜一些,好在很多toolkit里邊都包含了這個工具(如sklearn的MINE),得到相關性之后就可以排序選擇特征了;
  2. 構建單個特征的模型,通過模型的準確性為特征排序,借此來選擇特征,另外,記得JMLR'03上有一篇論文介紹了一種基于決策樹的特征選擇方法,本質上是等價的。當選擇到了目標特征之后,再用來訓練最終的模型;
  3. 通過L1正則項來選擇特征:L1正則方法具有稀疏解的特性,因此天然具備特征選擇的特性,但是要注意,L1沒有選到的特征不代表不重要,原因是兩個具有高相關性的特征可能只保留了一個,如果要確定哪個特征重要應再通過L2正則方法交叉檢驗;
  4. 訓練能夠對特征打分的預選模型:RandomForest和Logistic Regression等都能對模型的特征打分,通過打分獲得相關性后再訓練最終模型;
  5. 通過特征組合后再來選擇特征:如對用戶id和用戶特征最組合來獲得較大的特征集再來選擇特征,這種做法在推薦系統和廣告系統中比較常見,這也是所謂億級甚至十億級特征的主要來源,原因是用戶數據比較稀疏,組合特征能夠同時兼顧全局模型和個性化模型,這個問題有機會可以展開講。
  6. 通過深度學習來進行特征選擇:目前這種手段正在隨著深度學習的流行而成為一種手段,尤其是在計算機視覺領域,原因是深度學習具有自動學習特征的能力,這也是深度學習又叫unsupervised feature learning的原因。從深度學習模型中選擇某一神經層的特征后就可以用來進行最終目標模型的訓練了。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,825評論 6 546
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,814評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 178,980評論 0 384
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 64,064評論 1 319
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,779評論 6 414
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,109評論 1 330
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,099評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,287評論 0 291
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,799評論 1 338
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,515評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,750評論 1 375
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,221評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,933評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,327評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,667評論 1 296
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,492評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,703評論 2 380

推薦閱讀更多精彩內容