臺灣大學林軒田機器學習基石課程學習筆記5 -- Training versus Testing

上節課,我們主要介紹了機器學習的可行性。首先,由NFL定理可知,機器學習貌似是不可行的。但是,隨后引入了統計學知識,如果樣本數據足夠大,且hypothesis個數有限,那么機器學習一般就是可行的。本節課將討論機器學習的核心問題,嚴格證明為什么機器可以學習。從上節課最后的問題出發,即當hypothesis的個數是無限多的時候,機器學習的可行性是否仍然成立?

一、Recap and Preview

我們先來看一下基于統計學的機器學習流程圖:

該流程圖中,訓練樣本D和最終測試h的樣本都是來自同一個數據分布,這是機器能夠學習的前提。另外,訓練樣本D應該足夠大,且hypothesis set的個數是有限的,這樣根據霍夫丁不等式,才不會出現Bad Data,保證Ein≈Eout,即有很好的泛化能力。同時,通過訓練,得到使Ein最小的h,作為模型最終的矩g,g接近于目標函數。

這里,我們總結一下前四節課的主要內容:第一節課,我們介紹了機器學習的定義,目標是找出最好的矩g,使g≈f,保證Eout(g)≈0;第二節課,我們介紹了如何讓Ein≈0,可以使用PLA、pocket等演算法來實現;第三節課,我們介紹了機器學習的分類,我們的訓練樣本是批量數據(batch),處理監督式(supervised)二元分類(binary classification)問題;第四節課,我們介紹了機器學習的可行性,通過統計學知識,把Ein(g)與Eout(g)聯系起來,證明了在一些條件假設下,Ein(g)≈Eout(g)成立。

這四節課總結下來,我們把機器學習的主要目標分成兩個核心的問題:

1、Ein(g)≈Eout(g)

2、Ein(g)足夠小

上節課介紹的機器學習可行的一個條件是hypothesis set的個數M是有限的,那M跟上面這兩個核心問題有什么聯系呢?

我們先來看一下,當M很小的時候,由上節課介紹的霍夫丁不等式,得到Ein(g)≈Eout(g),即能保證第一個核心問題成立。但M很小時,演算法A可以選擇的hypothesis有限,不一定能找到使Ein(g)足夠小的hypothesis,即不能保證第二個核心問題成立。當M很大的時候,同樣由霍夫丁不等式,Ein(g)與Eout(g)的差距可能比較大,第一個核心問題可能不成立。而M很大,使的演算法A的可以選擇的hypothesis就很多,很有可能找到一個hypothesis,使Ein(g)足夠小,第二個核心問題可能成立。

從上面的分析來看,M的選擇直接影響機器學習兩個核心問題是否滿足,M不能太大也不能太小。那么如果M無限大的時候,是否機器就不可以學習了呢?例如PLA算法中直線是無數條的,但是PLA能夠很好地進行機器學習,這又是為什么呢?如果我們能將無限大的M限定在一個有限的mH內,問題似乎就解決了。

二、Effective Number of Line

我們先看一下上節課推導的霍夫丁不等式:

其中,M表示hypothesis的個數。每個hypothesis下的BAD eventsBm級聯的形式滿足下列不等式:

當M=∞時,上面不等式右邊值將會很大,似乎說明BAD events很大,Ein(g)與Eout(g)也并不接近。但是BAD eventsBm級聯的形式實際上是擴大了上界,union bound過大。這種做法假設各個hypothesis之間沒有交集,這是最壞的情況,可是實際上往往不是如此,很多情況下,都是有交集的,也就是說M實際上沒那么大,如下圖所示:

也就是說union bound被估計過高了(over-estimating)。所以,我們的目的是找出不同BAD events之間的重疊部分,也就是將無數個hypothesis分成有限個類別。

如何將無數個hypothesis分成有限類呢?我們先來看這樣一個例子,假如平面上用直線將點分開,也就跟PLA一樣。如果平面上只有一個點x1,那么直線的種類有兩種:一種將x1劃為+1,一種將x1劃為-1:

如果平面上有兩個點x1、x2,那么直線的種類共4種:x1、x2都為+1,x1、x2都為-1,x1為+1且x2為-1,x1為-1且x2為+1:

如果平面上有三個點x1、x2、x3,那么直線的種類共8種:

但是,在三個點的情況下,也會出現不能用一條直線劃分的情況:

也就是說,對于平面上三個點,不能保證所有的8個類別都能被一條直線劃分。那如果是四個點x1、x2、x3、x4,我們發現,平面上找不到一條直線能將四個點組成的16個類別完全分開,最多只能分開其中的14類,即直線最多只有14種:

經過分析,我們得到平面上線的種類是有限的,1個點最多有2種線,2個點最多有4種線,3個點最多有8種線,4個點最多有14(<24)種線等等。我們發現,有效直線的數量總是滿足≤2N,其中,N是點的個數。所以,如果我們可以用effective(N)代替M,霍夫丁不等式可以寫成:

已知effective(N)<2的N次方,如果能夠保證effective(N)<<2的N次方,即不等式右邊接近于零,那么即使M無限大,直線的種類也很有限,機器學習也是可能的。

三、Effective Number of Hypotheses

接下來先介紹一個新名詞:二分類(dichotomy)。dichotomy就是將空間中的點(例如二維平面)用一條直線分成正類(藍色o)和負類(紅色x)。令H是將平面上的點用直線分開的所有hypothesis h的集合,dichotomy H與hypotheses H的關系是:hypotheses H是平面上所有直線的集合,個數可能是無限個,而dichotomy H是平面上能將點完全用直線分開的直線種類,它的上界是2N。接下來,我們要做的就是嘗試用dichotomy代替M。

再介紹一個新的名詞:成長函數(growth function),記為mH(H)。成長函數的定義是:對于由N個點組成的不同集合中,某集合對應的dichotomy最大,那么這個dichotomy值就是mH(H),它的上界是2N:

成長函數其實就是我們之前講的effective lines的數量最大值。根據成長函數的定義,二維平面上,mH(H)隨N的變化關系是:

接下來,我們討論如何計算成長函數。先看一個簡單情況,一維的Positive Rays:

若有N個點,則整個區域可分為N+1段,很容易得到其成長函數mH(N)=N+1。注意當N很大時,(N+1)<<2N,這是我們希望看到的。

另一種情況是一維的Positive Intervals:

它的成長函數可以由下面推導得出:

這種情況下,mH(N)<<2N,在N很大的時候,仍然是滿足的。

再來看這個例子,假設在二維空間里,如果hypothesis是凸多邊形或類圓構成的封閉曲線,如下圖所示,左邊是convex的,右邊不是convex的。那么,它的成長函數是多少呢?

當數據集D按照如下的凸分布時,我們很容易計算得到它的成長函數mH=2N。這種情況下,N個點所有可能的分類情況都能夠被hypotheses set覆蓋,我們把這種情形稱為shattered。也就是說,如果能夠找到一個數據分布集,hypotheses set對N個輸入所有的分類情況都做得到,那么它的成長函數就是2N。

四、Break Point

上一小節,我們介紹了四種不同的成長函數,分別是:

其中,positive rays和positive intervals的成長函數都是polynomial的,如果用mH代替M的話,這兩種情況是比較好的。而convex sets的成長函數是exponential的,即等于M,并不能保證機器學習的可行性。那么,對于2D perceptrons,它的成長函數究竟是polynomial的還是exponential的呢?

對于2D perceptrons,我們之前分析了3個點,可以做出8種所有的dichotomy,而4個點,就無法做出所有16個點的dichotomy了。所以,我們就把4稱為2D perceptrons的break point(5、6、7等都是break point)。令有k個點,如果k大于等于break point時,它的成長函數一定小于2的k次方。

根據break point的定義,我們知道滿足mH(k)≠2k的k的最小值就是break point。對于我們之前介紹的四種成長函數,他們的break point分別是:

通過觀察,我們猜測成長函數可能與break point存在某種關系:對于convex sets,沒有break point,它的成長函數是2的N次方;對于positive rays,break point k=2,它的成長函數是O(N);對于positive intervals,break point k=3,它的成長函數是O(N2)。則根據這種推論,我們猜測2D perceptrons,它的成長函數mH(N)=O(Nk?1)。如果成立,那么就可以用mH代替M,就滿足了機器能夠學習的條件。關于上述猜測的證明,我們下節課再詳細介紹。

五、總結

本節課,我們更深入地探討了機器學習的可行性。我們把機器學習拆分為兩個核心問題:Ein(g)≈Eout(g)和Ein(g)≈0。對于第一個問題,我們探討了M個hypothesis到底可以劃分為多少種,也就是成長函數mH。并引入了break point的概念,給出了break point的計算方法。下節課,我們將詳細論證對于2D perceptrons,它的成長函數與break point是否存在多項式的關系,如果是這樣,那么機器學習就是可行的。

原文CSDN博客地址:

臺灣大學林軒田機器學習基石課程學習筆記5 -- Training versus Testing

注明:

文章中所有的圖片均來自臺灣大學林軒田《機器學習基石》課程。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,501評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,673評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,610評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,939評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,668評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,004評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,001評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,173評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,705評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,426評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,656評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,139評論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,833評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,247評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,580評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,371評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,621評論 2 380

推薦閱讀更多精彩內容