連載 | 機器學習基石 Lec 6:Bounding Function & VC bound

Tips:所有沒有進行解釋說明的符號含義均參照之前的章節Lec~

上一節介紹了級聯上限存在過分估計的問題,我們欲尋求一個多項式mH(N)取代M,并給出了成長函數、break point的定義,這節將證明如果存在break point ,成長函數會是多項式型的。


Lec 6:Theory of Generalization

先回顧一下四種成長函數,成長函數mH(N)代表dichotomies最大數量:


1、Restrict of Break Point

先通過一個小栗子感受一下break point會對dichotomies的數量有怎么樣的限制?

在k=2的情況下:

N = 1:顯然mH(N)=2;

N = 2:mH(N)<4,所以最多有3個dichotomies;

N = 3:k = 2代表不能shatter任意兩個data,我們分步驟來看,

1)顯然,只有1個dichotomy時,或有2個dichotomies時,,或有3個dichotomies時,一定不會shatter任意兩個data:

1 dichotomy
2 dichotomy


3 dichotomy

2)但是,當有4個dichotomies時,就可能會shatter兩個data,如下圖中x2和x3 shattered(可以這樣理解,shatter就是x2和x3所有可能的二元組合都能出現)

4 dichotomies,shatter

不過也會存在4個dichotomies時不shatter兩個data的情況,如:

4 dichotomies,no shatter

3)接著上面4個dichotomies不shatter的情況,繼續加入dichotomy,看5個dichotomies時會怎樣?x1、x2、x3一共有8種二元組合,所以此時5個dichotomies存在3種情況,發現分別都會shatter:

x1和x3 shatter
x1和x2 shatter
x1 和 x2 shatter

所以,在N=3,k=2時,最多會有4個dichotomies.

N = 2時,最多有3個,比4小一點;N = 3時,最多有4個,比8小的多一點!

似乎當N>k時,break point k 會限制mH(N)最大值的大小!

所以如果證明存在k限制的mH(N)最大值≤poly(N)就可以說明mH(N)是多項式型的。

2、Bounding Function:basic cases

定義一個新的函數B(N,K),maximum possible mH(N)when break point = k.

bounding function 與 H 的細節無關,只需要知道k.(個人是這樣理解的,dichotomies的數量其實就是二元組合的種類,h不同時,可能得到的dichotomies會有所不同,但是這里我們是表示最大的mH(N),所以可以拋開H的細節,專注于二元組合的最大值,即只需要知道k)例如B(N,3)可以bound住positive intervals(k=3),也可以bound住1D perceptron(k = 3)。

所以我們的new goal 是證明 B(N,k)≤ poly(N)?

先列出我們已經知道的B(N,k)的值。首先由上節已知(2,2)=3,(3,2)=4;

然后 k>N時,會shatter,則B(N,k)= 2的N次方;

還有就是對角線上面的值,N=k時,(2,2)取3時是選了一個比2的N次方小1的值(一定比2的N次方小,我們挑了一個比2的N次方小的數中最大的一個),其他對角值也如此取;

最后是第一列的值,一定都是1.至此,我們得到了B(N,k)表上一多半的值!其他值繼續看下一節。

basic cases

3、Bounding Function:inductive cases

我們要補全上一節的表。

先考慮B(4,3)這一格。猜測:B(4,3)只是比B(3,3)多了一個點,也許它們之間有著什么聯系?!

先給出B(4,3)的結果(這個結果完全可以用代碼全遍歷一遍得出),結果是11:

B(4,3)

下面看如何把B(4,3)reduce成B(3,3)?

先重新排列B(4,3)的dichotomies,如下圖所示。可以看出橘色部分的x1、x2、x3是“成雙成對”存在的,紫色部分是形單影只的。可以表示B(4,3) = 11 = 2 α + β .

B(4,3)

下面就是見證奇跡的時刻!

遮掉x4,只剩下x1、x2、x3,在(x1,x2,x3)上會有α + β個dichotomies,B(4,3)任意3個點都不會shatter,那么α + β個dichotomies也就不會shatter x1、x2、x3,所以 α + β ≤ B(3,3)

只看x1 x2 x3的橘色部分,應該任意兩個點不能shatter,why?假設此時 x1 x2 shatter,那么x1 x2 與 x4組合起來就會存在3個點shatter,就不滿足B(4,3),所以α不能shatter橘色部分的任意兩個點,可以得出 α ≤ B(3,2)

綜合上述兩個結論,可以得出 B(4,3)= 2α + β = (α + β)+ α ≤ B(3,3)+ B(3,2),這樣我們就得到了Bounding Function的upper bound !(回想一下:從成長函數,到成長函數的上限,再到上限的上限,哈哈哈哈~~~)

給出一個結論:

B(N,k)的最高次項是k-1次的,這個結論可以通過數學歸納法inductive證明。實際上≤可以是=,這需要更復雜的數學證明,這里不給出,我們只需要明白B(N,k)會被poly(N)bound住 if break point exist :)

4、VC bound

已經證明了mH(N)的上限是多項式,那我們是不是就可以替換M了呢?

并沒有這么簡單,實際上會是下圖這樣的,多了一些常數:

這個的證明很有技巧性,我們不深入探究,只介紹這幾個常數的含義。(首先承認這部分筆者看的也不是很懂,希望得到大家指點~互相學習)

step 1:replace Eout by Ein '

有了上節的bound可以知道Ein(h)是有限多個,但是Eout(h)是無限多的。怎么辦?之前提過采樣一個大小為N的verification set D ' ?去估計Eout,稱為Ein ' 。

由上圖分布可以得出,Ein ' 和Ein 離得遠的概率是 Ein和Eout離得遠的概率的一半多,因此得到下式,右側式子的ε/2的1/2是數學上更強的約束。

step 2:decompose H by kind

上面的式子是在一個h上的結論,現在換成kind得到在H上的結論:

插播一條舊結論:

這里有一組很形象的圖展示了union bound on hypothesis 和 union bound on kind的差別,第一張圖是霍夫丁不等式說明對一個固定的h來說bad data的概率很小,對H中的每一個h使用union bound 會得到第二張圖,花花綠綠的很多圈就代表了bad data沒有重疊,我們后來進行了分類kind,再對kind進行union bound就得到第三張圖!值得體悟一下~

step 3:use hoeffding without replacement

現在不是無限多的小球 in bin,而是2N個小球,這是不放回的霍夫丁,但是結論和原來的霍夫丁還是一樣的。這時計算的不是Ein和Eout的差,而是Ein和均值的差,均值即(Ein + Ein ')/2,由|Ein - Ein'|>ε/2可以得到

至此,得到:

其實這就是著名的Vapnik-Chervonenkis(VC) bound!!

所以現在就可以真正說learning with 2D perceptrons(break point is 4,mH(N)的最高次是3) is feasible!

有木有長舒一口氣的感覺呢?!下一章告訴你力氣不會白費!

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,739評論 6 534
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,634評論 3 419
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,653評論 0 377
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,063評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,835評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,235評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,315評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,459評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,000評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,819評論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,004評論 1 370
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,560評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,257評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,676評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,937評論 1 288
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,717評論 3 393
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,003評論 2 374

推薦閱讀更多精彩內容