臺灣大學林軒田機器學習基石課程學習筆記6 -- Theory of Generalization

上一節課,我們主要探討了當M的數值大小對機器學習的影響。如果M很大,那么就不能保證機器學習有很好的泛化能力,所以問題轉換為驗證M有限,即最好是按照多項式成長。然后通過引入了成長函數mH(N)和dichotomy以及break point的概念,提出2D perceptrons的成長函數mH(N)是多項式級別的猜想。這就是本節課將要深入探討和證明的內容。

一、Restriction of Break Point

我們先回顧一下上節課的內容,四種成長函數與break point的關系:

下面引入一個例子,如果k=2,那么當N取不同值的時候,計算其成長函數mH(N)是多少。很明顯,當N=1時,mH(N)=2,;當N=2時,由break point為2可知,任意兩點都不能被shattered(shatter的意思是對N個點,能夠分解為2^N種dichotomies);mH(N)最大值只能是3;當N=3時,簡單繪圖分析可得其mH(N)=4,即最多只有4種dichotomies。

所以,我們發現當N>k時,break point限制了mH(N)值的大小,也就是說影響成長函數mH(N)的因素主要有兩個:

1. 抽樣數據集N

2. break point k(這個變量確定了假設的類型)

那么,如果給定N和k,能夠證明其mH(N)的最大值的上界是多項式的,則根據霍夫丁不等式,就能用mH(N)代替M,得到機器學習是可行的。所以,證明mH(N)的上界是poly(N),是我們的目標。

二、Bounding Function: Basic Cases

現在,我們引入一個新的函數:bounding function,B(N,k)。Bound Function指的是當break point為k的時候,成長函數mH(N)可能的最大值。也就是說B(N,k)是mH(N)的上界,對應mH(N)最多有多少種dichotomy。那么,我們新的目標就是證明:

這里值得一提的是,B(N,k)的引入不考慮是1D postive intrervals問題還是2D perceptrons問題,而只關心成長函數的上界是多少,從而簡化了問題的復雜度。

求解B(N,k)的過程十分巧妙:

當k=1時,B(N,1)恒為1。

當N < k時,根據break point的定義,很容易得到B(N,k)=2^N。

當N = k時,此時N是第一次出現不能被shatter的值,所以最多只能有2^N?1個dichotomies,則B(N,k)=2^N?1。

到此,bounding function的表格已經填了一半了,對于最常見的N>k的情況比較復雜,推導過程下一小節再詳細介紹。

三、Bounding Function: Inductive Cases

N > k的情況較為復雜,下面給出推導過程:

以B(4,3)為例,首先想著能否構建B(4,3)與B(3,x)之間的關系。

首先,把B(4,3)所有情況寫下來,共有11組。也就是說再加一種dichotomy,任意三點都能被shattered,11是極限。

對這11種dichotomy分組,目前分成兩組,分別是orange和purple,orange的特點是,x1,x2和x3是一致的,x4不同并成對,例如1和5,2和8等,purple則是單一的,x1,x2,x3都不同,如6,7,9三組。

將Orange去掉x4后去重得到4個不同的vector并成為α,相應的purple為β。那么B(4,3)=2α+β,這個是直接轉化。緊接著,由定義,B(4,3)是不能允許任意三點shatter的,所以由α和β構成的所有三點組合也不能shatter(alpha經過去重),即α+β≤B(3,3)。

另一方面,由于α中x4是成對存在的,且α是不能被任意三點shatter的,則能推導出α是不能被任意兩點shatter的。這是因為,如果α是不能被任意兩點shatter,而x4又是成對存在的,那么x1、x2、x3、x4組成的α必然能被三個點shatter。這就違背了條件的設定。這個地方的推導非常巧妙,也解釋了為什么會這樣分組。此處得到的結論是α≤B(3,2)

由此得出B(4,3)與B(3,x)的關系為:

最后,推導出一般公式為:

根據推導公式,下表給出B(N,K)值

根據遞推公式,推導出B(N,K)滿足下列不等式:

上述不等式的右邊是最高階為k-1的N多項式,也就是說成長函數mH(N)的上界B(N,K)的上界滿足多項式分布poly(N),這就是我們想要得到的結果。

得到了mH(N)的上界B(N,K)的上界滿足多項式分布poly(N)后,我們回過頭來看看之前介紹的幾種類型它們的mH(N)與break point的關系:

我們得到的結論是,對于2D perceptrons,break point為k=4,mH(N)的上界是N^(k?1)。推廣一下,也就是說,如果能找到一個模型的break point,且是有限大的,那么就能推斷出其成長函數mH(N)有界。

四、A Pictorial Proof

我們已經知道了成長函數的上界是poly(N)的,下一步,如果能將mH(N)代替M,代入到Hoffding不等式中,就能得到Eout≈Ein的結論:

實際上并不是簡單的替換就可以了,正確的表達式為:

該推導的證明比較復雜,我們可以簡單概括為三個步驟來證明:

這部分內容,我也只能聽個大概內容,對具體的證明過程有興趣的童鞋可以自行研究一下,研究的結果記得告訴一下我哦。

最終,我們通過引入成長函數mH,得到了一個新的不等式,稱為Vapnik-Chervonenkis(VC) bound:

對于2D perceptrons,它的break point是4,那么成長函數mH(N)=O(N^3)。所以,我們可以說2D perceptrons是可以進行機器學習的,只要找到hypothesis能讓Ein≈0,就能保證Ein≈Eout。

五、總結

本節課我們主要介紹了只要存在break point,那么其成長函數mH(N)就滿足poly(N)。推導過程是先引入mH(N)的上界B(N,k),B(N,k)的上界是N的k-1階多項式,從而得到mH(N)的上界就是N的k-1階多項式。然后,我們通過簡單的三步證明,將mH(N)代入了Hoffding不等式中,推導出了Vapnik-Chervonenkis(VC) bound,最終證明了只要break point存在,那么機器學習就是可行的。

原文CSDN博客地址:

臺灣大學林軒田機器學習基石課程學習筆記6 -- Theory of Generalization

注明:

文章中所有的圖片均來自臺灣大學林軒田《機器學習基石》課程。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,923評論 6 535
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,740評論 3 420
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,856評論 0 380
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,175評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,931評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,321評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,383評論 3 443
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,533評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,082評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,891評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,067評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,618評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,319評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,732評論 0 27
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,987評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,794評論 3 394
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,076評論 2 375

推薦閱讀更多精彩內容