100天搞定機器學習|Day22 機器為什么能學習?

前情回顧

機器學習100天|Day1數據預處理
100天搞定機器學習|Day2簡單線性回歸分析
100天搞定機器學習|Day3多元線性回歸
100天搞定機器學習|Day4-6 邏輯回歸
100天搞定機器學習|Day7 K-NN
100天搞定機器學習|Day8 邏輯回歸的數學原理
100天搞定機器學習|Day9-12 支持向量機
100天搞定機器學習|Day11 實現KNN
100天搞定機器學習|Day13-14 SVM的實現
100天搞定機器學習|Day15 樸素貝葉斯
100天搞定機器學習|Day16 通過內核技巧實現SVM
100天搞定機器學習|Day17-18 神奇的邏輯回歸
100天搞定機器學習|Day19-20 加州理工學院公開課:機器學習與數據挖掘

Day17,Avik-Jain第22天完成Yaser Abu-Mostafa教授的Caltech機器學習課程-CS156中的課程2。

1 Hoeffding不等式

假設有一個罐子裝滿了橙色和綠色的球,為了估計罐子中橙色和綠色的比例,我們隨機抓一把球,稱為樣本:

image

其中,設罐子中橙色球的比例為μ,樣本中橙色球比例為v,樣本的大小為N,我們對真實分布μ和樣本分布v的差異容忍度為ε,則有下面的不等式成立:

image.gif

也就是存在一個概率上界,只要我們保證樣本容量N很大,就能使得“μ和v的差異大”這件事的概率是很小的。

2 對于一個假設函數h的情況

如果我們的假設函數h已經確定了,那么我們可以這樣把我們的問題對應到罐子模型:每個球表示一個輸入x,橙色表示h與真實的函數f預測的值不相同,綠色表示相同,即:

image

那么罐子中的所有球就是所有可能的輸入x,而抓的一把球表示我們的訓練集(注意!這里其實是做了一個假設:我們的訓練集和測試集都由同一個未知的概率分布P來產生,也就是來源于同一個罐子),那么橙色球占的比例μ就表示我們的假設函數h在真正的輸入空間中的預測錯誤率Eout(我們最后想要降低的),v就表示我們在訓練集中的預測錯誤率Ein(我們的算法能最小化的),由Hoeffding不等式,就能得到:

image

也就是說,只要我們能保證訓練集的量N足夠大,就能保證訓練集的錯誤率與真實的預測錯誤率是有很大概率接近的。

3 對于有限多個h的情況

上面一節我們證明了,對于一個給定的假設函數h,只要訓練集足夠大,我們能保證它在訓練集上的預測效果與真正的預測效果很大概率是接近的。但是,我們只能保證它們的預測效果接近,也可能預測效果都是壞呢?

我們的機器學習算法是在假設空間里面選一個h,使得這個h在訓練集上錯誤率很小,那么這個h是不是在整個輸入空間上錯誤率也很小呢?這一節我們要證明的就是,對于假設空間只有有限個h時,只要訓練集N足夠大,這也是很大概率成立的。

首先我們來看這張表:

image

首先,對于一個給定的h,我們可以定義一個概念:“壞的訓練集”(對應于表中紅色的bad)。所謂壞的訓練集,就是h在這個訓練集上面的Ein和真實的Eout的差異超過了我們定義的容忍度ε。Hoeffding不等式保證了,對于一個給定的h(表中的一行),選到壞的訓練集的概率是很低的。

然后,對于假設空間里面有M個候選的h,我們重新定義“壞的訓練集”的概念(對應于表中橙色的bad),只要它對于任何一個h是壞的,那么它就是一個壞的。那么我們選到橙色壞的訓練集的概率可以如下推導:

image

由于M是有限的,只要訓練集N足夠大,我們選到壞訓練集的概率仍然是很小的。也就是說,我們的訓練集很大可能是一個好的訓練集,所有的h在上面都是好的,算法只要選取一個在訓練集上表現好的h,那么它的預測能力也是PAC好的。也就是有不等式:

image

因此機器學習過程如下圖:

image

(這里多出來的橙色部分表示,訓練集和測試集是由同一個概率分布產生的)

因此當有限個h的情況下,機器學習算法確實是能學到東西的。

之后我們會討論,當假設空間存在無限個h時,機器學習是否還有效。

上一節我們證明了,當假設空間的大小是M時,可以得到概率上界:

image.gif

即,只要訓練數據量N足夠大,那么訓練集上的Ein與真實的預測錯誤率Eout是PAC(大概率)接近的。

但是,我們上面的理論只有在假設空間大小有限時才成立,如果假設空間無限大,右邊的概率上界就會變成無限大。

事實上,右邊的邊界是一個比較弱的邊界,這一節我們要找出一個更強的邊界,來證明我們的機器學習算法對于假設空間無限大的情形仍然是可行的。我們將會用一個m來代替大M,并且證明當假設空間具有break point時,m具有N的多項式級別的上界。

2 成長函數

對于一組給定的訓練集x1,x2,...,xN。定義函數H(x1,x2,......,xN),表示使用假設空間H里面的假設函數h,最多能把訓練集劃分成多少種圈圈叉叉組合(即產生多少種Dichotomy,最大是2^N)。

例如,假設空間是平面上的所有線,訓練數據集是平面上的N個點,則有:

N = 1 時,有2種劃分方式:

image

N = 2時,有4種劃分方式:

image

N = 3 時, 有8種劃分方式:

image

N = 4時,有14種劃分方式(因為有兩種是不可能用一條直線劃分出來的):

image

…………

另外,劃分數與訓練集有關,(例如N=3時,如果三個點共線,那么有兩種劃分就不可能產生,因此只有6種劃分而不是8種):

image

為了排除對于訓練數據的依賴性,我們定義成長函數:

image

因此,成長函數的意義就是:使用假設空間H, 最多有多少種對訓練集(大小為N)的劃分方式。成長函數只與兩個因素有關:訓練集的大小N,假設空間的類型H。

下面列舉了幾種假設空間的成長函數:

image

3 break point

這里我們定義break point。所謂break point,就是指當訓練集的大小為k時,成長函數滿足:

image

假設空間所不能shatter的訓練集容量

容易想到,如果k是break point,那么k + 1, k + 2....也是break point。

4 成長函數的上界

由于第一個break point會對后面的成長函數有所限制,于是我們定義上界函數B(N,k),表示在第一個break point是k的限制下,成長函數mH(N)的最大可能值:

image.gif

現在我們開始推導這個上界函數的上界:

首先,B(N,k)產生的Dichotomy可以分為兩種類型,一種是前N-1個點成對的出現,一種是前N-1個點只出現一次:

image

因此顯然有:

image

然后,對于前N-1個點在這里產生的所有情況:

image

顯然這里的個數就是α+β,顯然,這前N-1個點產生的Dichotomy數仍然要受限于break point是k這個前提,因此:

image

然后,對于成對出現的Dichotomy的前N-1個點:

image

我們可以說,這里的前N-1個點將會受限于break point是k-1。反證法:如果這里有k-1個點是能夠shatter的,那么配合上我們的第N個點,就能找出k個點能shatter,這與B(N,k)的定義就矛盾了。因此我們有:

image

綜合上面,我們有:

image

利用這個遞推關系以及邊界情形,我們可以用數學歸納法簡單證明得到(事實上可以證明下面是等號關系):

image

因此成長函數具有多項式級別的上界。

5 VC-Bound

這里我們不涉及嚴格的數學證明,而是用一種通俗化的方法來引出VC-Bound。也就是如何用m來替換M。

image
image
image

于是我們就得到了機器學習問題的PAC概率上界,稱為VC-Bound:

image

因此我們得到了更強的邊界,當右邊的成長函數具有break point時,它的上界是N^k-1級別的,只要我們的N足夠大,“存在一個假設函數h使得壞情況發生”這件事的幾率就會很小。

6 結論

結論:當假設空間的成長函數具有break point時,只要N足夠大,我們能PAC地保證訓練集是一個好的訓練集,所有h在上面的Ein和Eout都是近似的,算法可以對這些h做自由選擇。也就是機器學習算法確實是能work的。

通俗的說,機器學習能work的條件:

1 好的假設空間。使得成長函數具有break point。

2 好的訓練數據集。使得N足夠大。

3 好的算法。使得我們能選擇在訓練集上表現好的h。

4 好的運氣。因為還是有一定小概率會發生壞情況。

END

image

本文轉自:
https://www.cnblogs.com/coldyan/

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,702評論 6 534
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,615評論 3 419
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,606評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,044評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,826評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,227評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,307評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,447評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,992評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,807評論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,001評論 1 370
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,550評論 5 361
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,243評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,667評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,930評論 1 287
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,709評論 3 393
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,996評論 2 374

推薦閱讀更多精彩內容