前情回顧
機器學習100天|Day1數據預處理
100天搞定機器學習|Day2簡單線性回歸分析
100天搞定機器學習|Day3多元線性回歸
100天搞定機器學習|Day4-6 邏輯回歸
100天搞定機器學習|Day7 K-NN
100天搞定機器學習|Day8 邏輯回歸的數學原理
100天搞定機器學習|Day9-12 支持向量機
100天搞定機器學習|Day11 實現KNN
100天搞定機器學習|Day13-14 SVM的實現
100天搞定機器學習|Day15 樸素貝葉斯
100天搞定機器學習|Day16 通過內核技巧實現SVM
100天搞定機器學習|Day17-18 神奇的邏輯回歸
100天搞定機器學習|Day19-20 加州理工學院公開課:機器學習與數據挖掘
Day17,Avik-Jain第22天完成Yaser Abu-Mostafa教授的Caltech機器學習課程-CS156中的課程2。
1 Hoeffding不等式
假設有一個罐子裝滿了橙色和綠色的球,為了估計罐子中橙色和綠色的比例,我們隨機抓一把球,稱為樣本:
其中,設罐子中橙色球的比例為μ,樣本中橙色球比例為v,樣本的大小為N,我們對真實分布μ和樣本分布v的差異容忍度為ε,則有下面的不等式成立:
也就是存在一個概率上界,只要我們保證樣本容量N很大,就能使得“μ和v的差異大”這件事的概率是很小的。
2 對于一個假設函數h的情況
如果我們的假設函數h已經確定了,那么我們可以這樣把我們的問題對應到罐子模型:每個球表示一個輸入x,橙色表示h與真實的函數f預測的值不相同,綠色表示相同,即:
那么罐子中的所有球就是所有可能的輸入x,而抓的一把球表示我們的訓練集(注意!這里其實是做了一個假設:我們的訓練集和測試集都由同一個未知的概率分布P來產生,也就是來源于同一個罐子),那么橙色球占的比例μ就表示我們的假設函數h在真正的輸入空間中的預測錯誤率Eout(我們最后想要降低的),v就表示我們在訓練集中的預測錯誤率Ein(我們的算法能最小化的),由Hoeffding不等式,就能得到:
也就是說,只要我們能保證訓練集的量N足夠大,就能保證訓練集的錯誤率與真實的預測錯誤率是有很大概率接近的。
3 對于有限多個h的情況
上面一節我們證明了,對于一個給定的假設函數h,只要訓練集足夠大,我們能保證它在訓練集上的預測效果與真正的預測效果很大概率是接近的。但是,我們只能保證它們的預測效果接近,也可能預測效果都是壞呢?
我們的機器學習算法是在假設空間里面選一個h,使得這個h在訓練集上錯誤率很小,那么這個h是不是在整個輸入空間上錯誤率也很小呢?這一節我們要證明的就是,對于假設空間只有有限個h時,只要訓練集N足夠大,這也是很大概率成立的。
首先我們來看這張表:
首先,對于一個給定的h,我們可以定義一個概念:“壞的訓練集”(對應于表中紅色的bad)。所謂壞的訓練集,就是h在這個訓練集上面的Ein和真實的Eout的差異超過了我們定義的容忍度ε。Hoeffding不等式保證了,對于一個給定的h(表中的一行),選到壞的訓練集的概率是很低的。
然后,對于假設空間里面有M個候選的h,我們重新定義“壞的訓練集”的概念(對應于表中橙色的bad),只要它對于任何一個h是壞的,那么它就是一個壞的。那么我們選到橙色壞的訓練集的概率可以如下推導:
由于M是有限的,只要訓練集N足夠大,我們選到壞訓練集的概率仍然是很小的。也就是說,我們的訓練集很大可能是一個好的訓練集,所有的h在上面都是好的,算法只要選取一個在訓練集上表現好的h,那么它的預測能力也是PAC好的。也就是有不等式:
因此機器學習過程如下圖:
(這里多出來的橙色部分表示,訓練集和測試集是由同一個概率分布產生的)
因此當有限個h的情況下,機器學習算法確實是能學到東西的。
之后我們會討論,當假設空間存在無限個h時,機器學習是否還有效。
上一節我們證明了,當假設空間的大小是M時,可以得到概率上界:
即,只要訓練數據量N足夠大,那么訓練集上的Ein與真實的預測錯誤率Eout是PAC(大概率)接近的。
但是,我們上面的理論只有在假設空間大小有限時才成立,如果假設空間無限大,右邊的概率上界就會變成無限大。
事實上,右邊的邊界是一個比較弱的邊界,這一節我們要找出一個更強的邊界,來證明我們的機器學習算法對于假設空間無限大的情形仍然是可行的。我們將會用一個m來代替大M,并且證明當假設空間具有break point時,m具有N的多項式級別的上界。
2 成長函數
對于一組給定的訓練集x1,x2,...,xN。定義函數H(x1,x2,......,xN),表示使用假設空間H里面的假設函數h,最多能把訓練集劃分成多少種圈圈叉叉組合(即產生多少種Dichotomy,最大是2^N)。
例如,假設空間是平面上的所有線,訓練數據集是平面上的N個點,則有:
N = 1 時,有2種劃分方式:
N = 2時,有4種劃分方式:
N = 3 時, 有8種劃分方式:
N = 4時,有14種劃分方式(因為有兩種是不可能用一條直線劃分出來的):
…………
另外,劃分數與訓練集有關,(例如N=3時,如果三個點共線,那么有兩種劃分就不可能產生,因此只有6種劃分而不是8種):
為了排除對于訓練數據的依賴性,我們定義成長函數:
因此,成長函數的意義就是:使用假設空間H, 最多有多少種對訓練集(大小為N)的劃分方式。成長函數只與兩個因素有關:訓練集的大小N,假設空間的類型H。
下面列舉了幾種假設空間的成長函數:
3 break point
這里我們定義break point。所謂break point,就是指當訓練集的大小為k時,成長函數滿足:
即假設空間所不能shatter的訓練集容量。
容易想到,如果k是break point,那么k + 1, k + 2....也是break point。
4 成長函數的上界
由于第一個break point會對后面的成長函數有所限制,于是我們定義上界函數B(N,k),表示在第一個break point是k的限制下,成長函數mH(N)的最大可能值:
現在我們開始推導這個上界函數的上界:
首先,B(N,k)產生的Dichotomy可以分為兩種類型,一種是前N-1個點成對的出現,一種是前N-1個點只出現一次:
因此顯然有:
然后,對于前N-1個點在這里產生的所有情況:
顯然這里的個數就是α+β,顯然,這前N-1個點產生的Dichotomy數仍然要受限于break point是k這個前提,因此:
然后,對于成對出現的Dichotomy的前N-1個點:
我們可以說,這里的前N-1個點將會受限于break point是k-1。反證法:如果這里有k-1個點是能夠shatter的,那么配合上我們的第N個點,就能找出k個點能shatter,這與B(N,k)的定義就矛盾了。因此我們有:
綜合上面,我們有:
利用這個遞推關系以及邊界情形,我們可以用數學歸納法簡單證明得到(事實上可以證明下面是等號關系):
因此成長函數具有多項式級別的上界。
5 VC-Bound
這里我們不涉及嚴格的數學證明,而是用一種通俗化的方法來引出VC-Bound。也就是如何用m來替換M。
于是我們就得到了機器學習問題的PAC概率上界,稱為VC-Bound:
因此我們得到了更強的邊界,當右邊的成長函數具有break point時,它的上界是N^k-1級別的,只要我們的N足夠大,“存在一個假設函數h使得壞情況發生”這件事的幾率就會很小。
6 結論
結論:當假設空間的成長函數具有break point時,只要N足夠大,我們能PAC地保證訓練集是一個好的訓練集,所有h在上面的Ein和Eout都是近似的,算法可以對這些h做自由選擇。也就是機器學習算法確實是能work的。
通俗的說,機器學習能work的條件:
1 好的假設空間。使得成長函數具有break point。
2 好的訓練數據集。使得N足夠大。
3 好的算法。使得我們能選擇在訓練集上表現好的h。
4 好的運氣。因為還是有一定小概率會發生壞情況。
END