連載 | 機器學習基石 Lec 4: Machine Learning的可行性 & 霍夫丁不等式

Lec 4:Feasibility of Learning

上一章中我們介紹了各種各樣的機器學習,本門課的著重點是binary classification or regression from a batch of supervised data with concrete features.

這一章(實際還要加上接下來的Lec6和7)介紹機器學習是不是可行的?!這是個有趣的問題(^_^)機器學習當前如此熱門,答案當然是可行的,但你不一定知道它為什么可行!?個人認為,機器學習的可行性問題,或者說是理論保障,是設計機器學習算法以及techniques的根本出發點!

Tips:符號含義請參照Lec1


1,Learning is impossible?

第一節的幾個小栗子告訴我們,我們從已知的data(D)中學到的完美的g很可能會不適用于未知的data(outside D),而預測未來的data又是機器學習的目的。那么機器學習是不是不可行呢?

2、Inferring something unknown & 霍夫丁不等式

我們可以想一想有沒有推測未知事情的場景?!學過概率論的一定都接觸過。舉一個具體的例子:有一個裝了很多很多橘色和綠色彈珠的罐子,我們知道橘色占的比例嗎?不知道。但是我們可以推測(infer)橘色占的比例嗎?可以!這類問題在統計學中很常見。如何infer?

假設橘色罐子中的實際比例是?μ。?獨立隨機抽取樣本sample,在sample中橘色比例是v,則綠色比例是1-v。統計學中,in-sample 的vout-of-sample的μ大部分時候是接近的。抽取sample的大小用N表示。

這件事情在數學中的描述是:

這個不等式的含義是,當N很大時,v和μ相差ε(誤差范圍)的概率很小,這就是著名的“霍夫丁不等式”Hoeffding‘s Inequality。我們說“v = μ”這個式子是probably approximately correct(PAC),大概差不多是對的。

關于霍夫丁不等式:

1)對任意N和ε都成立;

2)不需要知道 μ;

3)當N larger、looser gap ε(較大的容忍度),那么 v ≈ μ的概率會higher;

因此,如果sample夠大的話,我們可以通過v infer μ(概率論知識)。

這個不等式十分重要~個人認為它是機器學習最基本的理論保障~

3、Connection to learning

上一節中關于彈珠和概率等等的介紹和機器學習有什么關系呢?

針對一個h,可以把抽到橘色情況看作是wrong,即h(x)≠ f(x),對應地綠色代表right,即h(x)= f(x)。那么 μ 就是Eout(h),v就是Ein(h)。這樣我們可以通過已知的Ein推測未知的 Eout 。霍夫丁不等式可以寫作

與前面類似,“Ein(h)= Eout(h)”是PAC。如果Ein(h)≈ Eout(h)并且Ein較小,就能推出Eout(h)較小,從而推出h≈f,我們可以依據Ein的大小verify某個h。至此,這些理論只能用來判斷某個h的好壞,真正的機器學習還需要用算法A從H中選出一個“good”h作為g.

4、Multiple h

上一小節中對一個h進行討論得出verify h的準則,這節考慮一下在很多個h中做選擇的情況,霍夫丁不等式會是什么作用?

抽樣存在很多情況,難免出現Bad sample(Ein和Eout相差很大的sample)。霍夫丁不等式說明針對一個h出現bad sample的幾率很小。但是當有很多個h時,bad data就很可能出現(如課件中拋硬幣的例子),當bad sample的Ein又很小時,我們作出選擇時就會worse情況。Bad sample也就是Bad Data。

霍夫丁不等式是針對某個h成立,它表示對于一個h來說,bad data出現的幾率small。

當有很多h時,出現bad data的概率上限可以使用“聯級上限”union bound獲得。M=|H|,即hypothesis set的size(在下一章Lec5中我們將看到這個上限實際上很loose)。

由上式可以知道:

1)當M有限大時,如果N足夠大,A選出的任意g都會有Eout(g)≈ Ein(g),如果Ein(g)≈ 0,Eout(g)≈ 0是PAC的,學習有效,learning is feasible!

2)But當M無限大時,boom!如Perceptrons(注意:這里不是PLA,是Perceptrons。PLA是算法,Perceptrons才是H)。接下來將需要Lec5~Lec7三章內容揭秘類似Perceptrons情況的可行性問題。歡迎繼續學習!

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容