監(jiān)督學(xué)習(xí)之我見

? ??? ? 統(tǒng)計學(xué)習(xí)的對象時數(shù)據(jù),它是從數(shù)據(jù)出發(fā),提取數(shù)據(jù)的特征,抽取出數(shù)據(jù)的模型,發(fā)現(xiàn)數(shù)據(jù)中的知識,又回到對數(shù)據(jù)的分析和預(yù)測中去。現(xiàn)在我們提及的機器學(xué)習(xí),往往指的都是統(tǒng)計機器學(xué)習(xí)。統(tǒng)計學(xué)習(xí)的方法是基于數(shù)據(jù)構(gòu)建統(tǒng)計模型,從而對數(shù)據(jù)進(jìn)行預(yù)測與分析,統(tǒng)計學(xué)習(xí)由監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)等組成。在日常我們處理的問題中,或者說現(xiàn)在大多數(shù)機器學(xué)習(xí)所要解決的問題都可以劃歸為監(jiān)督學(xué)習(xí)。因此,理解監(jiān)督學(xué)習(xí)的常用方法對機器學(xué)習(xí)入門者或者要進(jìn)一步理解深度學(xué)習(xí)涉及的理論至關(guān)重要。


? ? ? ? 監(jiān)督學(xué)習(xí)類的統(tǒng)計學(xué)習(xí)方法可以概括為:從給定的、有限的、用于學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集合出發(fā),假設(shè)數(shù)據(jù)是獨立同分布產(chǎn)生的,并且假設(shè)要學(xué)習(xí)的模型屬于某個函數(shù)的集合(假設(shè)空間),應(yīng)用某個準(zhǔn)則,從假設(shè)空間中選取一個最優(yōu)的模型,使它對已知訓(xùn)練數(shù)據(jù)及未知測試數(shù)據(jù)在給定的評價準(zhǔn)則下有最優(yōu)的預(yù)測,最優(yōu)模型的選取由算法來實現(xiàn)。 ?從上面的概括可以總結(jié)出,統(tǒng)計學(xué)習(xí),或者準(zhǔn)確的說監(jiān)督學(xué)習(xí)的三要素為:模型、策略和算法。

? ? ? ? 模型:統(tǒng)計學(xué)習(xí)首先要考慮的問題是學(xué)習(xí)什么樣的模型,也就是要選擇什么樣的模型來描述要解決的問題,例如線性模型或者非線性模型。在監(jiān)督學(xué)習(xí)過程中,模型指的就是決策函數(shù)或者說條件概率分布。決策函數(shù)表示的模型為非概率模型,而條件概率分布表示的模型為概率模型。在實際的問題中,通常不過多的區(qū)分決策函數(shù)或者條件概率分布。


? ? ? ? 策略:在有了模型的假設(shè)空間的基礎(chǔ)上,統(tǒng)計學(xué)習(xí)需要考慮采取什么樣的準(zhǔn)則或者策略來獲得最優(yōu)模型。監(jiān)督學(xué)習(xí)中最常用的學(xué)習(xí)策略是經(jīng)驗風(fēng)險最小化和結(jié)構(gòu)風(fēng)險最小化兩種策略

? ? ? ? ?當(dāng)樣本容量足夠大的時候,經(jīng)驗風(fēng)險最小化能夠保證有很好的學(xué)習(xí)效果,在現(xiàn)實中被廣泛采用。比如,極大似然估計就是經(jīng)驗風(fēng)險最小的一個例子。當(dāng)模型是條件概率分布,損失函數(shù)是對數(shù)損失函數(shù)時,經(jīng)驗風(fēng)險最小化就等價于極大似然估計。

? ? ? ? 當(dāng)樣本容量較小的情況下,經(jīng)驗風(fēng)險最小化函數(shù)容易產(chǎn)生樣本過擬合的情況,因此,結(jié)構(gòu)風(fēng)險最小化函數(shù)就是為解決這一問題而提出的。結(jié)構(gòu)風(fēng)險最小化函數(shù)是在經(jīng)驗風(fēng)險最小化函數(shù)的基礎(chǔ)上增加正則項或者懲罰項增加正則化化項符合奧卡姆剃刀原理:通俗的講就是在模型的假設(shè)空間中,選擇能夠很好的解釋訓(xùn)練數(shù)據(jù)并且十分簡單的模型才是最好的模型,利用正則項或者懲罰項來抵消或者抑制樣本過擬合的情況。正則化項通常是模型復(fù)雜度的線性函數(shù),模型越復(fù)雜正則化值就越大,例如多項式擬合中,常常用待估計參數(shù)的L2范數(shù)來表示正則項。結(jié)構(gòu)風(fēng)險最小化函數(shù)通常需要經(jīng)驗風(fēng)險和模型復(fù)雜度同時最小。比如貝葉斯估計中的最大后驗概率估計就是結(jié)構(gòu)風(fēng)險最小化函數(shù)的一種體現(xiàn)。

? ??????算法:統(tǒng)計學(xué)習(xí)基于訓(xùn)練數(shù)據(jù)集,根據(jù)學(xué)習(xí)策略,從假設(shè)空間總選擇最優(yōu)模型,最后考慮用什么樣的計算方法求解最優(yōu)模型。也就是采用什么樣的算法求得讓經(jīng)驗風(fēng)險或者結(jié)構(gòu)風(fēng)險函數(shù)最小化的參數(shù)。(例如梯度下降等算法);


? ? ? ? 監(jiān)督學(xué)習(xí)適用于解決分類問題、標(biāo)注問題和回歸問題三大類問題:主要的統(tǒng)計學(xué)習(xí)方法包括了感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯蒂回歸和最大熵模型、支持向量機、提升方法、EM算法\隱馬爾科夫模型和條件隨機場。


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容