第五章 機(jī)器學(xué)習(xí)基礎(chǔ)

》擬合訓(xùn)練數(shù)據(jù)和尋找能夠泛化到新數(shù)據(jù)的參數(shù)有哪些不同。

》如何使用額外的數(shù)據(jù)設(shè)置超參數(shù)。

》機(jī)器學(xué)習(xí)本質(zhì)上屬于應(yīng)用統(tǒng)計(jì)學(xué),更多關(guān)注于如何用計(jì)算機(jī)統(tǒng)計(jì)地估計(jì)復(fù)雜函數(shù),不太關(guān)注這些函數(shù)的置信區(qū)間;因此我們會(huì)探討兩種統(tǒng)計(jì)學(xué)的主要方法:頻率估計(jì)和貝葉斯推斷

》大部分深度學(xué)習(xí)算法都基于隨機(jī)梯度下降求解。我們將介紹如何組合不同的算法部分,例如優(yōu)化算法、代價(jià)函數(shù)、模型和數(shù)據(jù)集,來(lái)建立一個(gè)機(jī)器學(xué)習(xí)算法。

》一些限制傳統(tǒng)機(jī)器學(xué)習(xí)泛化能力的因素。


1 學(xué)習(xí)算法

? ? 機(jī)器學(xué)習(xí)算法是一種可以從數(shù)據(jù)中學(xué)習(xí)的算法。定義(Mitchell,1997):對(duì)于某類任務(wù)T和性能度量P,一個(gè)計(jì)算機(jī)程序被認(rèn)為可以從經(jīng)驗(yàn)E中學(xué)習(xí)是指,通過(guò)經(jīng)驗(yàn)E改進(jìn)后,它在任務(wù)T上由性能度量P衡量的性能有所提升。

任務(wù),T

機(jī)器學(xué)習(xí)可以解決很多類型的任務(wù)。一些非常常見(jiàn)的機(jī)器學(xué)習(xí)任務(wù)列舉如下:

圖1 常見(jiàn)的機(jī)器學(xué)習(xí)任務(wù)

性能度量,P

? ? 不同任務(wù)的性能度量不同。性能度量的選擇或許看上去簡(jiǎn)單且客觀,但是選擇一個(gè)與系統(tǒng)理想表現(xiàn)對(duì)應(yīng)的性能度量通常是很難的。有些時(shí)候,很難決定應(yīng)該度量什么,實(shí)際中要根據(jù)不同的應(yīng)用設(shè)計(jì)需要的性能度量;還有一些情況,我們知道應(yīng)該度量哪些數(shù)值,但是度量它們不太現(xiàn)實(shí)。這時(shí)可以設(shè)計(jì)一個(gè)替代標(biāo)準(zhǔn),或者設(shè)計(jì)一個(gè)理想標(biāo)準(zhǔn)的良好近似。

經(jīng)驗(yàn),E

? ? 很多學(xué)習(xí)算法在數(shù)據(jù)集上獲取經(jīng)驗(yàn)。根據(jù)學(xué)習(xí)過(guò)程中的不同經(jīng)驗(yàn),機(jī)器學(xué)習(xí)算法可以大致分類為無(wú)監(jiān)督(unsupervised)和監(jiān)督(supervised)。無(wú)監(jiān)督學(xué)習(xí)算法(unsupervised learning algorithm)用于訓(xùn)練的數(shù)據(jù)集只包含樣本的特征,然后學(xué)習(xí)出這個(gè)數(shù)據(jù)集上有用的結(jié)構(gòu)性質(zhì)。監(jiān)督學(xué)習(xí)算法(supervised learning algorithm)用于訓(xùn)練的數(shù)據(jù)包含樣本的特征和標(biāo)簽(label)。

2 容量,過(guò)擬合和欠擬合

? ? 當(dāng)我們?cè)谟?xùn)練數(shù)據(jù)集上訓(xùn)練一個(gè)模型時(shí),通過(guò)減小訓(xùn)練誤差來(lái)優(yōu)化模型,此時(shí)只是一個(gè)優(yōu)化問(wèn)題;機(jī)器學(xué)習(xí)和優(yōu)化問(wèn)題不同的是,目的不是將訓(xùn)練集上的誤差最小化,而是在未觀測(cè)過(guò)的樣本上也具有良好的表現(xiàn),在先前未觀測(cè)到的輸入上表現(xiàn)良好的能力被稱為泛化(generalization)。

訓(xùn)練誤差(training error):在訓(xùn)練集上的誤差。

測(cè)試誤差(test error)/泛化誤差(generalization error):泛化誤差定義為新輸入的誤差期望,通過(guò)測(cè)試集上的誤差來(lái)度量。

? ? ?我們只用訓(xùn)練集進(jìn)行模型的訓(xùn)練,憑什么期望模型在測(cè)試集上也有良好的表現(xiàn)呢?換句話說(shuō),訓(xùn)練集數(shù)據(jù)和測(cè)試集數(shù)據(jù)有什么關(guān)系呢,當(dāng)我們只能觀測(cè)到訓(xùn)練集時(shí),我們?nèi)绾尾拍苡绊憸y(cè)試集的性能呢。

? ? ? 統(tǒng)計(jì)學(xué)習(xí)理論(statistical learning theory)告訴我們,如果訓(xùn)練集和測(cè)試集滿足獨(dú)立同分布假設(shè)(i.i.d.assumption):每個(gè)數(shù)據(jù)集中的樣本都是彼此相互獨(dú)立的(independent),并且訓(xùn)練集和測(cè)試集是同分布的(identically distributed),即其上數(shù)據(jù)采樣自相同的分布。我們將這個(gè)共享的潛在分布稱為數(shù)據(jù)生成分布(data generating distribution)。那么,在數(shù)學(xué)上,隨機(jī)選擇的模型訓(xùn)練誤差的期望和測(cè)試誤差的期望是相同的。因?yàn)榧僭O(shè)已知概率分布P(X,y),不論是訓(xùn)練集還是測(cè)試集,都是由該數(shù)據(jù)生成分布重復(fù)采樣而得的數(shù)據(jù)集,只不過(guò)名字不同,如果概率分布的參數(shù)已經(jīng)固定,兩個(gè)采樣數(shù)據(jù)集在隨機(jī)模型上的誤差的期望應(yīng)該相同。當(dāng)然,當(dāng)我們使用機(jī)器學(xué)習(xí)算法時(shí),我們不會(huì)提前固定參數(shù),然后從數(shù)據(jù)集中采樣。我們會(huì)在訓(xùn)練集上采樣,然后挑選參數(shù)去降低訓(xùn)練集誤差,然后再在測(cè)試集上采樣。在這個(gè)過(guò)程中,測(cè)試誤差期望會(huì)大于或等于訓(xùn)練誤差期望。以下是決定機(jī)器學(xué)習(xí)算法效果是否好的因素:1.降低訓(xùn)練誤差;2.縮小訓(xùn)練誤差和測(cè)試誤差的差距。這兩個(gè)因素對(duì)應(yīng)機(jī)器學(xué)習(xí)的兩個(gè)主要挑戰(zhàn):

欠擬合(underfitting):模型不能在訓(xùn)練集上獲得足夠低的誤差。

過(guò)擬合(overfitting):訓(xùn)練誤差很小但測(cè)試誤差大,訓(xùn)練誤差和和測(cè)試誤差之間的差距太大。

? ? ? 這兩個(gè)可以通過(guò)模型的容量(capacity)來(lái)調(diào)整。模型的容量是指其擬合各種函數(shù)的能力。容量低的模型可能很難擬合訓(xùn)練集。容量高的模型可能會(huì)過(guò)擬合,因?yàn)橛涀×瞬贿m用于測(cè)試集的訓(xùn)練集性質(zhì)。控制訓(xùn)練算法容量的一種方法是選擇假設(shè)空間(hypothesis space),即能夠選為解決方案的學(xué)習(xí)算法函數(shù)集(個(gè)人理解就是模型的選擇)。例如,廣義線性回歸的假設(shè)空間是多項(xiàng)式函數(shù),如下圖2。控制模型容量的另一中方法是正則化。

圖2 容量,過(guò)擬合和欠擬合

? ? 統(tǒng)計(jì)學(xué)習(xí)理論提供了量化模型容量的不同方法。統(tǒng)計(jì)學(xué)習(xí)理論中最重要的結(jié)論闡述了訓(xùn)練誤差和泛化誤差之間差異的上界隨著模型容量增長(zhǎng)而增長(zhǎng),但隨著訓(xùn)練樣本增多而下降。這些邊界為機(jī)器學(xué)習(xí)算法可以有效解決問(wèn)題提供了理論驗(yàn)證,但是它們很少應(yīng)用于實(shí)際中的深度學(xué)習(xí)算法。

泛化誤差是一個(gè)關(guān)于模型容量的U形曲線函數(shù),如下所示。

圖3?誤差和模型容量關(guān)系

(1)沒(méi)有免費(fèi)的午餐定理 (no free lunch theorem)

? ? ? 在某種意義上,沒(méi)有一個(gè)機(jī)器學(xué)習(xí)算法總是比其他的要好。這意味著機(jī)器學(xué)習(xí)研究的目標(biāo)不是找一個(gè)通用學(xué)習(xí)算法或是絕對(duì)最好的學(xué)習(xí)算法。我們的目標(biāo)是找到在我們關(guān)注的數(shù)據(jù)生成分布上效果最好的算法。

(2)正則化

? ? ??正則化是指我們對(duì)學(xué)習(xí)算法所做的降低泛化誤差而非訓(xùn)練誤差的修改。沒(méi)有免費(fèi)午餐定理已經(jīng)清楚闡述了沒(méi)有最優(yōu)的學(xué)習(xí)算法,這暗示我們必須在特定任務(wù)上設(shè)計(jì)性能良好的機(jī)器學(xué)習(xí)算法。我們建立一組學(xué)習(xí)算法的偏好來(lái)達(dá)到這個(gè)要求。當(dāng)這些偏好和我們希望算法解決的學(xué)習(xí)問(wèn)題相吻合時(shí),性能會(huì)更好。正則化表示了模型的偏好,表示對(duì)函數(shù)的偏好是比增減假設(shè)空間的成員函數(shù)更一般的去控制模型容量的方法。我們可以將去掉假設(shè)空間中的某個(gè)函數(shù)看作是對(duì)不贊成這個(gè)函數(shù)的無(wú)限偏好。

3 超參數(shù)和驗(yàn)證集

通常將數(shù)據(jù)集分為訓(xùn)練集,驗(yàn)證機(jī),測(cè)試集。

訓(xùn)練集:用來(lái)訓(xùn)練模型參數(shù)。

驗(yàn)證機(jī):用來(lái)訓(xùn)練超參數(shù)。

測(cè)試集:用來(lái)計(jì)算泛化誤差,評(píng)估模型。

? ? ?不在訓(xùn)練集上訓(xùn)練超參數(shù),是因?yàn)槿绻谟?xùn)練集上學(xué)習(xí)超參數(shù),總是趨向于最大可能的模型容量,會(huì)導(dǎo)致過(guò)擬合。測(cè)試集不能用于訓(xùn)練超參數(shù)是因?yàn)闇y(cè)試樣本不能以任何形式參與到模型的選擇,否則最終的評(píng)估結(jié)果不準(zhǔn)確。

4 估計(jì),偏差和方差

(1)點(diǎn)估計(jì)

點(diǎn)估計(jì)試圖為一些感興趣的量提供單個(gè)‘‘最優(yōu)’’預(yù)測(cè)。一般地,感興趣的量可以是參數(shù),也有可能是整個(gè)函數(shù)。點(diǎn)估計(jì)(point esti-mator)或統(tǒng)計(jì)量(statistics)可以是獨(dú)立同分布的數(shù)據(jù)的任意函數(shù)。

點(diǎn)估計(jì)也可以指輸入和目標(biāo)變量之間關(guān)系的估計(jì)。我們將這類點(diǎn)估計(jì)稱為函數(shù)估計(jì)。

(2)偏差

估計(jì)的偏差定義為:

估計(jì)量無(wú)偏(unbiased):bias(θ?m) = 0,即E(θ?m) =θ。

估計(jì)量漸近無(wú)偏(asymptotically unbiased):lim(m→∞)bias(θ?m) = 0,即lim(m→∞)E(θ?m) =θ。

無(wú)偏估計(jì)并不總是‘‘最好’’的估計(jì)。有時(shí)經(jīng)常會(huì)使用具有重要性質(zhì)的有偏估計(jì)。

(3)方差和標(biāo)準(zhǔn)誤差

(4)權(quán)衡偏值和方差以最小化均方誤差

? ? ? 偏差和方差度量著估計(jì)量的兩個(gè)不同誤差來(lái)源。偏差度量著離真實(shí)函數(shù)或參數(shù)的誤差期望。而方差度量著數(shù)據(jù)上任意特定采樣可能導(dǎo)致的估計(jì)期望的偏差。

均方誤差(mean squared error):

MSE度量著估計(jì)和真實(shí)參數(shù)θ之間平方誤差的總體期望偏差。MSE估計(jì)包含了偏差和方差。偏差和方差的關(guān)系和機(jī)器學(xué)習(xí)容量,欠擬合和過(guò)擬合的概念緊密相聯(lián)。用MSE度量泛化誤差(偏差和方差對(duì)于泛化誤差都是有意義的)時(shí),增加容量會(huì)增加方差,降低偏差。如圖所示,我們?cè)俅卧陉P(guān)于容量的函數(shù)中,看到泛化誤差的U形曲線。

圖4 泛化誤差,偏差,方差和模型容量的關(guān)系

(5)一致性

????我們希望。當(dāng)數(shù)據(jù)集中數(shù)據(jù)點(diǎn)的數(shù)量m增加時(shí),點(diǎn)估計(jì)會(huì)收斂到對(duì)應(yīng)參數(shù)的真實(shí)值。即當(dāng)m趨近于正無(wú)窮時(shí),參數(shù)的點(diǎn)估計(jì)會(huì)依概率收斂到真實(shí)值,這稱為一致性。

????一致性保證了估計(jì)量的偏差會(huì)隨數(shù)據(jù)樣本數(shù)目的增多而減少。然而,反過(guò)來(lái)是不正確的——漸近無(wú)偏并不意味著一致性。

5 最大似然估計(jì)

現(xiàn)有包含m個(gè)樣本的數(shù)據(jù)集X,假設(shè)真實(shí)的數(shù)據(jù)生成分布為p_data(x),我們利用已有的數(shù)據(jù)集得到模型p_model(x ; θ)來(lái)模擬p_data(x),即根據(jù)數(shù)據(jù)集估計(jì)參數(shù)θ的取值,就可以進(jìn)行預(yù)測(cè)了。關(guān)于θ的最大似然估計(jì)為

為了防止下溢,轉(zhuǎn)化為對(duì)數(shù)似然

性質(zhì):

- 最大似然估計(jì)最吸引人的地方在于,它被證明是當(dāng)樣本數(shù)目m→ ∞時(shí),就收斂率而言最好的漸近估計(jì)。

- 在一定條件下,訓(xùn)練樣本數(shù)目趨向于無(wú)限大時(shí),參數(shù)的最大似然估計(jì)收斂到參數(shù)的真實(shí)值。

- 均方誤差是一種衡量和真實(shí)參數(shù)相差多少的方法,有參均方誤差估計(jì)隨著m的增加而減少,當(dāng)m較大時(shí),Crame?r-Rao下界表明不存在均方誤差低于最大似然學(xué)習(xí)的一致估計(jì)。

6 貝葉斯統(tǒng)計(jì)

貝葉斯用概率反映知識(shí)狀態(tài)的確定性程度。貝葉斯估計(jì)認(rèn)為,數(shù)據(jù)集能夠直接觀測(cè)到,因此不是隨機(jī)的。另一方面,真實(shí)參數(shù)θ是未知或不確定的,因此可以表示成隨機(jī)變量。在觀察到數(shù)據(jù)前,我們將θ的已知知識(shí)表示成先驗(yàn)概率分布p(θ),然后觀測(cè)一個(gè)包含m個(gè)樣本的數(shù)據(jù)集X。則綜合數(shù)據(jù)集和先驗(yàn)可以得到對(duì)參數(shù)θ的概率分布進(jìn)行估計(jì)

相對(duì)于最大似然估計(jì),貝葉斯估計(jì)有兩個(gè)重要區(qū)別。第一,不像最大似然方法預(yù)測(cè)時(shí)使用θ的點(diǎn)估計(jì),貝葉斯方法預(yù)測(cè)θ的全分布。例如,在觀測(cè)到m個(gè)樣本后,下一個(gè)數(shù)據(jù)樣本,x(m+1),的預(yù)測(cè)分布如下:

貝葉斯方法和最大似然方法的第二個(gè)最大區(qū)別是由貝葉斯先驗(yàn)分布造成的。先驗(yàn)?zāi)軌蛴绊懜怕寿|(zhì)量密度朝參數(shù)空間中偏好先驗(yàn)的區(qū)域偏移。實(shí)踐中,先驗(yàn)通常表現(xiàn)為偏好更簡(jiǎn)單或更光滑的模型。對(duì)貝葉斯方法的批判認(rèn)為先驗(yàn)是人為主觀判斷影響預(yù)測(cè)的來(lái)源。當(dāng)訓(xùn)練數(shù)據(jù)很有限時(shí),貝葉斯方法通常泛化得更好,但是當(dāng)訓(xùn)練樣本數(shù)目很大時(shí),通常會(huì)有很高的計(jì)算代價(jià)。

6.1?最大后驗(yàn)(MAP)估計(jì)

貝葉斯有時(shí)求解非常困難,可用最大后驗(yàn)求得近似解。

MAP估計(jì)選擇后驗(yàn)概率最大的點(diǎn)(或在θ是連續(xù)值的更常見(jiàn)情況下,概率密度最大的點(diǎn)):

我們可以認(rèn)出上式右邊的logp(x|θ)對(duì)應(yīng)著標(biāo)準(zhǔn)的對(duì)數(shù)似然項(xiàng),logp(θ)對(duì)應(yīng)著先驗(yàn)分布。

MLE,貝葉斯,MAP? ?-----------? ?三種方法都是參數(shù)估計(jì)的方法。

應(yīng)用場(chǎng)景:預(yù)先知道/假設(shè)樣本的分布形式,只是一些參數(shù)未知。給定數(shù)據(jù)集,進(jìn)行參數(shù)估計(jì)。

區(qū)別:

MLE:最簡(jiǎn)單的形式,最大似然把待估的參數(shù)看做是確定性的量,只是其取值未知。最佳估計(jì)就是使得產(chǎn)生以觀測(cè)到的樣本的概率最大的那個(gè)值,即找到使得樣本對(duì)數(shù)似然分布最大的參數(shù)即可??梢岳斫鉃椋蠼馐挂呀?jīng)觀測(cè)到的數(shù)據(jù)集出現(xiàn)概率最大的參數(shù)。

MAP:和最大似然很相似,也是假定參數(shù)未知,但是為確定數(shù)值。只是優(yōu)化函數(shù)為后驗(yàn)概率形式,多了一個(gè)先驗(yàn)概率項(xiàng)。

貝葉斯:假定參數(shù)是隨機(jī)變量,不是確定值。在樣本分布D上,計(jì)算參數(shù)所有可能的情況,并通過(guò)基于參數(shù)期望,計(jì)算類條件概率密度。貝葉斯估計(jì)和MLE不同地方在于,把待估計(jì)的參數(shù)看成是符合某種先驗(yàn)概率分布的隨機(jī)變量。對(duì)樣本進(jìn)行觀測(cè)的過(guò)程,就是把先驗(yàn)概率密度轉(zhuǎn)化為后驗(yàn)概率密度,這樣就利用樣本的信息修正了對(duì)參數(shù)的初始估計(jì)值。在貝葉斯估計(jì)中,一個(gè)典型的效果就是,每得到新的觀測(cè)樣本,都使得后驗(yàn)概率密度函數(shù)變得更加尖銳,使其在待估參數(shù)的真實(shí)值附近形成最大的尖峰。

聯(lián)系:

參數(shù)估計(jì)問(wèn)題是統(tǒng)計(jì)學(xué)中的經(jīng)典問(wèn)題。最常用的和有效的方法就是:最大似然和貝葉斯估計(jì)。? ?

當(dāng)參數(shù)分布為尖峰,且該參數(shù)對(duì)應(yīng)樣本分布比較平坦時(shí),極大似然近似于貝葉斯。

總體上,極大似然計(jì)算簡(jiǎn)單,而貝葉斯在某些特殊情況下,效果好于極大似然。

參考:

http://blog.sina.com.cn/s/blog_6ae1839101012xur.html

http://bealin.github.io/2017/02/27/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%B3%BB%E5%88%97%E2%80%944-%E5%8F%82%E6%95%B0%E4%BC%B0%E8%AE%A1%E6%96%B9%E6%B3%95-%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1%E5%92%8C%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%8F%82%E6%95%B0%E4%BC%B0%E8%AE%A1/

http://crescentmoon.info/2013/06/29/Gibbs%20Sampling%20for%20the%20UniniTiated-1/

http://www.lxweimin.com/p/4cee5817a61f

7 監(jiān)督學(xué)習(xí)算法

策略:很多監(jiān)督學(xué)習(xí)算法都是基于估計(jì)概率分布p(y|x)。

????首先,確定正確的輸入和輸出變量上的有參條件概率分布族p(y|x;θ);然后找到對(duì)于有參分布族p(y|x;θ)最好的參數(shù)向量,尋找參數(shù)時(shí)簡(jiǎn)單的問(wèn)題如線性回歸可通過(guò)求解正規(guī)方程得到最佳參數(shù),更一般的問(wèn)題,最佳權(quán)重沒(méi)有閉解,使用最大似然估計(jì)求解,通過(guò)梯度下降最小化負(fù)對(duì)數(shù)似然求得最佳權(quán)重參數(shù)。

例如,線性回歸;邏輯回歸;支持向量機(jī);k近鄰回歸 - 非參數(shù)學(xué)習(xí)算法;決策樹(shù),及其變種 - 一類將輸入空間分成不同區(qū)域,每個(gè)區(qū)域有獨(dú)立的參數(shù)的算法。若允許學(xué)習(xí)任意大小的決策樹(shù),那么可以被視作非參數(shù)算法。然而實(shí)踐中通常有大小限制作為正則化項(xiàng)將其轉(zhuǎn)變成有參模型。決策樹(shù)學(xué)習(xí)結(jié)果是一個(gè)分塊常數(shù)函數(shù),每一個(gè)葉結(jié)點(diǎn)一個(gè)區(qū)域,每個(gè)葉需要至少一個(gè)訓(xùn)練樣本來(lái)定義,所以決策樹(shù)不可能用來(lái)學(xué)習(xí)一個(gè)擁有比訓(xùn)練樣本數(shù)量還多的局部極大值的函數(shù)。

8 無(wú)監(jiān)督學(xué)習(xí)算法

從不需要認(rèn)為標(biāo)注樣本的分布中抽取信息:從分布中采樣,從分布中去噪,得到數(shù)據(jù)分布的流形,將數(shù)據(jù)中相關(guān)的樣本聚類等。

一個(gè)經(jīng)典的無(wú)監(jiān)督學(xué)習(xí)任務(wù)是找到數(shù)據(jù)的“最佳”表示。即該表示比本身更簡(jiǎn)單,且盡可能保存更多本身的信息。更簡(jiǎn)單包括:低維表示,稀疏表示,獨(dú)立表示。

主成分分析:學(xué)習(xí)了一種元素之間彼此沒(méi)有線性相關(guān)的表示,可以消除數(shù)據(jù)中未知變動(dòng)因素。- 獨(dú)立表示。

k-均值聚類:- 稀疏表示

9 隨機(jī)梯度下降(SGD)

核心思想:梯度是期望,期望可使用小規(guī)模的樣本近似估計(jì)。優(yōu)化算法可能不能保證在合理的時(shí)間內(nèi)達(dá)到一個(gè)局部最小值,但它通常能夠很快地找到損失函數(shù)的一個(gè)可以用的非常低的值。

訓(xùn)練集樣本量m,minibatch大小m',實(shí)踐中當(dāng)m增加時(shí)通常會(huì)使用一個(gè)更大的模型(不是必須的),達(dá)到收斂所需的更新次數(shù)通常會(huì)隨著訓(xùn)練集規(guī)模m的增大而增加。然而,當(dāng)m趨向于無(wú)限大時(shí),該模型最終會(huì)在一定迭代后收斂到可能的最優(yōu)測(cè)試誤差。繼續(xù)增加m不會(huì)延長(zhǎng)達(dá)到模型可能的最優(yōu)測(cè)試誤差的時(shí)間。所以,可以認(rèn)為SGD訓(xùn)練模型的漸近代價(jià)是關(guān)于訓(xùn)練集樣本量m的函數(shù)的O(1)級(jí)別。

10 構(gòu)建機(jī)器學(xué)習(xí)算法

通用的深度學(xué)習(xí)算法配方:特定數(shù)據(jù)集,損失函數(shù),優(yōu)化過(guò)程和模型。

最常見(jiàn)的損失函數(shù)是負(fù)對(duì)數(shù)似然,最小化損失函數(shù)即最大似然估計(jì)。損失函數(shù)可能有附加項(xiàng),如正則化項(xiàng)。

11 推動(dòng)深度學(xué)習(xí)的挑戰(zhàn)

深度學(xué)習(xí)發(fā)展動(dòng)機(jī)的一部分原因是傳統(tǒng)學(xué)習(xí)算法在諸如語(yǔ)音識(shí)別,對(duì)象識(shí)別的人工智能問(wèn)題上的泛化能力不行。

為何處理高維數(shù)據(jù)時(shí)在新樣本上泛化特別困難?

為何傳統(tǒng)機(jī)器學(xué)習(xí)中實(shí)現(xiàn)泛化的機(jī)制不適合學(xué)習(xí)高維空間中的復(fù)雜函數(shù)?

11.1 維數(shù)災(zāi)難

當(dāng)數(shù)據(jù)的維數(shù)很高時(shí),很多機(jī)器學(xué)習(xí)問(wèn)題變得相當(dāng)困難,這種現(xiàn)象被稱為維數(shù)災(zāi)難。需要注意的是,一組變量不同的可能配置數(shù)量會(huì)隨著變量數(shù)目的增加而指數(shù)級(jí)增長(zhǎng)。


由維數(shù)災(zāi)難帶來(lái)的一個(gè)挑戰(zhàn)是統(tǒng)計(jì)挑戰(zhàn)。統(tǒng)計(jì)挑戰(zhàn)產(chǎn)生于樣本的可能配置數(shù)目遠(yuǎn)大于訓(xùn)練樣本的數(shù)目。許多傳統(tǒng)的及機(jī)器學(xué)習(xí)方法只是簡(jiǎn)單地假設(shè)在一個(gè)新點(diǎn)的輸出應(yīng)大致和最接近的訓(xùn)練點(diǎn)的輸出相同。然而在高維空間中,這個(gè)假設(shè)是不夠的。(因?yàn)樵诟呔S空間中,一個(gè)樣本周圍可能沒(méi)有樣本,參數(shù)配置數(shù)目遠(yuǎn)大于樣本數(shù)目,大部分配置沒(méi)有相關(guān)的樣本。)

11.2 局部不變性和平滑正則化

為了更好地泛化,機(jī)器學(xué)習(xí)算法需要由先驗(yàn)信念引導(dǎo)應(yīng)該學(xué)習(xí)什么樣的函數(shù)。

其中最廣泛使用的隱式“先驗(yàn)”是平滑先驗(yàn)/局部不變性先驗(yàn)。這個(gè)先驗(yàn)表明我們學(xué)習(xí)的函數(shù)不應(yīng)在小區(qū)域內(nèi)發(fā)生很大的變化。

許多簡(jiǎn)單算法完全依賴于此先驗(yàn)達(dá)到良好的泛化,其結(jié)果是不能推廣去解決人工智能級(jí)別任務(wù)中的統(tǒng)計(jì)挑戰(zhàn)。而深度學(xué)習(xí)引入額外的(顯示的和隱式的)先驗(yàn)去降低復(fù)雜任務(wù)中的泛化誤差,具體內(nèi)容后面章節(jié)介紹。

為什么平滑先驗(yàn)不足以應(yīng)對(duì)這這類人工智能任務(wù)?

因?yàn)榫哂泄饣蚓植坎蛔兊南闰?yàn)的函數(shù)都旨在鼓勵(lì)學(xué)習(xí)過(guò)程能夠?qū)W習(xí)出函數(shù)使得對(duì)某個(gè)樣本及其鄰域具有相同或相似的輸出。也就是說(shuō),如果在輸入x處效果良好,那么在其鄰域上效果也良好。如果在有些鄰域中有好幾個(gè)答案,我們可以組合他們(通過(guò)某種形式的平均或插值法)以產(chǎn)生一個(gè)盡可能和大多數(shù)輸入一致的答案。然而,這類平滑先驗(yàn)的局限性就是無(wú)法表示比樣本數(shù)還多的復(fù)雜函數(shù)。例如,k近鄰方法,一個(gè)極端的例子就是k=1時(shí),不同區(qū)域的數(shù)目不可能比訓(xùn)練樣本還多;局部核可以看作是執(zhí)行模版匹配的相似函數(shù),也是在和訓(xùn)練樣本附近相關(guān)的訓(xùn)練集輸出上插值;決策樹(shù)也有平緩學(xué)習(xí)的局限性,因?yàn)樗鼘⑤斎肟臻g分成葉結(jié)點(diǎn)一樣多的區(qū)間,并在每個(gè)區(qū)間使用單獨(dú)的參數(shù),如果目標(biāo)函數(shù)需要至少n個(gè)葉結(jié)點(diǎn)去精確表示,那么需要至少n個(gè)訓(xùn)練樣本去擬合,需要幾倍于n的樣本去達(dá)到預(yù)測(cè)輸出上的某種統(tǒng)計(jì)置信度。

總的來(lái)說(shuō),區(qū)分輸入空間中O(k)個(gè)區(qū)間,平滑先驗(yàn)類的算法需要O(k)個(gè)樣本。通常會(huì)有O(k)個(gè)參數(shù)。

有沒(méi)有什么方法能表示區(qū)間數(shù)目比樣本數(shù)目還多的復(fù)雜函數(shù)?顯然,只是假設(shè)函數(shù)的平滑性不能做到這點(diǎn)。例如,想象目標(biāo)函數(shù)是一種棋盤。棋盤包含許多變化,但只有一個(gè)簡(jiǎn)單的結(jié)構(gòu)。想象一下,如果訓(xùn)練樣本數(shù)目遠(yuǎn)小于棋盤上的黑白方塊數(shù)目,那么會(huì)發(fā)生什么?;诰植糠夯推交曰蚓植坎蛔冃韵闰?yàn),如果新點(diǎn)和某個(gè)訓(xùn)練樣本位于相同的棋盤方塊中,那么我們能夠保證正確預(yù)測(cè)新點(diǎn)的顏色。但如果新點(diǎn)位于棋盤中不包含訓(xùn)練樣本的方塊中,無(wú)法保證預(yù)測(cè)能夠正確。單單是這個(gè)先驗(yàn),一個(gè)樣本只能告訴我們它所在的方塊的顏色。獲得整個(gè)棋盤顏色的唯一方法是其上的每個(gè)方塊至少要有一個(gè)樣本。當(dāng)我們利用一組樣本去學(xué)習(xí)函數(shù)時(shí),若要學(xué)習(xí)的函數(shù)足夠平滑并且只在少數(shù)幾維變動(dòng),一般算法的效果非常好;然而在高維空間中,即使是非常平滑的函數(shù)也會(huì)在不同維度上有不同的平滑變動(dòng)程度。如果函數(shù)在不同的區(qū)間中表現(xiàn)不一樣,那么就非常難用一組訓(xùn)練樣本去刻畫。那么這樣復(fù)雜的函數(shù)(能區(qū)分多于訓(xùn)練樣本數(shù)目的大量區(qū)間),有希望很好地泛化么?答案是有。關(guān)鍵是,只要我們?cè)趨^(qū)間相關(guān)性上引入額外的數(shù)據(jù)生成分布的假設(shè),那么O(k)個(gè)樣本是足以描述多如O(2^k)的大量區(qū)間。這樣,我們真的能做到非局部的泛化。許多不同的深度學(xué)習(xí)算法提出隱式或顯式的適用于大范圍人工智能問(wèn)題的合理假設(shè),使其可以利用這些優(yōu)勢(shì)。

一些機(jī)器學(xué)習(xí)方法往往會(huì)提出更強(qiáng)的,針對(duì)特定問(wèn)題的假設(shè)。例如,假設(shè)目標(biāo)函數(shù)是周期性的,我們很容易解決棋盤問(wèn)題。通常,神經(jīng)網(wǎng)絡(luò)不會(huì)包含這些很強(qiáng)的,針對(duì)特定任務(wù)的假設(shè),因此神經(jīng)網(wǎng)絡(luò)可以泛化到更廣泛的各種結(jié)構(gòu)中。人工智能任務(wù)的結(jié)構(gòu)非常復(fù)雜,很難限制到簡(jiǎn)單的,人工手動(dòng)指定的性質(zhì),如周期性,因此我們希望學(xué)習(xí)算法具有更通用的假設(shè)。深度學(xué)習(xí)的核心思想是假設(shè)數(shù)據(jù)由因素或特征組合,潛在地由層次結(jié)構(gòu)中多個(gè)層級(jí)產(chǎn)生。許多其他類似的通用假設(shè)進(jìn)一步提高了深度學(xué)習(xí)算法。這些很溫和的假設(shè)在樣本數(shù)目和可區(qū)分區(qū)間數(shù)目之間具有指數(shù)增益。這類指數(shù)增益將在第6.4.1節(jié),第15.4節(jié)和第15.5節(jié)中被更詳盡地介紹。深度分布式表示帶來(lái)的指數(shù)增益有效解決了維數(shù)災(zāi)難帶來(lái)的挑戰(zhàn)。

11.3 流形學(xué)習(xí)

流形是一個(gè)機(jī)器學(xué)習(xí)中很多想法內(nèi)在的重要概念。

流形(manifold)指連接在一起的區(qū)域。數(shù)學(xué)上,它是指一組點(diǎn),且每個(gè)點(diǎn)都有其鄰域。但是在機(jī)器學(xué)習(xí)中,傾向于更松散地定義一組點(diǎn),且允許流形的維數(shù)從一個(gè)點(diǎn)到另一個(gè)點(diǎn)有所變化。例如,“8”形狀的流形在大多數(shù)位置只有一維,但在中心的相交處有兩維。

如果令機(jī)器學(xué)習(xí)算法學(xué)習(xí)特征空間上的所有感興趣的函數(shù),那么很多機(jī)器學(xué)習(xí)問(wèn)題看上去都是不可解的。流形學(xué)習(xí)算法通過(guò)一個(gè)假設(shè)來(lái)克服這個(gè)障礙,該假設(shè)認(rèn)為特征空間中大部分區(qū)域都是無(wú)效的輸入,感興趣的輸入只分布在包含少量點(diǎn)的子集構(gòu)成的一組流形中,而學(xué)習(xí)函數(shù)中感興趣輸出的變動(dòng)只位于流形中的方向,或者感興趣的變動(dòng)只發(fā)生在我們從一個(gè)流形移動(dòng)到另一個(gè)流形的時(shí)候。

上面說(shuō)的流形學(xué)習(xí)的假設(shè)并不總是對(duì)的或者有用的,但在一些處理圖像,文本等人工智能任務(wù)時(shí),流形假設(shè)至少是近似對(duì)的,支持該假設(shè)的證據(jù)包含兩類觀察結(jié)果:一,第一個(gè)支持流形假設(shè)的觀察是現(xiàn)實(shí)生活中的圖像,文本,聲音的概率分布都是高度集中的。均勻的噪擾從來(lái)沒(méi)有和這類領(lǐng)域的結(jié)構(gòu)化輸入相似過(guò)。說(shuō)明生活中的圖像,文本,聲音等只占了其所在總空間里非常小的一部分。當(dāng)然,集中的概率分布不足以說(shuō)明數(shù)據(jù)位于一個(gè)相當(dāng)小的流形中。我們還必須確定,我們遇到的樣本和其他樣本相互連接,每個(gè)樣本被其他高度相似的樣本包圍,可以通過(guò)變換來(lái)遍歷流形。二,支持流形假設(shè)的第二個(gè)論點(diǎn)是,我們至少能夠非正式地想象這些鄰域和變換。在圖像中,我們會(huì)認(rèn)為有很多可能的變換允許我們描繪出圖片空間的流形,如調(diào)整亮度,移動(dòng)旋轉(zhuǎn),改變顏色等等。在大多數(shù)應(yīng)用中很可能會(huì)涉及多個(gè)流形。例如,人臉圖像的流形不太可能連接到貓臉圖像的流形。

當(dāng)數(shù)據(jù)位于低維流形時(shí),使用流形中的坐標(biāo),而非特征空間的坐標(biāo)表示機(jī)器學(xué)習(xí)數(shù)據(jù)更為自然。日常生活中,我們可以認(rèn)為道路是嵌入在三維空間的一維流形。我們用一維道路中的地址號(hào)碼確定地址,而非三維空間中的坐標(biāo)。提取這些流形中的坐標(biāo)是非常具有挑戰(zhàn)性的,但是很有希望改進(jìn)許多機(jī)器學(xué)習(xí)算法。

本章(第一部分:應(yīng)用數(shù)學(xué)+機(jī)器學(xué)習(xí)基礎(chǔ))介紹了機(jī)器學(xué)習(xí)中的基本概念,這將用于本書(shū)的其他章節(jié)中。至此,我們已經(jīng)完成了開(kāi)始學(xué)習(xí)深度學(xué)習(xí)的準(zhǔn)備。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,505評(píng)論 6 533
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,556評(píng)論 3 418
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事?!?“怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 176,463評(píng)論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 63,009評(píng)論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,778評(píng)論 6 410
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 55,218評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,281評(píng)論 3 441
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 42,436評(píng)論 0 288
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,969評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,795評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,993評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,537評(píng)論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,229評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 34,659評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 35,917評(píng)論 1 286
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,687評(píng)論 3 392
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,990評(píng)論 2 374

推薦閱讀更多精彩內(nèi)容