寫在最前面
如今機(jī)器學(xué)習(xí)和深度學(xué)習(xí)如此火熱,相信很多像我一樣的普通程序猿或者還在大學(xué)校園中的同學(xué),一定也想?yún)⑴c其中。不管是出于好奇,還是自身充電,跟上潮流,我覺得都值得試一試。對(duì)于自己,經(jīng)歷了一段時(shí)間的系統(tǒng)學(xué)習(xí)(參考《機(jī)器學(xué)習(xí)/深度學(xué)習(xí)入門資料匯總》),現(xiàn)在計(jì)劃重新閱讀《機(jī)器學(xué)習(xí)》[周志華]和《深度學(xué)習(xí)》[Goodfellow et al]這兩本書,并在閱讀的過程中進(jìn)行記錄和總結(jié)。這兩本是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的入門經(jīng)典。筆記中除了會(huì)對(duì)書中核心及重點(diǎn)內(nèi)容進(jìn)行記錄,同時(shí),也會(huì)增加自己的理解,包括過程中的疑問,并盡量的和實(shí)際的工程應(yīng)用和現(xiàn)實(shí)場(chǎng)景進(jìn)行結(jié)合,使得知識(shí)不只是停留在理論層面,而是能夠更好的指導(dǎo)實(shí)踐。記錄筆記,一方面,是對(duì)自己先前學(xué)習(xí)過程的總結(jié)和補(bǔ)充。 另一方面,相信這個(gè)系列學(xué)習(xí)過程的記錄,也能為像我一樣入門機(jī)器學(xué)習(xí)和深度學(xué)習(xí)同學(xué)作為學(xué)習(xí)參考。
章節(jié)目錄
- 貝葉斯決策論
- 極大似然估計(jì)
- 樸素貝葉斯分類器
- 半樸素貝葉斯分類器
- 貝葉斯網(wǎng)
- EM算法
(一)貝葉斯決策論
貝葉斯決策論(Bayesian decision theory)是概率框架下的基本方法。
假設(shè)有N種可能的類別標(biāo)記,即y={c1,c2,...,cN},λij是一個(gè)將真實(shí)標(biāo)記為cj的樣本誤分類為ci產(chǎn)生的期望損失(expected loss),即在樣本x上的“條件風(fēng)險(xiǎn)”(conditional rsik),
我們的任務(wù)是尋找一個(gè)判斷準(zhǔn)則,以最小化總體風(fēng)險(xiǎn)。
欲使用貝葉斯判定準(zhǔn)則來最小化決策風(fēng)險(xiǎn),首先要獲得后驗(yàn)概率P(c|x)。然而,在現(xiàn)實(shí)任務(wù)中這通常難以直接獲得。從這個(gè)角度來看,機(jī)器學(xué)習(xí)所要實(shí)現(xiàn)的是基于有限的訓(xùn)練樣本盡可能準(zhǔn)確的估計(jì)出后驗(yàn)證概率P(c|x)。大體來說主要有兩種策略:
- 給定x,可通過直接建模P(c|x)來預(yù)測(cè)c,這樣得到的是“判別式模型”(discriminative models)
-
先對(duì)聯(lián)合概率分布P(x,c)建模,然后再由此獲得P(c|x),這樣得到的是“生成式模型”(generative models)。
顯然,前面介紹的決策樹、BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等,都可歸入判別式模型的范疇。對(duì)于生成式模型來說,必然考慮,
7.7
基于貝葉斯定理可寫成,
7.8
對(duì)給定樣本x,證據(jù)因子P(x)與類標(biāo)記無關(guān)。根據(jù)大數(shù)定理,先驗(yàn)概率P(c)可通過各類樣本出現(xiàn)的頻率來進(jìn)行估計(jì)。因此,估計(jì)P(x|c)的問題就主要轉(zhuǎn)換為如何基于訓(xùn)練樣本D來估計(jì)似然P(x|c)。
(二)極大似然估計(jì)
估計(jì)類條件概率的一種常見策略是先假定其具有某種確定的概率分布形式,再基于訓(xùn)練樣本對(duì)概率分布的參數(shù)進(jìn)行估計(jì)。
概率模型的訓(xùn)練過程就是參數(shù)估計(jì)(parameter estimation)過程。對(duì)于參數(shù)估計(jì),統(tǒng)計(jì)學(xué)界的兩個(gè)學(xué)派分別提供了不同的解決方案:
- 頻率主義學(xué)派(Frequentist)認(rèn)為參數(shù)雖然未知,但確實(shí)客觀存在的固定值,因此,可通過優(yōu)化似然函數(shù)等準(zhǔn)則來確定參數(shù)值。
- 貝葉斯學(xué)派(Bayesian)則認(rèn)為參數(shù)是未觀察到的隨機(jī)變量,其本身也有分布,因此,可假設(shè)參數(shù)服從一個(gè)先驗(yàn)分布,然后基于觀測(cè)到的數(shù)據(jù)來計(jì)算參數(shù)的后驗(yàn)分布。
書中的介紹來自頻率主義學(xué)派的極大似然估計(jì)(Maximum Likelihood Estimation,簡(jiǎn)稱MLE),這是根據(jù)數(shù)據(jù)采樣來估計(jì)概率分布參數(shù)的經(jīng)典方法。
(三)樸素貝葉斯分類器
基于貝葉斯公式來估計(jì)后驗(yàn)概率P(c|x)的主要困難在于,類條件概率P(x|c)是所有屬性上的聯(lián)合概率,難以從有限的訓(xùn)練樣本直接估計(jì)而得。為了避開這個(gè)障礙,樸素貝葉斯分類器(naive Bayes classifier)采用了“屬性條件獨(dú)立性假設(shè)”(attribute conditional independence assumption)。即對(duì)已知類別,假設(shè)所有屬性相互獨(dú)立。換言之,假設(shè)每個(gè)屬性獨(dú)立地對(duì)分類結(jié)果發(fā)生影響。
基于屬性條件獨(dú)立性假設(shè),條件概率P(c|x)可重寫為,
其中d為屬性數(shù)目,xi為x在第i個(gè)屬性上的取值。
由于對(duì)所有類別來說P(x)相同,因此貝葉斯判定準(zhǔn)則可寫為,
這就是樸素貝葉斯分類器的表達(dá)式。
(四)半樸素貝葉斯分類器
為了降低貝葉斯公式中估計(jì)后驗(yàn)概率P(c|x)的困難,樸素貝葉斯分類器采用了屬性條件獨(dú)立性假設(shè),但在現(xiàn)實(shí)任務(wù)中這個(gè)假設(shè)往往很難成立。于是,人們嘗試對(duì)屬性條件獨(dú)立性假設(shè)進(jìn)行一定程度的放松,因此產(chǎn)生了一類稱為“半樸素貝葉斯分類器”(semi-naive Bayes classifiers)的學(xué)習(xí)方法。
(五)貝葉斯網(wǎng)
貝葉斯網(wǎng)(Bayesian network)亦稱“信念網(wǎng)”(belief network),它借助有向無環(huán)圖(Directed Acyclic Graph,簡(jiǎn)稱DAG)來刻畫屬性之間的依賴關(guān)系,并使用條件概率表(Conditional Probability Table,簡(jiǎn)稱CPT)來描述屬性的聯(lián)合概率分布。
(六)EM算法
在前面的討論中,我們一直假設(shè)訓(xùn)練樣本所有屬性變量的值都已被觀測(cè)到,即訓(xùn)練樣本是“完整”的。但現(xiàn)實(shí)應(yīng)用中往往遇到“不完整”的訓(xùn)練樣本。在存在“未觀測(cè)”變量的情況下,是否仍能對(duì)模型參數(shù)進(jìn)行估計(jì)呢?
EM(Expectation-Maximization)算法就是常用的估計(jì)參數(shù)隱變量的利器。