《模式識(shí)別與機(jī)器學(xué)習(xí)》:概率分布

二元變量

伯努利分布

似然函數(shù)為

對(duì)數(shù)似然函數(shù)為

如果我們令關(guān)于u的導(dǎo)數(shù)等于零,我們就得到了最大似然的估計(jì)值

現(xiàn)在假設(shè)我們?nèi)右粋€(gè)硬幣3次,碰巧3次都是正面朝上。那么N=m= 3,且uML= 1。這種情況下,最大似然的結(jié)果會(huì)預(yù)測(cè)所有未來的觀測(cè)值都是正面向上。常識(shí)告訴我們這個(gè)是不合理的。事實(shí)上,這是最大似然中過擬合現(xiàn)象的一個(gè)極端例子。

二項(xiàng)分布

Beta分布

如果我們選擇一個(gè)正比于u和(1-u)的冪指數(shù)的先驗(yàn)概率分布,那么后驗(yàn)概率分布(正比于先驗(yàn)和似然函數(shù)的乘積)就會(huì)有著與先驗(yàn)分布相同的函數(shù)形式。

其中前面的系數(shù)用于保證Beta分布是歸一化的

u的后驗(yàn)概率

后驗(yàn)概率是一個(gè)Beta分布,對(duì)于x= 1和x= 0的觀測(cè)總數(shù)(先驗(yàn)的和實(shí)際的)由參數(shù)a和b給出。觀測(cè)到一個(gè)x= 1僅僅對(duì)應(yīng)于把a(bǔ)的值增加1,而觀測(cè)到x= 0會(huì)使b增加1。圖2.3說明了這個(gè)過程中的一個(gè)步驟。

預(yù)測(cè)可以表示為

在數(shù)據(jù)集無限大的極限情況下,此時(shí)公式(2.20)的結(jié)果變成了最大似然的結(jié)果(2.8)

多項(xiàng)式變量

那么分布可以表示為

似然函數(shù)

拉格朗日求解帶約束的最大似然函數(shù)

多項(xiàng)式分布

狄利克雷分布

后驗(yàn)概率

高斯分布

一維形式

高維形式

我們考慮高斯分布的幾何形式

首先,我們注意到協(xié)方差矩陣可以取為對(duì)稱矩陣,而不失一般性。這是因?yàn)槿魏畏菍?duì)稱項(xiàng)都會(huì)從指數(shù)中消失。現(xiàn)在考慮協(xié)方差矩陣的特征向量方程

特征值可以選為正交的

協(xié)方差矩陣可以表示成特征向量的展開的形式(特征值分解)

把公式(2.49)代入公式(2.44),二次型就變成了

這個(gè)坐標(biāo)變換也可以表示為

現(xiàn)在考慮在由yi定義的新坐標(biāo)系下高斯分布的形式。

其行列式為

協(xié)方差矩陣的行列式可以寫成特征值的乘積

所以y坐標(biāo)下的高斯分布可以表示為

這是D個(gè)獨(dú)立一元高斯分布的乘積。特征向量因此定義了一個(gè)新的旋轉(zhuǎn)、平移的坐標(biāo)系,在這個(gè)坐標(biāo)系中聯(lián)合概率分布可以分解成獨(dú)立分布的乘積。

一階矩

二階矩

可以化簡(jiǎn)得到

條件高斯分布

多元高斯分布的一個(gè)重要性質(zhì)是,如果兩組變量是聯(lián)合高斯分布,那么以一組變量為條件,另一組變量同樣是高斯分布。類似地,任何一個(gè)變量的邊緣分布也是高斯分布。

我們把x劃分成兩個(gè)不相交的子集xa和xb

首先,我們來尋找條件概率分布p(xa|xb)的表達(dá)式。根據(jù)概率的乘積規(guī)則,我們看到,條件分布可以根據(jù)聯(lián)合分布p(x) =p(xa;xb)很容易地計(jì)算出來。我們只需把xb固定為觀測(cè)值,然后對(duì)得到的表達(dá)式進(jìn)行歸一化,得到xa的一個(gè)合法的概率分布。我們不顯示地進(jìn)行歸一化,相反,我們可以用一種更有效率的方式求解。我們首先考慮由公式(2.44)給出的高斯分布指數(shù)項(xiàng)中出現(xiàn)的二次型,然后在計(jì)算的最后階段重新考慮歸一化系數(shù)。

可以表示為

因此可以得到

由于

所以可以得到

邊緣高斯分布

首先考慮涉及到xb的項(xiàng),然后配出平方項(xiàng),使得積分能夠更方便地計(jì)算。選出涉及到xb的項(xiàng),我們有

唯一剩余的與xa相關(guān)的項(xiàng)就是公式(2.84)的右側(cè)的最后一項(xiàng),其中m由公式(2.85)給出。把這一項(xiàng)與公式(2.70)中余下的與xa相關(guān)的項(xiàng)結(jié)合,我們有

高斯變量的貝葉斯定理

我們令邊緣概率分布和條件概率分布的形式如下

考慮一個(gè)聯(lián)合分布z

為了找到這個(gè)高斯分布的精度,我們考慮公式(2.102)的第二項(xiàng),它可以寫成

找到(2.102)中的線性項(xiàng),采用前面類似的方法可以得到

同時(shí)利用前文邊緣分布、條件分布的結(jié)論

小結(jié)

高斯分布的最大似然估計(jì)

順序估計(jì)

考慮公式(2.121)給出的均值的最大似然估計(jì)結(jié)果uML。當(dāng)它依賴于第N次觀察時(shí),將被記作u(N)ML。如果我們想分析最后一個(gè)數(shù)據(jù)點(diǎn)xN的貢獻(xiàn),我們有

Robbins-Monro算法

考慮一對(duì)隨機(jī)變量Θ和z,它們由一個(gè)聯(lián)合概率分布p(z;Θ)所控制。已知Θ的條件下,z的條件期望定義了一個(gè)確定的函數(shù)f(Θ),形式如下

我們的目標(biāo)是尋找Θ*使得f(Θ*) = 0。

我們假定z的條件方差是有窮的,因此

高斯分布的貝葉斯推斷

假設(shè)方差是已知的

令u服從先驗(yàn)分布

花一點(diǎn)時(shí)間來研究后驗(yàn)概率分布的均值和方差是很有意義的。首先,我們注意到由公式(2.141)給出的后驗(yàn)分布的均值是先驗(yàn)均值u0和最大似然解uML的折中。如果觀測(cè)數(shù)據(jù)點(diǎn)的數(shù)量N= 0,那么與我們想的一樣,公式(2.141)就變成了先驗(yàn)均值。

如果從一個(gè)順序的觀點(diǎn)來看,那么貝葉斯方法就變得非常自然了。為了在高斯分布均值推斷的問題中說明這一點(diǎn),我們把后驗(yàn)分布中最后一個(gè)數(shù)據(jù)點(diǎn)xN的貢獻(xiàn)單獨(dú)寫出來,即

現(xiàn)在假設(shè)均值是已知的,我們要推斷方差

對(duì)應(yīng)的共軛先驗(yàn)因此應(yīng)該正比于λ的冪指數(shù),也正比于λ的線性函數(shù)的指數(shù)。這對(duì)應(yīng)于Gamma分布,定義為

所以我們得到后驗(yàn)分布

現(xiàn)在假設(shè)均值和精度都是未知的。為了找到共軛先驗(yàn)

我們現(xiàn)在想找到一個(gè)先驗(yàn)分布,它對(duì)于u和精度的依賴與似然函數(shù)有著相同的函數(shù)形式

這就是高斯-Gamma分布

在多維的情況下有些不一樣

學(xué)生t分布

對(duì)高斯-Gamma分布積分

這就是student-t分布,參數(shù)lamda有時(shí)被稱為t分布的精度(precision),即使它通常不等于方差的倒數(shù)。參數(shù)v被稱為自由度(degrees of freedom),當(dāng)自由度無窮的時(shí)候student-t分布變?yōu)楦咚狗植肌?/p>

整理一下student-t的表示形式

周期變量

高斯分布不適合對(duì)周期變量建模,例如:我們可以測(cè)量許多天的風(fēng)向值,然后希望使用一個(gè)參數(shù)分布來總結(jié)風(fēng)向的規(guī)律。選擇一個(gè)方向作為原點(diǎn),然后應(yīng)用傳統(tǒng)的概率分布(例如高斯分布)。但是,這種方法的結(jié)果將會(huì)強(qiáng)烈依賴于原點(diǎn)的選擇。

所以我們考慮下面的方法

我們現(xiàn)在考慮高斯分布對(duì)于周期變量的一個(gè)推廣:von Mises分布

設(shè)一個(gè)二維的高斯分布

根據(jù)前面的方法有

代入二維高斯分布中

混合高斯模型

我們考慮K個(gè)高斯概率密度的疊加,形式為

對(duì)數(shù)似然函數(shù)

我們立刻看到現(xiàn)在的情形比一元高斯分布復(fù)雜得多,因?yàn)閷?duì)數(shù)中存在一個(gè)求和式。這就導(dǎo)致參數(shù)的最大似然解不再有一個(gè)封閉形式的解析解。一種最大化這個(gè)似然函數(shù)的方法是使用迭代數(shù)值優(yōu)化方法(Fletcher, 1987; Nocedal and Wright, 1999; Bishop andNabney, 2008)。另一種方法是使用一個(gè)被稱為期望最大化(expectation maximization)的強(qiáng)大的框架,這將在第9章詳細(xì)討論。

指數(shù)族分布

伯努利分布轉(zhuǎn)換為指數(shù)族分布形式

多項(xiàng)式分布轉(zhuǎn)換為指數(shù)分布族形式

整理后可表示為

一元高斯分布轉(zhuǎn)換為指數(shù)分布族形式

最大似然與充分統(tǒng)計(jì)量

讓我們考慮用最大似然法估計(jì)公式(2.194)給出的一般形式的指數(shù)族分布的參數(shù)向量u的問題。

對(duì)公式(2.195)的兩側(cè)取梯度

共軛先驗(yàn)

我們已經(jīng)多次遇到共軛先驗(yàn)的概念。例如在伯努利分布中,共軛先驗(yàn)是Beta分布。在高斯分布中,均值的共軛先驗(yàn)是高斯分布,精度的共軛先驗(yàn)是Wishart分布。一般情況下,對(duì)于一個(gè)給定的概率分布p(x|u),我們能夠?qū)ふ乙粋€(gè)先驗(yàn)p(η)使其與似然函數(shù)共軛,從而后驗(yàn)分布的函數(shù)形式與先驗(yàn)分布相同。對(duì)于指數(shù)族分布(2.194)的任何成員,都存在一個(gè)共軛先驗(yàn),可以寫成下面的形式

無信息先驗(yàn)

我們可以尋找一種形式的先驗(yàn)分布,被稱為無信息先驗(yàn)(noninformativeprior)。這種先驗(yàn)分布的目的是盡量對(duì)后驗(yàn)分布產(chǎn)生盡可能小的影響(Jeffreys, 1946; Box andTiao, 1973; Bernardo and Smith, 1994)。這有時(shí)被稱為“讓數(shù)據(jù)自己說話”。

并且由于這必須對(duì)于任意的A和B的選擇都成立,因此我們有

可以看出p(u)是常數(shù),并且u的共軛先驗(yàn)分布是一個(gè)高斯分布。
根據(jù)公式(2.141)和公式(2.142),并且在標(biāo)準(zhǔn)差取無窮的情況下,在u的后驗(yàn)分布中,先驗(yàn)的貢獻(xiàn)消失了。

非參數(shù)化方法
本章中,我們已經(jīng)關(guān)注過的概率分布都有具體的函數(shù)形式,并且由少量的參數(shù)控制。這些參數(shù)的值可以由數(shù)據(jù)集確定。這被稱為概率密度建模的參數(shù)化(parametric)方法。這種方法的一個(gè)重要局限性是選擇的概率密度可能對(duì)于生成數(shù)據(jù)來說,是一個(gè)很差的模型,從而會(huì)導(dǎo)致相當(dāng)差的預(yù)測(cè)表現(xiàn)。例如,如果生成數(shù)據(jù)的過程是多峰的,那么這種分布不可能被高斯分布描述,因?yàn)樗菃畏宓摹?/p>

首先讓我們討論密度估計(jì)的直方圖方法。

在實(shí)際應(yīng)用中,直方圖方法對(duì)于快速地將一維或者二維的數(shù)據(jù)可視化很有用,但是并不適用于大多數(shù)概率密度估計(jì)的應(yīng)用。一個(gè)明顯的問題是估計(jì)的概率密度具有不連續(xù)性,這種不連續(xù)性是因?yàn)橄渥拥倪吘壴斐傻模皇且驗(yàn)樯蓴?shù)據(jù)的概率分布本身的性質(zhì)造成。

核密度估計(jì)

讓我們假設(shè)觀測(cè)服從D維空間的某個(gè)未知的概率密度分布p(x)。我們把這個(gè)D維空間選擇成歐幾里得空間,并且我們想估計(jì)p(x)的值。區(qū)域R的概率質(zhì)量為

在我們假設(shè)我們收集了服從p(x)分布的N次觀測(cè)。由于每個(gè)數(shù)據(jù)點(diǎn)都有一個(gè)落在區(qū)域R中的概率P,因此位于區(qū)域R內(nèi)部的數(shù)據(jù)點(diǎn)的總數(shù)K將服從二項(xiàng)分布

但是,如果我們也假定區(qū)域R足夠小,使得在這個(gè)區(qū)域內(nèi)的概率密度p(x)大致為常數(shù),那么我們有

其中V是區(qū)域R的體積。把公式(2.244)和公式(2.245)結(jié)合,我們得到概率密度的估計(jì),形式為

注意,公式(2.246)的成立依賴于兩個(gè)相互矛盾的假設(shè),即區(qū)域R要足夠小,使得這個(gè)區(qū)域內(nèi)的概率密度近似為常數(shù),但是也要足夠大,使得落在這個(gè)區(qū)域內(nèi)的數(shù)據(jù)點(diǎn)的數(shù)量K能夠足夠讓二項(xiàng)分布達(dá)到尖峰。

我們有兩種方式利用(2.246)的結(jié)果。我們可以固定K然后從數(shù)據(jù)中確定V的值,這就是K近鄰方法。我們還可以固定V然后從數(shù)據(jù)中確定K,這就是核方法。

這表示一個(gè)以原點(diǎn)為中心的單位立方體。函數(shù)k(u)是核函數(shù)(kernel function)的一個(gè)例子,在這個(gè)問題中也被稱為Parzen窗(Parzen window)。根據(jù)公式(2.247),如果數(shù)據(jù)點(diǎn)xn位于以x為中心的邊長為h的立方體中,那么量k(x - xn/h)的值等于1,否則它的值為0。

于是,位于這個(gè)立方體內(nèi)的數(shù)據(jù)點(diǎn)的總數(shù)為

把這個(gè)表達(dá)式代入公式(2.246),可以得到點(diǎn)x處的概率密度估計(jì)

核密度估計(jì)(2.249)有一個(gè)問題,這個(gè)問題也是直方圖方法具有的問題中的一個(gè)。這個(gè)問題就是人為帶來的非連續(xù)性。在之前所述的核密度估計(jì)方法中就是立方體的邊界。如果我們選擇一個(gè)平滑的核函數(shù),那么我們就可以得到一個(gè)更加光滑的模型。

其中h表示高斯分布的標(biāo)準(zhǔn)差。

近鄰方法

核方法進(jìn)行概率密度估計(jì)的一個(gè)困難之處是控制核寬度的參數(shù)h對(duì)于所有的核都是固定的。在高數(shù)據(jù)密度的區(qū)域,大的h值可能會(huì)造成過度平滑,并且破壞了本應(yīng)從數(shù)據(jù)中提取出的結(jié)構(gòu)。但是,減小h的值可能導(dǎo)致數(shù)據(jù)空間中低密度區(qū)域估計(jì)的噪聲。因此,h的最優(yōu)選擇可能依賴于數(shù)據(jù)空間的位置。這個(gè)問題可以通過概率密度的近鄰方法解決。

因此我們回到局部概率密度估計(jì)的一般結(jié)果(2.246)。與之前固定V然后從數(shù)據(jù)中確定K的值不同,我們考慮固定K的值然后使用數(shù)據(jù)來確定合適的V值。為了完成這一點(diǎn),我們考慮一個(gè)以x為中心的小球體,然后我們想估計(jì)概率密度p(x)。并且,我們?cè)试S球體的半徑可以自由增長,直到它精確地包含K個(gè)數(shù)據(jù)點(diǎn)。這樣,概率密度p(x)的估計(jì)就由公式(2.246)給出,其中V等于最終球體的體積。這種方法被稱為K近鄰方法。

如果應(yīng)用于分類問題

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容