在之前的一篇文章[機器學習-Bayesian概念學習,簡書]中提到了一組常用的共軛分布,beta分布-二項分布,它們都是離散型的概率分布,而一組更一般的離散型共軛分布為Dirichlet分布-多項分布。共軛分布一般用在我們需要給參數加先驗條件時,為了使運算式子保持統一的形式從而簡化計算,通常我們會采取共軛分布,更一般地,可以考慮共軛分布的線性組合,同時兼顧了先驗分布的合理性。
而在常見的連續概率分布-高斯分布中,也經常會有類似的討論。下面分享一些我學習高斯模型的體會。一維的高斯分布可能都不陌生,這里直接從更一般的多維高斯模型出發。
其中在指數中出現的Σ為對稱正定矩陣,故它的所有特征值都是正的,所有特征向量都互相正交,可以用來做度量,前后乘以(x-μ)就可以看做是||x-μ||_Σ的平方,即Σ范數的平方,由此可看出它是一維高斯分布的推廣,而當Σ為單位矩陣時,Σ范數便回到了我們熟悉的二范數。
假如Σ有特征值λ和特征向量u,則Σ的逆可以有如下分解
同時||x-μ||_Σ可以寫為
其中yi=<ui,x-μ>,即為x-μ在第i個特征向量方向上的投影。由上式可以看出,λi越大,則在第i個方向上的影響越小,同時λi越小,則相對來說在第i個方向上的影響越大。放到下圖來看,若由μ出發的向量y越靠近方向u1方向,則范數越小,越靠近u2方向,則范數越大。圖中所示的紅色橢圓是一個“等高線”,橢圓上的每一點在Σ范數下與μ的距離都相同,橢圓的軸長關系對應于λ的大小,即λ越大,相應方向的軸長越大。
當Σ為單位矩陣I時,或者更一般地,Σ的特征值都相等,則橢圓的各方向軸長都相等,從而多維高斯分布的等高線為圓,而這也對應于一維的情況。
Reference:
Machine Learning-A Probabilistic Perspective, Kevin P. Murphy, 2012.