機器學習概率分布

1 常見概率分布

1.1 均勻分布

  • 分布函數與數字特征

p(x|a,b) = U(x,|a,b) = \frac{1}{b-a}

E[x] = \frac{a + b} {2}

var[x] = \frac{(b-a)^2}{12}

  • 若變量x服從均勻分布U[0,1],則a+(b-a)x服從U[a,b]
  • 若變量y服從均勻分布U[a,b], 則\frac{y-a}{b-a}服從U[0,1]

1.2 伯努利分布

  • 分布函數與數字特征
    p(x|\mu) = Bern(x|\mu) = \mu^x(1 - \mu)^{1-x}

    E[x] = \mu

    var[x] = \mu(1 - \mu)

  • 參數估計

    若從p(x|\mu)總體中獨立得抽取樣本x_1...x_N,可構造關于\mu的似然函數:
    p(x_1...x_N|\mu) = \prod_{n = 1}^{N}p(x_n|\mu) = \prod_{n = 1}^{N}\mu^{x_n}(1 - \mu)^{1-x_n};n = 1,...,N
    對數形式為:
    \Sigma_{n=1}^{N}\ln p(x_1...x_N|\mu) = \Sigma_{n = 1}^{N}[x_n\ln \mu + (1-x_n)\ln (1- \mu)]
    \mu求偏導數,令:
    \frac{\partial p(x_1...x_N|\mu)}{\partial \mu} = 0
    得到非負函數的極大值點\mu = \frac{\Sigma_{n = 1}^N x_i}{N} = \frac{n^{(x_i = 1)}}{N}

1.3 二項分布

  • 分布函數與數字特征
    P(m|N,\mu) = Bin(m|N,\mu) = \dbinom{N}{m}\mu^m(1 - \mu)^{N-m}

    E[x] = N\mu

    var[x] = N\mu(1 - \mu)

1.4 多項分布

1.4.1 n維伯努利分布

? 將伯努利分布由單變量擴展為n維向量x, 其中x_i為0,1變量,且\Sigma_{i = 1}^n x_i = 1;

? 并假設x_i取1的概率為\mu_i, \Sigma_{i = 1}^n\mu_i = 1;

? 由于x_i為0,1變量,則E[x_i] = E[x_i^2]

? 由于x_i,x_j相互獨立,則E[x_ix_j] = E[x_i]E[x_j]

  • 分布函數與數字特征
    P(x|\mu) = \prod_{i = 1}^{n}\mu^{x_i}

    E[x_i] = \mu_i

    var[xi] = E[x_i^2]-(E[x_i])^2 = E[x_i] - (E[x_i])^2 = \mu_i(1- \mu_i)

    cov[x_i,x_j] = \mathbb I[j = i]\mu_i(1- \mu_i)

1.4.2 多項分布

? N次獨立實驗中有m_ix_i = 1的概率

? 隨機向量的每個分量服從二項分布Bin(m_i|N, \mu_i)

  • 分布函數與數字特征
    p(m_1,m_2,...,m_n|N,\mu) = Mult(m_1,m_2,...,m_n|N,\mu) =\dbinom{N}{m_1,m_2,...,m_n}\prod_{i = 1}^n \mu_i^{m_i}

    E[m_i] = N\mu_i

    var[m_i] = N\mu_i(1 - \mu_i)

    cov[m_i,m_j] = E[m_im_j] - E[m_i]E[m_j] = -N\mu_i \mu_j

    其中:
    E[m_im_j] = \\ =-\Sigma_{i,j = 1}^N m_im_j\dbinom{N}{m_i,m_j}\mu_i^{n_i}\mu_j^{n_j}(1- \mu_i - \mu_j)^{N - m_i - m_j} \\= N(N -1)\mu_i \mu_j\Sigma_{i,j = 1}^N\dbinom{N-2}{m_i - 1,m_j - 1}\mu_i^{n_i - 1}\mu_j^{n_j - 1}(1 - \mu_i - \mu_j)^{N - m_i - m_j}\\ =N(N-1)\mu_i\mu_j

  • 參數估計

    若從總體p(m_1,m_2,...,m_n|N,\mu)中獨立得抽取了K個樣本x^{(1)},...,x^{(K)}(n維隨機向量),則似然函數為:
    p(x^{(1)},...,x^{(K)}|N,\mu) = \prod_{k = 1}^{K}\prod_{i = 1}^N \mu_i^{x_i^(k)} = \prod_{i = 1}^{N}\mu_i^{\Sigma_k x_i^{(k)}} = \prod_{i = 1}^N \mu_i^{n^{(x_i = 1)}}
    分別對\mu_i求偏導,得到\mu_i的極大似然估計為\frac{n^{(x_i = 1)}}{N}

1.5 Beta分布

  1. 不完全Beta函數:B(P,Q) = x^{P-1}(1-x)^{Q - 1}, 0 \leq x \leq 1,P > 0, Q>0

  2. Beta函數:B(P,Q) = \int_0^1x^{P-1}(1-x)^{Q - 1}dx

  3. 不完全Beta函數與對應Beta函數的比值I(x;P,Q) = \frac{B(x;P,Q)}{B(P,Q)}構成了歸一化的Beta函數,它正好是滿足Beta分布的隨機變量的分布函數

  4. Gamma函數與Beta函數的關系:B(a,b) = \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}

  • 分布函數與數字特征
    p(\mu|a,b) = Beta(\mu|a,b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1} = \frac{1}{B(a,b)}\mu^{a-1}\mu^{b-1}

    E[\mu] = \frac{a}{a+b}

    var[\mu] = \frac{ab}{(a+b)^2(a+b+1)}

1.6 Dirichlet分布

? Dirichlet分布可以看作Beta分布的向量推廣,是關于一組n個連續變量\mu_i \in [0,1]的概率分布, \Sigma_{i=1}^{n}\mu_i = 1. 令 \mu = (\mu_1,\mu_2,...,\mu_n),參數\alpha = (\alpha_1,\alpha_2,...,\alpha_n),\alpha_i > 0,記\hat{\alpha} = \Sigma_{i = 1}^n\alpha_i

  • 分布函數與數字特征
    p(\mu|\alpha) = Dir(\mu|alpha) = \frac{\Gamma(\hat{\alpha})}{\Gamma(\alpha_1)...\Gamma(\alpha_n)}\prod_{i = 1}^n\mu_i^{\alpha_i-1}

    E[\mu_i] = \frac{\alpha_i}{\hat{\alpha}}\ \var[\mu_i] = \frac{\alpha_i(\hat\alpha - \alpha_i)}{\hat{\alpha}^2(\hat\alpha +1)}\ \cov[\mu_i,\mu_j] = \frac{\alpha_i(\hat \alpha-\alpha_j)}{\hat\alpha^2(\hat \alpha+1)}

1.7 Gaussian分布

  • 分布函數與數字特征
    N(x|\mu,\Sigma) = \frac{1}{(2\pi)^{D/2}|\Sigma|^{1/2}}\exp{[-\frac{1}{2}(x - \mu)^T\Sigma^{-1}(x - \mu)]}

  • Gaussian分布對\mu的依賴通過二次型表達:
    \Delta^2 =(x - \mu)^T\Sigma^{-1}(x - \mu); \Sigma = \Sigma_{i=1}^{D}\lambda_iu_iu_i^T
    \Delta稱為\mux之間的馬氏距離,當\Sigma是單位矩陣時,即為歐氏距離

    馬氏距離在回歸分析中,是測量某一自變量的觀測量與同一自變量所有觀測量平均值差異的統計量,此值越大,說明該觀測量為影響點的可能性越大。

  • 協方差矩陣的特征向量方程為\Sigma u_i = \lambda_i u_i,i = 1,...,D

    對于特征向量
    u_i^Tu_j=I_{ij}=\left\{ \begin{array}{rcl} 1 & & i = j\\ 0 & & others\\ \end{array} \right.

  • 根據逆矩陣的性質,得到馬氏距離的另一種表示:
    \Delta^2 =(x - \mu)^T\Sigma^{-1}(x - \mu) = (x - \mu)^T[\Sigma_{i=1}^{D}\frac{1}{\lambda_i}u_iu_i^T](x - \mu) = \Sigma_{i=1}^{D}\frac{y_i^2}{\lambda_i}
    其中y_i = u_i^T(x - \mu),y = (y_1,...,y_D) = U(x - \mu)

    U的行向量是u_i^T,滿足 UU^T = I
    p(y) = p(x)|J| = \prod_{j = 1}^D\frac{1}{(2\pi \lambda_j)^{1/2}}exp{[\frac{y_j^2}{2\lambda_j}]}

  • 高斯分布的優缺點:

    協方差矩陣與均值向量總計有\frac{D(D+3)}{2}個獨立參數,適應性強

    參數以D^2的速度增長,導致求逆計算困難,可以只在對角矩陣上計算,但會喪失對相關性分析的能力;單峰性,不能很好地表示多峰分布

  • 條件高斯分布

    協方差矩陣的逆成為精度矩陣,記為\Lambda = \Sigma^{-1},也是對稱矩陣
    \Lambda = \begin{bmatrix} \Lambda_{aa} & \Lambda_{ab} \\ \Lambda_{ba} & \Lambda_{bb} \end{bmatrix}\quad

  • 條件概率分布
    p(x_a|x_b) = N(x_a|\mu_{a|b},\Lambda_{aa}^{-1}),\mu_{a|b} = \mu_a - \Lambda_{aa}^{-1}\Lambda_{ab}(x_a - \mu_b)
    由于\begin{bmatrix} A & B \\ C & D \end {bmatrix}^{-1}\quad = \begin{bmatrix} M & -MBD^{-1} \\ -D^{-1}CM & D^{-1}+D^{-1}CMBD^{-1} \end {bmatrix}\quad ,M = (A-BD^{-1}C)^{-1}

    \begin{bmatrix} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \end {bmatrix}^{-1}\quad = \begin{bmatrix} \Lambda_{aa} & \Lambda_{ab} \\ \Lambda_{ba} & \Lambda_{bb} \end {bmatrix}\quad,于是
    \Lambda_{aa} = (\Sigma_{aa} - \Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba})^{-1}\\ \Lambda_{ab} = -(\Sigma_{aa}- \Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba})^{-1}\Sigma_{ab}\Sigma{ba}
    條件分布p(x_a|x_b)的數字特征為:
    \mu_{a|b} = \mu_a - \Sigma_{ab}\Sigma_{bb}^{-1}(x_b - \mu_b)\\ \Sigma_{a|b} = \Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba}

  • 邊緣概率分布
    p(x_a) = N(x_a|\mu_a,\Sigma_{aa})

  • Gaussian分布貝葉斯定理

    令x的邊緣分布和條件分布形式如下(x的維度設為D,y的維度設為M):
    p(x) = N(x|\mu,\Lambda^{-1})\\ p(y|x) = N(y|Ax+b,L^{-1})
    則:
    E[y] = A\mu + b\\ cov[y] = L^{-1} + A\Lambda^{-1}A^{T}

    即y的邊緣分布服從N(y|A\mu+b,L^{-1} + A\Lambda^{-1}A^{T})

    x在給定y的條件下的邊緣分布服從N((\Lambda+A^TLA)^{-1}[A^TL(y-b)+\Lambda\mu],(\Lambda+A^TLA)^{-1})

  • 參數估計

    假設從多元正態總體N(x|\mu,\Sigma)中抽取了N個樣本x_1^{(D)}...x_n^{(D)}

    對數似然函數:
    \ln p(x|\mu,\Sigma) = -\frac{ND}{2}\ln(2\pi)-\frac{N}{2}\ln\Sigma-\frac{1}{2}\Sigma_{n=1}^{N}[(x_n-\mu)^T\Sigma^{-1}(x_n-\mu)]
    分別對向量\mu和矩陣\Sigma求偏導,得到參數的極大似然估計:
    \mu_{ML} = \frac{1}{N}\Sigma_{n=1}^{N}x_n\\ \Sigma_{ML} = \frac{1}{N}\Sigma_{n=1}^{N}(x_n-\mu_{ML})(x_n-\mu_{ML})^T
    其中E[\mu_{ML}] = \mu,該極大似然估計為總體參數的無偏估計

    E[\Sigma_{ML}] = \frac{N-1}{N}\Sigma

2 共軛分布

? 假設變量x服從分布P(x|\Theta),\Theta為參數,X = (x_1,x_2,...,x_n)為變量x的觀測樣本,假設參數\Theta服從先驗分布 \prod(\Theta) 。

? 若由先驗分布\prod(\Theta)和抽樣分布(似然函數)P(x|\Theta)決定的后驗分布F(\Theta|X)\propto P(x|\Theta)*p(\theta|\prod(\Theta))\prod(\Theta)是同種類型的分布,則稱先驗分布\prod(\Theta)P(x|\Theta)(抽樣分布)的共軛分布

2.1 Beta-二項分布共軛

  • 假設x \sim Bern(x|\mu), X = (x_1,x_2,...,x_m)為觀測樣本,\bar x為觀測樣本的均值,\mu \sim Beta(\mu|a,b), 其中a,b為已知參數,則\mu的后驗分布為:

F(\mu|X) \propto Beta(\mu|a,b)P(X|\mu)\\ \begin{array}{l}{ = \frac{\mu^{a-1}(1-\mu)^{b-1}}{B(a,b)}\mu^{m\bar x}(1-\mu)^{m - m\bar x}\prod_{n = 1}^{m}\mu^{x_n}(1 - \mu)^{1-x_n} \\ = \frac{\mu^{a-1}(1-\mu)^{b-1}}{B(a,b)}\mu^{m\bar x}(1-\mu)^{m - m\bar x} \\ \propto\frac{1}{B(a+m\bar x,b+m-m\bar x)}\mu^{a+m\bar x-1}(1-\mu)^{b+m-m\bar x-1}\\ = Beta(\mu|a^{'},b^{'}) } \end{array}

? 由此可知\mu的后驗服從Beta(a+m\bar x,b+m-m\bar x),即Beta分布與二項分布共軛

2.2 Dirichlet-多項分布共軛

  • 假設參數\alpha = (\alpha_1,\alpha_2,...,\alpha_n)服從多項分布,先從總體中抽出n個樣本,樣本向量和為m = (m_1,m_2,...,m_k)

    則后驗分布有

p(\mu|D,\alpha) \propto p(D|\mu)p(\mu|\alpha) \propto \prod_{k = 1}^K\mu_k^{\alpha_k+m_k-1}\\ = Dir(\mu|\alpha +m)=\frac{\Gamma(\alpha_0+\Sigma_{k=1}^Km_k)}{\Gamma(\alpha_1+m_1)...\Gamma(\alpha_k+m_k)}\prod_{k=1}^K\mu_k^{\alpha_k+m_k-1}

? 仍服從Dirichlet分布

2.3 正態分布-正態分布共軛

  • 假設已知總體方差為\sigma^2,均值未知,先從該總體中抽出n個樣本,則
    p(x|\mu) = \prod_{i = 1}^np(x_i|\mu) = \frac{1}{(2\pi)^{n/2}\sigma^n}exp[-\frac{1}{2\sigma^2}\Sigma_{i=1}^n(x_n-\mu)^2]

    假設\mu的先驗分布服從N(\mu|\mu_0,\sigma_0^2)
    \mu的后驗分布為
    p(\mu|x) = N(\mu|\mu_N,\sigma_N^2)\\ \mu_N = \frac{\sigma^2}{N\sigma_0^2+\sigma^2}\mu_0+\frac{N\sigma_0^2} {N\sigma_0^2+\sigma^2}(\frac{1}{N}\Sigma_{i=1}^{n}x_n)\\ \frac{1}{\sigma_N^2} = \frac{1}{\sigma_0^2}+\frac{N}{\sigma^2}
    仍服從正態分布

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 二元變量 伯努利分布 似然函數為 對數似然函數為 如果我們令關于u的導數等于零,我們就得到了最大似然的估計值 現在...
    初七123閱讀 1,630評論 0 4
  • 概率分布 概率分布有兩種類型:離散(discrete)概率分布和連續(continuous)概率分布 離散概率分布...
    icebreakeros閱讀 4,864評論 0 0
  • 高等數學 1.導數定義: 導數和微分的概念 (1) 或者: (2) 2.左右導數導數的幾何意義和物理意義 函數在處...
    iOSDevLog閱讀 497評論 0 1
  • 高等數學 1.導數定義: 導數和微分的概念 (1) 或者: (2) 2.左右導數導數的幾何意義和物理意義 函數在處...
    噴氣式蝸牛閱讀 504評論 1 3
  • 以西瓜書為主線,以其他書籍作為參考進行補充,例如《統計學習方法》,《PRML》等 第一章 緒論 1.2 基本術語 ...
    danielAck閱讀 4,579評論 0 6