R語(yǔ)言中EM算法估計(jì)高斯混合模型參數(shù)

EM算法

leengsmile
2016年9月24日

EM 算法

本文檔介紹如何在R語(yǔ)言中,通過(guò)EM算法,估計(jì)高斯混合模型的參數(shù)。首先通過(guò)簡(jiǎn)單的例子,用簡(jiǎn)單的程序描述EM算法估計(jì)高斯混合模型參數(shù)的過(guò)程,再介紹如何使用第三方包實(shí)現(xiàn)相應(yīng)的估計(jì)。

為保證數(shù)據(jù)結(jié)果的可重復(fù)性,設(shè)置隨機(jī)數(shù)種子

set.seed(123)

首先需要高斯混合模型的數(shù)據(jù)

n <- 1000
mean_s <- c(1, 7)
y <- sample(c("head", "tail"), size = n, replace = TRUE, prob = c(0.25, 0.75))
x <- rnorm(n = 1000, mean = mean_s[1])
tails <- y %in% c("tail")
x[tails] <- rnorm(sum(tails), mean = mean_s[2])

上述產(chǎn)生的混合模型是均值分別為1和7,標(biāo)準(zhǔn)差均為1的混合模型,且混合的概率為(0.25, 0.75)。 也就是說(shuō),混合模型中的觀測(cè)值有0.25的概率來(lái)自于均值為1的高斯分布,有0.75的概率來(lái)自于均值為7的高斯分布。

其概率概率密度函數(shù)為

require(lattice)
densityplot(~x, par.settings = list(plot.symbol = list(col = factor(y))))
density-plot.png

數(shù)據(jù)分布明顯,呈現(xiàn)很好的可分性。下面需要估計(jì)對(duì)應(yīng)的正太分布的均值,以及混合概率。這里假定方差恒定且相等,均為1。

probs <- c(0.5, 0.5)
mu_s <- c(0, 1)
sigma_s <- c(1, 1)
for(i in seq(10))
{
    ps <- matrix(0, ncol = 2, nrow = n)
    for(j in seq(2))
    {
        ps[, j] <- probs[j] * dnorm(x, mean = mu_s[j], sd = sqrt(sigma_s[j]))
    }
    ps <- ps / rowSums(ps)
    
    for(j in seq(2))
    {
        sigma_s[j] <- sum( ps[, j] * (x - mu_s[j])^2) / sum(ps[, j])
        mu_s[j] <- sum(x * ps[, j]) / sum(ps[, j])
        probs[j] <- mean(ps[, j])
        
    }
    
}

cat(
    "mean:", mean_s, "\n", 
    "sigma:", sqrt(sigma_s), "\n", 
    "prob:", probs, "\n", 
    sep = " "
)
## mean: 1 7 
##  sigma: 0.9415133 0.9913065 
##  prob: 0.2469451 0.7530549

估計(jì)的均值分別為0.9748991, 6.9999522,混合概率為0.2469451, 0.7530549。經(jīng)過(guò)10次迭代,估計(jì)值已經(jīng)很接近精確值。

可以將上述求解的過(guò)程封裝成一個(gè)函數(shù)

gmm <- function(x, mean, sd = NULL)
{
    num <- length(mean)
    if(is.null(sd))
    {
        sd <- rep(1, num)
    }
    
    epsilon <- 1e-4
    probs <- rep(1/num, num)
    mu_s <- mean
    sigma_s <- sd ^ 2
    n <- length(x)
    while(TRUE)
    {
        
        ps <- matrix(0, ncol = num, nrow = n)
        for(j in seq(num))
        {
            ps[, j] <- probs[j] * dnorm(x, mean = mu_s[j], sd = sqrt(sigma_s[j]))
        }
        ps <- ps / rowSums(ps)
        
        sigma_s_p <- sigma_s
        for(j in seq(num))
        {
            sigma_s[j] <- sum( ps[, j] * (x - mu_s[j])^2) / sum(ps[, j])
            mu_s[j] <- sum(x * ps[, j]) / sum(ps[, j])
            probs[j] <- mean(ps[, j])
            
        }
        
        if (max(abs(sigma_s_p - sigma_s)) < epsilon)
        {
            break
        }
    
    }
    
    return (list(mu = mu_s, sd = sqrt(sigma_s), prob = probs))
    
}

上述封裝的函數(shù)gmm用以估計(jì)高斯混合模型的參數(shù),包括各個(gè)混合成分的均值mu,標(biāo)準(zhǔn)差sd,混合成分的概率prob

gmm估計(jì)前面提到的數(shù)據(jù)x

gmm(x, mean = c(0, 1), sd = c(1, 1))
## $mu
## [1] 0.9749062 6.9999548
## 
## $sd
## [1] 0.9415230 0.9913026
## 
## $prob
## [1] 0.2469457 0.7530543

R語(yǔ)言中,可以通過(guò)mixtools包實(shí)現(xiàn)上述的EM算法估計(jì)過(guò)程。

首先載入mixtools

require(mixtools)

mixtoolsnormalmixEM可以實(shí)現(xiàn)高斯混合模型的參數(shù)估計(jì)。

em <- normalmixEM(x, mu = c(0, 1), sigma = c(1, 1), sd.constr = c(1, 1))
## number of iterations= 6

估計(jì)的結(jié)果中,lambda含有混合比例,mu是混合成分的均值。

print(em$lambda)
## [1] 0.2471721 0.7528279
print(em$mu)
## [1] 0.9777237 7.0008419

從上面的結(jié)果可知,normalmixEM的估計(jì)結(jié)果與前面編寫(xiě)的程序估計(jì)出的參數(shù)一致。

plot(em, whichplots = 2)
estimated-density-plot.png

同時(shí),返回的em變量,含有許多有用的信息

str(em)
## List of 9
##  $ x         : num [1:1000] 6.179 0.0063 6.6927 1.7511 -0.5092 ...
##  $ lambda    : num [1:2] 0.247 0.753
##  $ mu        : num [1:2] 0.978 7.001
##  $ sigma     : num [1:2] 1 1
##  $ loglik    : num -1955
##  $ posterior : num [1:1000, 1:2] 6.14e-07 1.00 2.78e-08 1.00 1.00 ...
##   ..- attr(*, "dimnames")=List of 2
##   .. ..$ : NULL
##   .. ..$ : chr [1:2] "comp.1" "comp.2"
##  $ all.loglik: num [1:7] -15574 -2260 -1955 -1955 -1955 ...
##  $ restarts  : num 0
##  $ ft        : chr "normalmixEM"
##  - attr(*, "class")= chr "mixEM"

后驗(yàn)概率是一個(gè)$n \times k$的矩陣,是每個(gè)觀測(cè)值由各個(gè)混合成分產(chǎn)生的概率,可以據(jù)此得到每個(gè)觀測(cè)值的可能類別。

label <- c("head", "tail")[apply(em$posterior, 1, which.max)]

數(shù)據(jù)真正的標(biāo)簽在y中,可以得到混淆矩陣

xtabs( ~ y + label)
##       label
## y      head tail
##   head  247    1
##   tail    0  752

248個(gè)head,有1被標(biāo)記為tail,標(biāo)記錯(cuò)誤。

可以進(jìn)一步查看該觀測(cè)值

x[y != label]
## [1] 4.390371

該值更靠近tail,所以高斯混合模型的結(jié)果判定為tail也不足為奇。

參考文獻(xiàn)

[1]. http://rstudio-pubs-static.s3.amazonaws.com/1001_3177e85f5e4840be840c84452780db52.html

[2]. https://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Clustering/Expectation_Maximization_(EM)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,565評(píng)論 6 539
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,115評(píng)論 3 423
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 177,577評(píng)論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 63,514評(píng)論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,234評(píng)論 6 410
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 55,621評(píng)論 1 326
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,641評(píng)論 3 444
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 42,822評(píng)論 0 289
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,380評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,128評(píng)論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,319評(píng)論 1 371
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,879評(píng)論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,548評(píng)論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 34,970評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 36,229評(píng)論 1 291
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,048評(píng)論 3 397
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,285評(píng)論 2 376

推薦閱讀更多精彩內(nèi)容