數(shù)據(jù)挖掘算法之關(guān)聯(lián)規(guī)則挖掘

關(guān)聯(lián)規(guī)則挖掘的概念

在事務(wù),關(guān)系數(shù)據(jù)庫(kù)中的項(xiàng)集和對(duì)象中發(fā)現(xiàn)頻繁模式,關(guān)聯(lián)規(guī)則,相關(guān)性或者因果結(jié)構(gòu)。

頻繁模式:頻繁出現(xiàn)的項(xiàng)集

通俗一點(diǎn)講就是從一堆經(jīng)常發(fā)生在一起的事情中,找出他們之間的關(guān)聯(lián)性。

舉個(gè)啤酒和尿布的例子,商場(chǎng)統(tǒng)計(jì)發(fā)現(xiàn)啤酒和尿布頻繁出現(xiàn)在同一張訂單中,我們就可以挖掘出啤酒和尿布之間的關(guān)聯(lián)關(guān)系。比如買(mǎi)啤酒的人很大概率會(huì)買(mǎi)尿布,或者買(mǎi)尿布的人很大的概率會(huì)買(mǎi)啤酒。

頻繁項(xiàng)集的相關(guān)概念

項(xiàng)集

包含0個(gè)或多個(gè)項(xiàng)的集合,比如{牛奶,面包,尿布}

k-項(xiàng)集:集合中項(xiàng)數(shù)目為k的項(xiàng)集,{牛奶,面包,尿布}這就是一個(gè)三項(xiàng)集

支持度計(jì)數(shù)

比如現(xiàn)在有一些事務(wù)集合

編號(hào)? ? ? ? ? ? ? ? ? ?事務(wù)

1? ? ? ? ? ? ? ? ? ? ? 面包,牛奶

2? ? ? ? ? ? ? ? ? ? ? 面包,尿布,黃油,雞蛋

3? ? ? ? ? ? ? ? ? ? ? 牛奶,尿布,黃油,可樂(lè)

4? ? ? ? ? ? ? ? ? ? ? 面包,牛奶,尿布,黃油

5? ? ? ? ? ? ? ? ? ? ? 面包,牛奶,尿布,可樂(lè)

{牛奶,黃油}的支持度計(jì)數(shù)就是2,因?yàn)椋D蹋S油}在編號(hào)3,4的事務(wù)中出現(xiàn),計(jì)數(shù)次數(shù)就是2

所以支持度計(jì)數(shù)就是包含特定項(xiàng)集({牛奶,黃油})的事務(wù)個(gè)數(shù)

支持度

支持度與總事務(wù)數(shù)的比值,比如{牛奶,黃油}的支持度就是2/5

頻繁項(xiàng)集

也就是要判斷某個(gè)項(xiàng)集是否頻繁,這里引出了最小支持度閾值的概念,就是設(shè)定一個(gè)支持度的值,大于這個(gè)值的項(xiàng)集就是頻繁項(xiàng)集

關(guān)聯(lián)規(guī)則的相關(guān)概念

關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則是形如 X->Y的表達(dá)式, 其中 X 和 Y 是不相交的項(xiàng)集

比如{牛奶,尿布}-> {黃油}

關(guān)聯(lián)規(guī)則的強(qiáng)度

X->Y的支持度:確定項(xiàng)集的頻繁程度,也就是{X,Y}的支持度,即X,Y一起出現(xiàn)的概率P(XY),這里使用頻率代替概率

X->Y的置信度:確定在X發(fā)生的條件下Y一定會(huì)發(fā)生的概率,舉個(gè)栗子:牛奶->黃油,就是買(mǎi)了牛奶還會(huì)買(mǎi)黃油的概率P(Y|X)=P(XY)/P(X)=2/4=50%,這個(gè)概率和 黃油->牛奶的概率是不同的,也就是 X->Y不滿足交換律

關(guān)聯(lián)挖掘規(guī)則的一般步驟

1.先從給出的事務(wù)集合中找出頻繁項(xiàng)集

只有頻繁的項(xiàng)集才能產(chǎn)生強(qiáng)的關(guān)聯(lián)規(guī)則

2.從頻繁項(xiàng)集中挖掘出項(xiàng)與項(xiàng)之間的規(guī)則

只有從頻繁項(xiàng)集中挖出來(lái)的規(guī)則才是強(qiáng)規(guī)則,因?yàn)轭l繁項(xiàng)集中的項(xiàng)集出現(xiàn)的頻率高,挖掘出規(guī)則的置信度就會(huì)高。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容