關(guān)聯(lián)規(guī)則挖掘的概念
在事務(wù),關(guān)系數(shù)據(jù)庫(kù)中的項(xiàng)集和對(duì)象中發(fā)現(xiàn)頻繁模式,關(guān)聯(lián)規(guī)則,相關(guān)性或者因果結(jié)構(gòu)。
頻繁模式:頻繁出現(xiàn)的項(xiàng)集
通俗一點(diǎn)講就是從一堆經(jīng)常發(fā)生在一起的事情中,找出他們之間的關(guān)聯(lián)性。
舉個(gè)啤酒和尿布的例子,商場(chǎng)統(tǒng)計(jì)發(fā)現(xiàn)啤酒和尿布頻繁出現(xiàn)在同一張訂單中,我們就可以挖掘出啤酒和尿布之間的關(guān)聯(lián)關(guān)系。比如買(mǎi)啤酒的人很大概率會(huì)買(mǎi)尿布,或者買(mǎi)尿布的人很大的概率會(huì)買(mǎi)啤酒。
頻繁項(xiàng)集的相關(guān)概念
項(xiàng)集
包含0個(gè)或多個(gè)項(xiàng)的集合,比如{牛奶,面包,尿布}
k-項(xiàng)集:集合中項(xiàng)數(shù)目為k的項(xiàng)集,{牛奶,面包,尿布}這就是一個(gè)三項(xiàng)集
支持度計(jì)數(shù)
比如現(xiàn)在有一些事務(wù)集合
編號(hào)? ? ? ? ? ? ? ? ? ?事務(wù)
1? ? ? ? ? ? ? ? ? ? ? 面包,牛奶
2? ? ? ? ? ? ? ? ? ? ? 面包,尿布,黃油,雞蛋
3? ? ? ? ? ? ? ? ? ? ? 牛奶,尿布,黃油,可樂(lè)
4? ? ? ? ? ? ? ? ? ? ? 面包,牛奶,尿布,黃油
5? ? ? ? ? ? ? ? ? ? ? 面包,牛奶,尿布,可樂(lè)
{牛奶,黃油}的支持度計(jì)數(shù)就是2,因?yàn)椋D蹋S油}在編號(hào)3,4的事務(wù)中出現(xiàn),計(jì)數(shù)次數(shù)就是2
所以支持度計(jì)數(shù)就是包含特定項(xiàng)集({牛奶,黃油})的事務(wù)個(gè)數(shù)
支持度
支持度與總事務(wù)數(shù)的比值,比如{牛奶,黃油}的支持度就是2/5
頻繁項(xiàng)集
也就是要判斷某個(gè)項(xiàng)集是否頻繁,這里引出了最小支持度閾值的概念,就是設(shè)定一個(gè)支持度的值,大于這個(gè)值的項(xiàng)集就是頻繁項(xiàng)集
關(guān)聯(lián)規(guī)則的相關(guān)概念
關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是形如 X->Y的表達(dá)式, 其中 X 和 Y 是不相交的項(xiàng)集
比如{牛奶,尿布}-> {黃油}
關(guān)聯(lián)規(guī)則的強(qiáng)度
X->Y的支持度:確定項(xiàng)集的頻繁程度,也就是{X,Y}的支持度,即X,Y一起出現(xiàn)的概率P(XY),這里使用頻率代替概率
X->Y的置信度:確定在X發(fā)生的條件下Y一定會(huì)發(fā)生的概率,舉個(gè)栗子:牛奶->黃油,就是買(mǎi)了牛奶還會(huì)買(mǎi)黃油的概率P(Y|X)=P(XY)/P(X)=2/4=50%,這個(gè)概率和 黃油->牛奶的概率是不同的,也就是 X->Y不滿足交換律
關(guān)聯(lián)挖掘規(guī)則的一般步驟
1.先從給出的事務(wù)集合中找出頻繁項(xiàng)集
只有頻繁的項(xiàng)集才能產(chǎn)生強(qiáng)的關(guān)聯(lián)規(guī)則
2.從頻繁項(xiàng)集中挖掘出項(xiàng)與項(xiàng)之間的規(guī)則
只有從頻繁項(xiàng)集中挖出來(lái)的規(guī)則才是強(qiáng)規(guī)則,因?yàn)轭l繁項(xiàng)集中的項(xiàng)集出現(xiàn)的頻率高,挖掘出規(guī)則的置信度就會(huì)高。