CPAR算法
1.關(guān)聯(lián)規(guī)則分類的步驟
一般而言,關(guān)聯(lián)規(guī)則分類包括以下步驟:
- 挖掘數(shù)據(jù),得到頻繁項集。
- 分析頻繁項集,產(chǎn)生每個類的關(guān)聯(lián)規(guī)則,它們滿足置信度和支持度標(biāo)準(zhǔn)。
- 組織規(guī)則,形成基于規(guī)則的分類器。
2.關(guān)聯(lián)規(guī)則分類算法:
關(guān)聯(lián)規(guī)則分類方法的不同:挖掘頻繁項集所用的方法、如何將被分析的規(guī)則導(dǎo)出并用于分類。
2.1 CBA算法
CBA:Classification Based on Association
2.1.1 尋找頻繁項集
CBA使用迭代方法挖掘頻繁項集,類似于Apriori算法。找出滿足最小置信度和支持度閾值的規(guī)則的完全集后,然后分析,找出包含在分類器中的規(guī)則。
2.1.2 構(gòu)造分類器
CBA使用一種啟發(fā)式方法構(gòu)造分類器,其中規(guī)則按照它們的置信度和支持度遞減優(yōu)先級排序。其中,有三條規(guī)則如下:
- 如果一組規(guī)則具有相同的前件,則選取具有最高置信度的規(guī)則代表該集合。
- 在對新元組分類時,使用滿足該元組的第一個規(guī)則對它進(jìn)行分類。
- 具有最低優(yōu)先級,用來為不能被分類器中其他規(guī)則滿足的新元組指定默認(rèn)類。
一般而言,實驗表明CBA在大量數(shù)據(jù)集上比C4.5更準(zhǔn)確。
2.2 CMAR算法
CMAR:Classificationbased on Multiple Association Rules
2.2.1 尋找頻繁項集
CMAR采用FP—Growth算法的變形來發(fā)現(xiàn)滿足最小支持度和最小置信度閾值的規(guī)則的完全集。
同時,使用一種加強的FP-樹,記錄滿足每個頻繁項集的元組的類標(biāo)號分布。這樣,它可以把規(guī)則產(chǎn)生與頻繁項集挖掘合并成一步。
2.2.2 規(guī)則的發(fā)現(xiàn)與處理
CMAR還使用另一種樹結(jié)構(gòu)來有效地存儲和提取規(guī)則,并根據(jù)置信度、相關(guān)度和數(shù)據(jù)庫覆蓋率對規(guī)則剪枝。當(dāng)規(guī)則插入該樹時就觸發(fā)規(guī)則剪枝策略。
剪枝策略:如果規(guī)則存在具有更高置信度的更泛化的版本,則可以剪去具有低置信度的更特殊化的規(guī)則。
一個例子:給定兩個規(guī)則R1和R2,如果R1的前件比R2更一般,并且conf(R1)>=conf(R2),則剪去R2。
2.2.3 如果多個規(guī)則可用,我們使用哪一個?
CMAR算法將所有的規(guī)則分組,每一組有著相同的類編號。
當(dāng)需要預(yù)測X時,CMAR使用加權(quán)的卡方度量,根據(jù)組中規(guī)則的統(tǒng)計相關(guān)性找出“最強的”規(guī)則組。然后把X的類標(biāo)號指派為最強的組的類標(biāo)號。(并不是將x對應(yīng)到某一規(guī)則,二是一個規(guī)則組)
實驗表明,CMAR比CBA的平均準(zhǔn)確率稍高。它的運行時間、可伸縮性和內(nèi)存使用都更有效。
2.3 CPAR算法
CPAR:Classificationbased on Predictive Association Rules
2.3.1 產(chǎn)生規(guī)則
基于一種稱作FOIL的分類規(guī)則產(chǎn)生算法。
FOIL構(gòu)造規(guī)則來區(qū)別正元組和負(fù)元組。對于多類問題,解決辦法:one vs rest。
每當(dāng)產(chǎn)生一個規(guī)則時,就刪除它滿足(或覆蓋)的正樣本,直到數(shù)據(jù)集合中所有的正元組都被覆蓋。這樣,產(chǎn)生的規(guī)則更少,CPAR放寬了這一步,允許被覆蓋的元組留下并被考慮,但是降低它們的權(quán)重。對每個類重復(fù)該過程。結(jié)果規(guī)則被合并在一起,形成分類器的規(guī)則集。
2.3.2 如果多個規(guī)則可用,我們使用哪一個?
如果多個規(guī)則滿足新元組X,則類似于CMAR,這些規(guī)則將按類分組。然而,CPAR根據(jù)期望準(zhǔn)確率,使用每組中的最好的k個規(guī)則預(yù)測X的類標(biāo)號。(可以跨組)
在大量數(shù)據(jù)集上,CPAR的準(zhǔn)確率與CMAR接近。然而,由于CPAR產(chǎn)生的規(guī)則比CMAR少得多,對于大型訓(xùn)練數(shù)據(jù)集,CPAR有效得多。