數(shù)據(jù)挖掘之關聯(lián)規(guī)則

關聯(lián)規(guī)則

關聯(lián)規(guī)則是數(shù)據(jù)挖掘研究里的重要內(nèi)容,目的是為了找出不同東西之間的相關性。下面來介紹關聯(lián)規(guī)則中一些重要的定義。

下面借用一個引例來介紹關聯(lián)規(guī)則。

某超市的事務數(shù)據(jù)庫

項集

D是一個事務數(shù)據(jù)庫,其中每一個事務T由一些項目構成,并且都有一個唯一的標識(TID)。如上圖所示,每一個TID對應一條事務Ti,每一個事務Ti中的物品稱為項目,項目的集合就稱為項目集,而含有K個項目的項目集稱為K-項目集。

支持度

項目集X的支持度是指在事務數(shù)據(jù)庫D中包含項目集X的事務占整個事務的比例,記為sup(X),可以看作是項目集X在總事務中出現(xiàn)的頻率。一般定義為sup(X)=X出現(xiàn)的次數(shù)/事務總數(shù)T。
引例中X={bread, milk}出現(xiàn)在T1,T2,T5,T9和T10中,所以支持度為0.5。

最小支持度

最小支持度是項集的最小支持閾值,記為min_sup,代表了用戶關心的關聯(lián)規(guī)則的最低重要性。支持度不小于min_sup的稱為頻繁項目集,長度為K的頻繁集稱為K-頻繁集。如果設定sup_min為0.3,引例中{bread, milk}的支持度是0.5,所以是2-頻繁集。

可信度

可信度是指在事務數(shù)據(jù)庫D中,同時含項目集X和Y的事務與含項目集X的事務的比,即sup(XUY)/sup(X),看作是項目集X出現(xiàn),使項目集Y也出現(xiàn),這一件事情在總事務中出現(xiàn)的頻率。

關聯(lián)規(guī)則

關聯(lián)規(guī)則可形式化為X?Y,它的含義是XUY的支持度sup(XUY)大于用戶指定的最小支持度min_sup,且可信度conf大于用戶指定的最小可信度min_conf。關聯(lián)規(guī)則挖掘就是在事務數(shù)據(jù)庫D中找出滿足用戶指定的最小支持度min_sup和最小可信度min_conf的所有關聯(lián)規(guī)則。

Apriori關聯(lián)規(guī)則算法

Apriori算法是一種以概率為基礎的關聯(lián)規(guī)則算法,它是一種迭代算法,從少到多,從簡單到復雜尋找極大頻繁集的算法。

1.Apriori特性
如果一個擁有K個項目的項目集I不滿足最小支持度,根據(jù)定義,項目集I不是一個頻繁集,如果往I中加入任意一個新的項目得到一個擁有K+1個項目的項目集I',則I'必定也不是頻繁集。

2.算法過程

  • 制定最小支持度及最小置信度
  • Apriori算法使用了候選項集的概念,首先掃描數(shù)據(jù)庫產(chǎn)生候選項目集,如果候選項目集的支持度不小于最小支持度,則該候選項目集為頻繁項目集
  • 從數(shù)據(jù)庫中讀入所有事務數(shù)據(jù),得到出候選1項集C1及相應的支持度數(shù)據(jù),通過將每個1項集的支持度與最小支持度比較,得出頻繁項集合L1,然后將這些頻繁1項集兩兩進行連接,產(chǎn)生候選2項集合C2。
  • 然后再次掃描數(shù)據(jù)庫得到候選2項集合C2的支持度,將2項集的支持度與最小支持度比較,確定頻繁2項集。類似地,利用這些頻繁2項集L2產(chǎn)生候選3項集和確定頻繁3項集,以此類推。
  • 反復掃描數(shù)據(jù)庫,與最小支持度比較,產(chǎn)生更高項的頻繁項集合,再結合產(chǎn)生下一級候選項集,直到不再產(chǎn)生出新的候選項集為止。
最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內(nèi)容