數據挖掘課后習題 第6章

6.1


6.2

(a)不能需要的其它信息可以是閉頻繁項集,算法可以參照6.1

(b)項集X是閉項集,如果不存在真超項集Y,使得Y與X具有相同的支持度計數;而如果項集X是生成元,如果不存在其真子集Y,使得Y與X具有相同的支持度計數。可見,閉項集考察的是真超項集,生成元考察的是真子集;閉頻繁項集包含了關于頻繁項集的完整信息,而頻繁生成元集并不包含對應的頻繁項集的完整支持度信息。

6.3

(a)設s是一個頻繁項集,min_sup是(相對)最小支持度閾值,任務相關的數據D是數據庫事務的集合,|D|是D中的事務數量,則support_count(s)>=min_sup*|D|;再設s’是s的非空子集,則任何包含項集s的事務將同樣包含項集s’,即support_count(s’)≥support_count(s) ≥min_sup*|D|,所以s’也是一個頻繁項集。

(b)設任務相關的數據D是數據庫事務的集合,|D|是D的事務量,由定義得:

support(s)=support_count(s)/|D|

設s’是s的非空子集,由定義得:support(s’)=support_count(s’)/|D|

由(a)可知:support(s’)≥support(s)

由此證明,項集s的任意非空子集s’的至少和s的支持度一樣大。

(c)設s是l的子集,則confidence(s=>(l-s))=support(l)/support(s)

設s’是s的非空子集,則confidence(s’=>(l-s’))=support(l)/support(s’)

由(b)可知:support_count(s’)≥support_count(s),此外,confidence((s’)=>(l-s’))≤confidence((s)=>(l-s))

所以,規則”s’=>(l-s’)”的置信度不可能大于”s=>(l-s)”

(d)證明:假設頻繁項集F在事務數據庫D中的任何一個分區中都是非頻繁的。令C表示D中的所有事務量;令A表示D中包含頻繁模式F的事務量,令min_sup表示最小支持度閾值,令d1,d2,..,dn表示D的n個不重疊的分區,ci表示分區di中的事務總數,ai表示分區di中包含F的事務數。所以,C=c1+c2+..+cn,A=a1+a2+..+an。因為F是一個頻繁項集,所以A>=C*min_sup,即(a1+a2+..+an)>=(c1+c2+...+cn)*min_sup。又因為F在每個分區中都是不頻繁的,所以對于任意i,ai=(c1+c2+...+cn)*min_sup)矛盾。所以得到:D中頻繁的項集至少在D的一個分區中是頻繁的。


6.4


6.5


圖5.1給出了一種從頻繁項集產生強關聯規則的算法,它比6.2.2節介紹的方法更加高效是因為它只生成且測試必要的子集。如果一個長度為k的子集x不滿足最低可信度,那么就沒有意義的生成它的非空子集,因為這些子集的置信度將永遠不會大于x的置信度(參照習題6.3(b)6.3(c))。然而,如果x滿足最低可信度,那么我們就生成且測試他的(k-1)子集,使用這個標準,我們從n項集的(n-1)子集逐漸到1子集。從另一方面講,6.2.2中的方法是一個強力的方法,生成頻繁項集L的所有非空子集,然后測試他們是否存在潛在的關聯規則。這是不高效的,因為會產生很多不必要的子集。如果我們考慮最糟的情況,有k-項集b,k是個很大的數。假設沒有b的(k-1)子集滿足最小置信度,6.2.2中的方法仍然會不必要的生成所有非空子集且測試。新方法則不同,他會只生成b的(k-1)子集,確定沒有規則滿足最小置信度,會避免生成和測試更多的子集,從而節省大量不必要的計算。

6.6

(a)Apriori


FP-growth:


有效性比較:Apriori需要多次掃描數據庫而FP增長建立FP樹只需一次的掃描。在Apriori算法中產生候選是昂貴的(由于聯接),而FP增長不產生任何候選。

(b)k,o→e[0.6,1]e,o→k[0.6,1]

6.8

(a)K=3,頻繁3項集是{Bread,Milk,Cheese}。關聯規則是:

K=3,頻繁3-項集是{Bread,Milk,Cheese}

關聯規則是:

Bread^Cheese=>Milk,[75%,100%]

Cheese^Milk=>Bread,[75%,100%]

Cheese=>Milk^Bread,[75%,100%]

(b)K=3,頻繁3-項集是{(Wonder-Bread,Dairyland-Milk,Tasty-Pie),(Wonder-Bread,Sunset-Milk,Dairyland-Cheese)}

6.14

(a)根據規則,support=2000/5000=40%,confidence=2000/3000=66.7%

該規則是強規則。

(b)corr{hotdog,hamburger}=P({hotdog,hamburger})/(P{hotdog})P({hamburger})=0.4/(0.5*0.6)=1.33>1,所以,買hotdog不是獨立于買hamburger。兩者存在正相關關系。

(c)全置信度為:2/3

最大置信度為:0.8

Kulczynski為:11/15

余弦:(8/15)^(1/2)

提升度:4/3

相關度:833.33

比較:就此數據而言,全置信度,最大置信度,Kulczynski,余弦的值(均小于1)與提升度,相關度(均大于1)的值存在明顯差異;四個新的度量顯示兩種產品存在正相關,與提升度和相關度的分析結果相同。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容