三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

<style id="mpeo3"></style>

<sub id="mpeo3"><p id="mpeo3"></p></sub>

<sub id="mpeo3"></sub>

<em id="mpeo3"></em>

<sub id="mpeo3"></sub>

登錄注冊寫文章

數(shù)據(jù)挖掘之關聯(lián)規(guī)則

數(shù)據(jù)挖掘之關聯(lián)規(guī)則

關聯(lián)規(guī)則

關聯(lián)規(guī)則是數(shù)據(jù)挖掘研究里的重要內(nèi)容，目的是為了找出不同東西之間的相關性。下面來介紹關聯(lián)規(guī)則中一些重要的定義。

下面借用一個引例來介紹關聯(lián)規(guī)則。

某超市的事務數(shù)據(jù)庫

項集

D是一個事務數(shù)據(jù)庫，其中每一個事務T由一些項目構成，并且都有一個唯一的標識（TID）。如上圖所示，每一個TID對應一條事務Ti，每一個事務Ti中的物品稱為項目，項目的集合就稱為項目集，而含有K個項目的項目集稱為K-項目集。

支持度

項目集X的支持度是指在事務數(shù)據(jù)庫D中包含項目集X的事務占整個事務的比例，記為sup(X)，可以看作是項目集X在總事務中出現(xiàn)的頻率。一般定義為sup(X)=X出現(xiàn)的次數(shù)/事務總數(shù)T。
引例中X={bread, milk}出現(xiàn)在T1，T2，T5，T9和T10中，所以支持度為0.5。

最小支持度

最小支持度是項集的最小支持閾值，記為min_sup，代表了用戶關心的關聯(lián)規(guī)則的最低重要性。支持度不小于min_sup的稱為頻繁項目集，長度為K的頻繁集稱為K-頻繁集。如果設定sup_min為0.3，引例中{bread, milk}的支持度是0.5，所以是2-頻繁集。

可信度

可信度是指在事務數(shù)據(jù)庫D中，同時含項目集X和Y的事務與含項目集X的事務的比，即sup(XUY)/sup(X)，看作是項目集X出現(xiàn)，使項目集Y也出現(xiàn)，這一件事情在總事務中出現(xiàn)的頻率。

關聯(lián)規(guī)則

關聯(lián)規(guī)則可形式化為X?Y，它的含義是XUY的支持度sup(XUY)大于用戶指定的最小支持度min_sup，且可信度conf大于用戶指定的最小可信度min_conf。關聯(lián)規(guī)則挖掘就是在事務數(shù)據(jù)庫D中找出滿足用戶指定的最小支持度min_sup和最小可信度min_conf的所有關聯(lián)規(guī)則。

Apriori關聯(lián)規(guī)則算法

Apriori算法是一種以概率為基礎的關聯(lián)規(guī)則算法，它是一種迭代算法，從少到多，從簡單到復雜尋找極大頻繁集的算法。

1.Apriori特性
如果一個擁有K個項目的項目集I不滿足最小支持度，根據(jù)定義，項目集I不是一個頻繁集，如果往I中加入任意一個新的項目得到一個擁有K+1個項目的項目集I'，則I'必定也不是頻繁集。

2.算法過程

制定最小支持度及最小置信度
Apriori算法使用了候選項集的概念，首先掃描數(shù)據(jù)庫產(chǎn)生候選項目集，如果候選項目集的支持度不小于最小支持度，則該候選項目集為頻繁項目集
從數(shù)據(jù)庫中讀入所有事務數(shù)據(jù)，得到出候選1項集C1及相應的支持度數(shù)據(jù)，通過將每個1項集的支持度與最小支持度比較，得出頻繁項集合L1，然后將這些頻繁1項集兩兩進行連接，產(chǎn)生候選2項集合C2。
然后再次掃描數(shù)據(jù)庫得到候選2項集合C2的支持度，將2項集的支持度與最小支持度比較，確定頻繁2項集。類似地，利用這些頻繁2項集L2產(chǎn)生候選3項集和確定頻繁3項集，以此類推。
反復掃描數(shù)據(jù)庫，與最小支持度比較，產(chǎn)生更高項的頻繁項集合，再結合產(chǎn)生下一級候選項集，直到不再產(chǎn)生出新的候選項集為止。

最后編輯于：2017.12.04 06:56:06

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務。

推薦閱讀更多精彩內(nèi)容

數(shù)據(jù)挖掘課后習題第6章
6.1 6.2 （a）不能需要的其它信息可以是閉頻繁項集，算法可以參照6.1 （b）項集X是閉項集，如果不存在真超...
磊寶萬歲閱讀 12,055評論 0贊 5
數(shù)據(jù)挖掘算法之關聯(lián)規(guī)則挖掘
關聯(lián)規(guī)則挖掘的概念在事務，關系數(shù)據(jù)庫中的項集和對象中發(fā)現(xiàn)頻繁模式，關聯(lián)規(guī)則，相關性或者因果結構。頻繁模式：頻繁...
呼啦啦蔥閱讀 1,521評論 0贊 0
推薦系統(tǒng)系列之關聯(lián)規(guī)則
一、背后的故事沃爾瑪為了能夠準確了解顧客在其門店的購買習慣，對其顧客的購物行為進行購物籃分析，想知道顧客經(jīng)常一起...
萌新之機器學習閱讀 2,875評論 1贊 3
淺談數(shù)據(jù)挖掘基礎
前言其實讀完斯坦福的這本《互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘》，讓我感覺到，什么是人工智能？人工智能就是更高層次的數(shù)據(jù)挖掘。機...
我偏笑_NSNirvana閱讀 12,756評論 1贊 23
卦理針治療外傷后肩痛一例
藥房李阿姨，年五十余。一月前因外傷致右側(cè)手臂及肩部傷痛，后來外傷逐漸好轉(zhuǎn)，遂留下后遺癥。右臂向后彎曲到某幾個角度的...
大中醫(yī)戴戴閱讀 340評論 0贊 2

贊1贊

贊賞

手機看全文

主站蜘蛛池模板：普格县| 崇仁县| 余姚市| 博罗县| 华阴市| 岑巩县| 永川市| 正蓝旗| 景泰县| 高碑店市| 琼海市| 建阳市| 盐亭县| 庐江县| 凤庆县| 高碑店市| 伊金霍洛旗| 包头市| 崇仁县| 云梦县| 巴中市| 和硕县| 临西县| 葫芦岛市| 甘孜县| 吉首市| 石屏县| 衡阳市| 南丹县| 惠州市| 商河县| 信丰县| 天长市| 无锡市| 凤城市| 阜新市| 荃湾区| 银川市| 南木林县| 裕民县| 六枝特区|

^{<blockquote id="hz8qj"></blockquote>}

<sub id="hz8qj"></sub>

<blockquote id="hz8qj"></blockquote>

<sup id="hz8qj"><rt id="hz8qj"></rt></sup>

^{<blockquote id="hz8qj"></blockquote>}