三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

<cite id="eaany"></cite>

登錄注冊寫文章

Apriori算法

Apriori算法

Apriori算法

1.定義：一種用于關聯(lián)規(guī)則挖掘的代表性算法

2.一些基本的概念：

2.1 數(shù)據(jù)挖掘可以視為數(shù)據(jù)庫、機器學習和統(tǒng)計學三者的交叉。第一者提供了數(shù)據(jù)管理技術；后兩者提供了數(shù)據(jù)分析技術。

2.2關聯(lián)規(guī)則是形如 X→Y 的蘊涵表達式，其中X和Y是不相交的項集【包含0個或多個項的集合被稱為項集（itemset）】，即 X∩Y=?。關聯(lián)規(guī)則的強度可以用以下兩個指標來衡量：

支持度（support）:持度確定規(guī)則可以用于給定數(shù)據(jù)集（全局）的頻繁程度
置信度（confidence）:確定Y在包含X的交易中出現(xiàn)的頻繁程度

兩者的公式如下：

兩個公式

2.3 用一個簡單的例子來解釋該概念:

一個超市的收銀數(shù)據(jù)

[圖片上傳失敗...(image-a983f3-1532249865361)]

2.4 因此，大多數(shù)關聯(lián)規(guī)則挖掘算法通常采用的一種策略是，將關聯(lián)規(guī)則挖掘任務分解為如下兩個主要的子任務：

頻繁項集產(chǎn)生：其目標是發(fā)現(xiàn)滿足最小支持度閾值的所有項集，這些項集稱作頻繁項集（frequent itemset）。
規(guī)則的產(chǎn)生：其目標是從上一步發(fā)現(xiàn)的頻繁項集中提取所有高置信度的規(guī)則，這些規(guī)則稱作強規(guī)則（strong rule）。
ps：常常頻繁項集產(chǎn)生所需的計算開銷遠大于產(chǎn)生規(guī)則所需的計算開銷。尋找頻繁項集最容易想到的方法是暴力法（Brute-Force），但此方法通常不可行。

3.先驗原理

3.1 Apriori 兩條定律：

定律1：如果一個集合是頻繁項集，則它的所有子集都是頻繁項集。
- 例如：假設一個集合{A,B}是頻繁項集，即A、B同時出現(xiàn)在一條記錄的次數(shù)大于等于最小支持度min_support，則它的子集{A},{B}出現(xiàn)次數(shù)必定大于等于min_support，即它的子集都是頻繁項集。
定律2：如果一個集合不是頻繁項集，則它的所有超集都不是頻繁項集。
- 舉例：假設集合{A}不是頻繁項集，即A出現(xiàn)的次數(shù)小于 min_support，則它的任何超集如{A,B}出現(xiàn)的次數(shù)必定小于min_support，因此其超集必定也不是頻繁項集。

3.2 運用定理的一個例子：

下圖表示當我們發(fā)現(xiàn){A,B}是非頻繁集時，就代表所有包含它的超級也是非頻繁的，即可以將它們都剪除。

image

4.Apriori算法與實例【核心】

4.1 算法的形式化描述：

image

4.2 算法的實例：

image

4.3 上條C集生成策略的解釋：

image

首先是self-joining部分。例如，假設我們有一個L3={abc, abd, acd, ace, bcd}（注意這已經(jīng)是排好序的}。選擇兩個itemsets，它們滿足條件：前k-1個item都相同，但最后一個item不同，把它們組成一個新的Ck+1的項集c。如下圖所示，{abc}和{abd}組成{abcd}，{acd}和{ace}組成{acde}。
生成策略的第二部分是pruning。對于一個位于Ck+1中的項集c，s是c的大小為k的子集，如果s不存在于Lk中，則將c從Ck+1中刪除。如下圖所示，因為{acde}的子集{cde}并不存在于L3中，所以我們將{acde}從C4中刪除。最后得到的C4，僅包含一個項集{abcd}。

image

5.參考資料

https://blog.csdn.net/baimafujinji/article/details/53456931

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發(fā)布，文章內容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務。

推薦閱讀更多精彩內容

【機器學習實戰(zhàn)】第11章使用 Apriori 算法進行關聯(lián)分析
第 11 章使用 Apriori 算法進行關聯(lián)分析關聯(lián)分析關聯(lián)分析是一種在大規(guī)模數(shù)據(jù)集中尋找有趣關系的任務。...
Joyyx閱讀 1,793評論 0贊 7
Apriori算法詳解
1、數(shù)據(jù)挖掘與機器學習有時候，人們會對機器學習與數(shù)據(jù)挖掘這兩個名詞感到困惑。如果你翻開一本冠以機器學習之名的教科...
文哥的學習日記閱讀 29,578評論 0贊 10
關聯(lián)分析Apriori算法學習筆記-Python
小伙伴們，繼續(xù)一起學習機器學習算法啦，今天學習關聯(lián)分析、Apriori算法啦！大家肯定很熟悉一個故事-沃爾瑪超市數(shù)...
keepStriving閱讀 9,337評論 2贊 15
Apriori算法：從數(shù)據(jù)中挖掘頻繁項集
簡介 Apriori是一種流行的算法，用于在關聯(lián)規(guī)則學習中提取頻繁項集。Apriori算法被設計用于對包含交易的數(shù)...
c9af2eadd50d閱讀 33,560評論 1贊 14
愛的表達
有什么事比關系和愛更重要? 沒什么事比家庭幸福更重要！今天我深刻體會了。先生對我有意見，把他工資卡提只剩百來元...
牛錘錘閱讀 208評論 1贊 2

贊1贊

贊賞

手機看全文

主站蜘蛛池模板：大丰市| 鄢陵县| 和田县| 维西| 吴桥县| 霍山县| 偃师市| 天峨县| 额尔古纳市| 仪陇县| 竹溪县| 英山县| 罗甸县| 镇沅| 繁昌县| 乌兰浩特市| 铜山县| 沁源县| 阜康市| 阜南县| 元朗区| 西峡县| 阳城县| 四平市| 连平县| 通许县| 讷河市| 衡水市| 沧州市| 新化县| 棋牌| 鹤壁市| 东乌| 时尚| 育儿| 武宁县| 晴隆县| 聊城市| 堆龙德庆县| 五莲县| 大化|

<legend id="1b89p"><track id="1b89p"></track></legend>