數據挖掘案例分析(1)-Apriori算法
前言:由于單單學習算法太過于枯燥和乏味,所以我們采取的學習方法是練中學,本人也是之前一點關于數據挖掘的算法知識沒有學習,因此可能在理解上還不是很到位,我會盡我最大的努力來進行闡述。我們一起共勉。學習資料來源,《數據挖掘十大算法》-清華大學和《數據挖掘實用案例分析》-機械工業出版社。
案例:商業零售業中的購物籃分析
一、挖掘目標的提出
零售商的問題:
銷售什么樣子的商品?
采取什么樣的銷售策略和促銷方式?
商品在貨架上的擺放位置?
針對以上的問題,我們需要分析客戶的購買數據,才能發現顧客的購買規律。所以基于問題的分析,我們明確了數據來源。那么我們明確了數據的來源,對這些數據該采取什么樣的分析方法才能達到我們想要完成的目標。
二、分析方法與過程
根據所要實現的目標,我們先來介紹一個經典的關聯規則挖掘算法:Apriori算法。
Apriori算法:關聯規則挖掘問題可以劃分為兩個子問題:第一是找出事務數據庫中所有大于等于用戶指定的最小支持度的數據項集;第二個是利用頻繁項集生成所需要的關聯規則。根據用戶設定的最小置信度進行取舍,最后得到強關聯規則。識別或發現所有頻繁項目集是關聯規則發現算法的核心。
主要步驟:
其中在這個算法中,為了達到用戶的一定要求,需要指定規則必須滿足的支持度和置信度閾值,此兩個值稱為最小支持度閾值(min_sup)和最小置信度閾值(min_conf)。其中min_sup描述了關聯規則的最低重要度,min_conf規定了關聯規則必須滿足的最低可靠性。
具體的簡單應用讀者可以自己自行從網上找取資源。
下面我們來總結一下Apriori算法的優缺點:
Apriori算法應用的領域多樣,其中主要包括:商業、網絡安全、高效管理和移動通信等領域的應用。
介紹完Apriori算法之后,我們回歸我們的案例分析,基于關聯規則的購物籃分析。那么關聯規則的挖掘過程如圖:
三、建模仿真
1模型輸入
模型的輸入包括兩部分,一部分是建模專家樣本數據的輸入,另外一部分是建模參數的輸入。
建模參數如下表:
2具體的仿真過程:
經過上述的分析,我們可以發現,在彼此不同的屬性之間,可以發現它們之間的關聯規則,這有利于我們進行商品定價和商品的擺放。合理的制定消費策略