AprioriAll算法總結
使用場景:
AprioriAll算法是在Apriori算法基礎上加入了時間序列的統計方法,使數據集之間多了時間序列上的關聯關系。
原理:
我們分五個具體階段來介紹基于上面概念發現序列模式的方法。這些步驟分別是排序階段、大項集階段、轉換階段、序列階段以及選最大階段。
-
排序階段
?對數據庫進行排序(Sort),排序的結果將原始的數據庫轉換成序列數據庫。
帶交易時間的交易數據源實例
按時間序列排序處理后
-
大項集階段
?這個階段要找出所有頻繁的項集(即大項集)組成的集合L。(使用支持度閾值篩選,然后用算出從一階到多階的支持度)
根據數據集,統計符合最低閾值的頻繁項,轉成map
大項集階段 -
轉換階段
? 用最大頻度項,替換原來的數據集,得到新的數據集,低頻率的項將會被刪除。
轉換階段,得到映射表 序列階段
?對轉換完的數據,在進行一次,大于最小支持度閾值的篩選,從一階到多階。選最大階段
?在大序列集中找出最長序列(Maximal Sequences)。
偽碼:
AprioriAll偽碼
如需源碼,請私信我。
參考資料1:https://blog.csdn.net/qq_25269795/article/details/84202263
參考資料2:https://blog.csdn.net/WeeYang/article/details/52793864