通過數據挖掘可以從大量有序或者雜亂無章的數據中發現潛在的規律,甚至通過訓練學習還能通過已知的數據預測未來的發展變化。
挖掘算法
Bayes(常用)
貝葉斯定理是關于隨機事件A和B的條件概率(或邊緣概率)的一則定理。其中P(A|B)是在B發生的情況下A發生的可能性。
貝葉斯公式
貝葉斯分類算法是統計學的一種分類方法,它是一類利用概率統計知識進行分類的算法。在許多場合,樸素貝葉斯(Na?ve Bayes,NB)分類算法可以與決策樹和神經網絡分類算法想媲美,該算法能運用到大型數據庫中,而且方法簡單、分類準準確率高、速度快。
Clustering(常用)
聚類算法,即聚類分析,又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法,同時也是數據挖掘的一個重要算法。
聚類分析簡稱聚類(clustering),是一個把數據集劃分成子集的過程,每一個子集是一個簇(cluster),使得簇中的樣本彼此相似,但與其他簇中的樣本不相似。
聚類分析不需要事先知道樣本的類別,甚至不用知道類別個數,因此它是一種無監督的學習算法,一般用于數據探索,比如群組發現和離群點檢測,還可以作為其他算法的預處理步驟
聚類過程示意圖
常見聚類算法
- K-Means(K均值)聚類
- 均值漂移聚類
- 基于密度的聚類方法(DBSCAN)
- 用高斯混合模型(GMM)的最大期望(EM)聚類
- 凝聚層次聚類
- 圖團體檢測(Graph Community Detection)
K-means算法
K-means算法是一種著名的并且常用的聚類方法。K-means以 k 為參數,把 n 個對象分為 k 個簇(cluster),以使簇內具有較高的相似度,而簇間的相似度較低。相似度的計算是根據一個簇中對象的平均值(被看作簇的重心)來進行的。
K-means 算法是隨機地選擇 k 個對象,每個對象初始地代表了一個簇的平均值或中心,根據其與各個簇中心的距離,對剩余的每個對象賦給最近的簇,然后重新計算每個簇的平均值。這個過程不斷重復,直到準則函數收斂。
Rule Induction
Neural Network(常用)
神經網絡就是一組相互連接的輸入輸出單元,這些單元之間的每個連接都關聯一個權重。在網絡學習階段,網絡通過通過調整權重來實現輸入樣本與其相應(正確)類別的對應。
由于神經網絡學習主要是針對其中的連接權重進行的,因此神經網絡的學習有時也稱為連接學習。
神經網絡的優點就是對噪聲數據有較好的適應能力,并且對未知數據也具有較好的預測分類能力。
Decision Tree(常用)
決策樹是在已知各種情況發生概率的基礎上,通過構成決策樹來求取凈現值的期望值大于等于零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。
Decision Tree Ensemble
Misc Classifiers
Ensemble Learning
Item Sets / Association Rules(常用)
關聯規則挖掘,關鍵規則模式屬于描述型模式,發現關聯規則的算法屬于無監督學習方法。
考察一些涉及許多物品的事務:
事務1 中出現了物品甲,事務 2 中出現了物品乙,事務 3 中則同時出現了物品 甲 和 乙。那么,物品甲和乙在事務中的出現相互之間是否有規律可循呢?
Linear/Polynomial Regression(常用)
回歸分析(regression analysis)是確定兩種或兩種以上變量相互依賴的定量關系的一種統計方法。
回歸分析是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關系。這種技術通常用于預測分析,時間序列模型以及發現變量之間的關系。例如,司機的魯莽駕駛與道路交通事故數量之間的關系,最好的研究方法就是回歸。
Polynomial Regression
多項式回歸
Linear Regression
線性回歸
Logistic Regression(常用)
MDS
PCA
PMML
SVM
Feature Selection
Scoring(常用)
排序
數據挖掘軟件 KNIME
這里主要介紹的是開源的數據挖掘軟件KNIME。
KNIME是一個開源的數據集成、數據處理、數據分析和數據勘探平臺。
KNIME采用的是類似數據流(data flow)的方式來建立分析挖掘流程。挖掘流程由一系列功能節點為(node)組成,每個節點為有輸入/輸出端口(port),用于接收數據或模型、導出結果。KNIME中每個節點都帶有交通信號燈,用于指示節點的狀態。
KNIME的特色功能HiLite允許用戶在節點結果中標記感興趣的記錄,并進一步展開后續探索。
基本工作流程
- 讀取要分析的數據;
- 對其中的一些數據進行轉換;
- 分析出其中的規律;
- 部署到平臺;
節點狀態
- 紅燈,未連接、未配置、缺乏輸入數據時為紅燈;
- 黃燈,準備執行為黃燈;
- 綠燈,執行完畢后為綠燈;