一、數據挖掘的過程
數據挖掘使用一定的算法從實際應用數據中挖掘出未知、有價值的模式或規律等知識,整個過程由數據準備、數據挖掘、模式評估、鞏固知識和運用知識等步驟組成。
1.數據準備。數據挖掘的處理對象是數據,這些數據一般存儲在數據庫系統中,是長期積累的結果。但往往不適合直接在這些數據上進行知識挖掘,首先要清除數據噪聲和與挖掘主題明顯無關的數據;其次將來自多數據源中的相關數據組合并;然后將數據轉換為易于進行數據挖掘的數據存儲形式,這就是數據準備。
2.數據挖掘。數據挖掘就是根據數據挖掘的目標,選取相應算法及參數,分析準備好的數據,產生一個特定的模式或數據集,從而得到可能形成知識的模式模型。
3.模式評估。由挖掘算法產生的模式規律,存在無實際意義或無實用價值的情況,也存在不能準確反映數據的真實意義的情況,甚至在某些情況下與事實相反,因此需要對其進行評估,從挖掘結果中篩選出有意義的模式規律。在此過程中,為了取得更為有效的知識,可能會返回前面的某一處理步驟中以反復提取,從而提取出更有效的知識。
二、數據挖掘的常用方法
1.決策樹方法。決策樹是一種常用于預測模型的算法,它通過一系列規則將大量數據有目的分類,從中找到一些有價值的、潛在的信息。它的主要優點是描述簡單,分類速度快,易于理解、精度較高,特別適合大規模的數據處理,在知識發現系統中應用較廣。它的主要缺點是很難基于多個變量組合發現規則。在數據挖掘中,決策樹方法主要用于分類。
2.神經網絡方法。神經網絡是模擬人類的形象直覺思維,在生物神經網絡研究的基礎上,根據生物神經元和神經網絡的特點,通過簡化、歸納、提煉總結出來的一類并行處理網絡,利用其非線性映射的思想和并行處理的方法,用神經網絡本身結構來表達輸入和輸出的關聯知識。
3.粗糙集方法。粗糙集理論是一種研究不精確、不確定知識的數學工具。粗糙集處理的對象是類似二維關系表的信息表。目前成熟的關系數據庫管理系統和新發展起來的數據倉庫管理系統,為粗糙集的數據挖掘奠定了堅實的基礎。粗糙集理論能夠在缺少先驗知識的情況下,對數據進行分類處理。在該方法中知識是以信息系統的形式表示的,先對信息系統進行歸約,再從經過歸約后的知識庫抽取得到更有價值、更準確的一系列規則。因此,基于粗糙集的數據挖掘算法實際上就是對大量數據構成的信息系統進行約簡,得到一種屬性歸約集的過程,最后抽取規則。
4.遺傳算法。遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法。數據挖掘是從大量數據中提取人們感興趣的知識,這些知識是隱含的、事先未知的、潛在有用的信息。因此,許多數據挖掘問題可以看成是搜索問題,數據庫或者數據倉庫為搜索空間,挖掘算法是搜索策略。應用遺傳算法在數據庫中進行搜索,對隨機產生的一組規則進行進化,直到數據庫能被該組規則覆蓋,就可以挖掘出隱含在數據庫中的規則。