CRISP-DM方法介紹
CRISP-DM代表cross-industry process for data mining即跨行業數據挖掘流程。CRIS-DM為策劃一個數據挖掘項目提供了一個結構化的方法,是一個很好的理清項目研究思路的model。kaggle入門項目泰坦尼克生存預測的教程An Interactive Data Science Tutorial即使用了該模型。本文主要對 CRISP-DM說明文檔的部分內容進行了一些理解性翻譯,僅供交流參考。
2 數據理解Data understanding
2.1數據描述 Describe Data
描述所獲得數據,包括其格式,數量(如每個表中的記錄和字段的數量),字段的表示,以及一些表面特征,評估所獲得的數據是否滿足你的要求。需要輸出一份Decribe Data report。
2.2數據探索Explore data
在這一階段,你將使用查詢,*數據可視化等處理數據挖掘問題,這一階段你主要需要關注:
- 關鍵變量的分布(例如預測任務中目標變量的分布)
- 各屬性之間的相互關系
- 簡單聚合的結果
- 顯著子群的性質
- 簡單的統計分析
這些分析可能可以直接處理你的數據挖掘目標,也可能有助于或改進數據描述和質量報告,并未進一步分析提供準備。
輸出:數據探索報告data exploration report。在報告中包括對數據的初步發現,你的初步假設,該部分工作對余下工作的主要影響等,如果合適的話這一部分應當包含適量的圖表。。
2.3 數據質量檢驗 verify data quality
檢驗數據質量,主要包括以下幾個方面:
- 完整性(是否包含了要求的所有情況)
- 準確性 (是否存在錯誤值,錯誤值是隨機的還是具有共同性質)
- 缺省值(是否有缺省值,缺省值如何表示,出現在什么位置,是否具有某些共同性質)
輸出:數據質量報告
3 數據準備data preparation
3.1數據選擇select your data
選擇你將在分析中使用的數據,這一選擇即包括對列的選擇也包括對行的選擇。
輸出:列入/排除清單:明確數據列入和排除的原因。
3.2 數據清洗 clean your data
這一部分主要通過一些技術方法,提高所選擇數據的質量。這其中包括干凈子集的選擇,合適默認值的插入,或者其他技術方法,比如通過建模填充缺失值等。
輸出:數據清洗報告:列出你所采取的措施。
3.3 構造所需要的數據 construct requried data
構造數據既可以派生屬性也可以生成記錄,即你可以增加行也可增加列。
派生屬性-這些屬性是由同一記錄中的一個或多個現有屬性構造的新屬性,例如,您可以使用長度和寬度的變量來計算區域的新變量
生成記錄-例如,您可能需要為過去一年未購買的客戶創建記錄。沒有理由在原始數據中有這樣的記錄,但是為了建模的目的,明確地表示特定客戶進行零購買的事實可能是有意義的。
3.4 Integrate data 整合數據
整合數據包括對數據的合并和對數據的聚合。
數據合并:合并表是指將兩個或多個具有同一對象的不同信息的表連接在一起。例如,一個零售連鎖店可能有一個表,每個表包含每個存儲的一個記錄。這些表可以合并為一個新表,每個存儲有一個記錄,并從源表中組合字段。
聚合-聚合是指新值是指通過從多個記錄總結信息的操作。