微軟決策樹-挖掘模型建立及應用;學習使用Microsoft決策樹創建OLAP數據挖掘模型;深入理解決策樹分類的數據挖掘意義。
1.打開程序->Microsoft SQL Server 2008->SQL Server Management Studio,啟動SQL Server 2008數據庫,用Windows身份登錄,新建一個數據庫名為ysy,導入數據,選擇示例數據用Excel導入,成功導入界面如圖所示。
2.導入的數據的界面。
3.打開程序->Microsoft SQL Server 2008->SQL Server Business Intelligence Development Studio,啟動SQL Server 2008 BI的開發環境。在“文件”菜單上,指向“新建”,然后選擇“項目”。選中“項目類型”窗格中的“商業智能項目”。選中“模板”窗格中的“Analysis Services項目”。在“名稱”框中,將新項目重命名,單擊“確定”。在右邊的窗口可以看到有以下幾項:數據源;數據源視圖;挖掘結構等.......
4.右擊數據源->新建數據源->點擊新建-填寫服務器名(本機服務器用.即可)->選擇到ysy->測試連接,如果成功點確定->下一步->使用服務賬戶(這一步很關鍵)->即可完成。
5.右擊數據源視圖->新建視圖->下一步->下一步->下一步->選擇我們想要進行分析的表為三國勾選上->完成。就會出現這樣的視圖。
6.右擊挖掘結構->新建->下一步->選擇現有關系數據庫->此處會顯示有很多種算法的選擇,我們選擇Microsoft決策樹->點擊下一步->事例選中三國-指定數據鍵值為序列號,可預測為身份,剩下的輸入項可以通過建議去掉沒什么關聯的,將屬性自動分為連續型、離散型、可連續化的以及序列的(這一步也可通過自己判斷)->在“創建測試集”頁面中,設置“測試數據百分比”(一般測試集百分比為30%)->點擊下一步->名稱,允許鉆取勾選上
7.完成后,即可看到右邊窗口出現這樣的三個文件。
8.右擊挖掘結構下面的三國.dmm文件->處理-運行->關閉
(可能會出現這樣的問題:服務器角色沒有權限,這時就需要返回到SSMS中查看多贏的角色,顯示只勾選到了public選項,賦予它sysadmin管理員的職能,再次運行即可)
9.選擇挖掘模型查看器即可看到通過決策樹的算法進行的結果分析。
10.通過觀察發現當武力值在60到78.8之間的數據分析不是很明顯,所以解決辦法就是:
點擊挖掘模型右擊設置算法參數->最上面的Microsoft_Decision_Trees->在MINIMUM_SUPPORT項中值得地方填上5,點擊確定后,完成。
11.再次查看決策樹的畫法可以看到在武力值在60到78.8之間的數據分析又進行了政治的分析:
12.通過觀察依賴關系網絡,將所有鏈接拉到最強鏈接,發現武力值對身份的影響是最大的:
13.通過挖掘模型預測結果的界面,在選擇事例表中選擇三國這張表
14.左上角選擇單獨查詢->輸入要預測人的各項輸入值->輸入完成后,將左邊的身份即預測項拖動放進源里面
15.點擊左上角查看結果切換到即可預測身份;
16.假如說想更換屬性的狀態,比如當出身不是很影響身份的預測,我們即可將出身的input選擇為忽略即可。
17.通過提升圖,可以清楚的看到預測值和準確值的差別。
實驗總結:在這次的實驗當中,看似簡單的過程,中間還是出現了各種問題,比如在挖掘結構處理過程中用戶角色沒有權限,對數據屬性是連續、離散、可連續化還是序列的判斷不是很準確,判斷是否關聯性大景城有錯誤,導致決策樹的不準確。決策樹有時候畫出來分叉很多,有時候發現當某一屬性在一個區間之間的數據分析不是很明顯,需要再次構造一個有明顯的區別的樹等等。而且對該軟件還不是很熟悉,操作起來還是需要步驟的詳細解釋,有些要注意的步驟還是要更注意,比如如果不選擇可以鉆取數據的話到時候就不能對數據進行操作,所以要根據實際情況進行操作。