說明:非原創,借鑒網上多方材料整理,其中包括CSDN博主路易三十六,TOMOCAT及百度資源整合做的一份學習筆記,與大家共享。
一、定義
判別分析又稱“分辨法”,是在分類確定的條件下,根據某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統計分析方法。
二、判別分析的一般形式
y=a1x1+a2x2+……+anxn(a1為系數,Xn為變量)。事先非常明確共有幾個類別,目的是從已知樣本中訓練出判別函數
三、前提假設(有點類似多重回歸分析)
1.各自變量為連續性或有序分類變量
2.自變量和因變量符合線性假設
3.各組的協方差矩陣相等,類似與方差分析中的方差齊
4.變量間獨立,無共線性
注:違反條件影響也不大,主要看預測準不準,準的話違反也無所謂
四、用途
1.對客戶進行信用預測;2.尋找潛在客戶等
五、判別分析常用判別方法
1.最大似然法
適用于自變量均為分類變量的情況,算出這些情況的概率組合,基于這些組合大小進行判別
2.距離判別
對新樣品求出他們離各個類別重心的距離遠近,適用于自變量均為連續變量的情況,對變量分布類型無嚴格要求
3.Fisher判別法
與主成份分析有關,對分布、方差等都沒有什么限制,按照類別與類別差異最大原則提取公因子然后使用公因子判別
4.Bayes判別
強項是進行多類判別,要求總體呈多元正態分布。利用貝葉斯公式,概率分布邏輯衍生出來一個判別方法,計算這個樣本落入這個類別的概率,概率最大就被歸為一類
在spss中一般用Fisher判別即可,要考慮概率及誤判損失最小的用Bayes判別,但變量較多時,一般先進行逐步判別篩選出有統計意義的變量,但通常在判別分析前我們已經做了相關的預分析,所以不推薦使用逐步判別分析(采用步進法讓自變量逐個嘗試進入函數式,如果進入到函數式中的自變量符合條件,則保留在函數式中,否則,將從函數式中剔除)。
六、聚類分析與判別分析的區別與聯系
都是研究分類的。聚類分析,對總體到底有幾種類型不知道(研究分幾類較為合適需從計算中加以調整)。判別分析則是在總體類型劃分已知,對當前新樣本判斷它們屬于哪個總體。如我們對研究的多元數據的特征不熟悉,當然要進行聚類分析,才能考慮判別分析問題。
七、判別分析得到的判別函數效果評判方法
1.自身驗證(拿訓練數據直接預測驗證,但是對預測樣本預測好不代表對新樣本預測好)
2.外部數據驗證(收集新的數據來驗證,這是最客觀最有效的,但是麻煩而且兩次收集的數據不一定是同質的)
3.樣本二分法(一般劃分2/3為訓練集,1/3為驗證集,但是浪費了1/3的樣本)
4.交互驗證(Cross-Validation)----刀切法(10分法,數據劃分為10個集合,每次挑選一個出來做驗證集,其余9個做訓練集,可以做10次,因為驗證集可換10種可能)
在spss軟件中通過【分析】—【留一分類】獲得此項結論。
下面采用實例來說明。
一、問題描述
如下圖-1數據集包含了剛毛、變色、弗吉尼亞這三種鳶尾花的花萼長、寬和花瓣長、寬,分析目的是希望能夠使用這4個變量來對花的種類進行區分。spno為事先的分組,度量標準設為【名義】。
二、數據預處理
主要是對假設條件的檢驗,在spss中【分析】—【描述統計】—【描述】,如圖-2
如圖-3可以看到數據的分布沒有特別的離異點,也沒有缺失值和不合理的分布,從而可以用該數據做接下來的判別分析。
三、spss操作
1)選擇分類變量及其范圍:如圖-4所示
【分組變量】矩形框中選擇表明已知的觀測量所屬類別的變量(一定是離散變量),在定義范圍框最小值中輸入該分類變量的最小值,最大框中輸入該分類變量的最大值。
2)? ? 指定判別分析的自變量
3) 選擇觀測量
如果希望使用一部分觀測量進行判別函數的推導而且有一個變量的某個值可以作為這些觀測量的標識,則用Select 功能進行選擇,鍵入標識參與分析的觀測量所具有的該變量值,一般均使用數據文件中的所有合法觀測量此步驟可以省略。
4) 選擇分析方法:如圖-5所示
【一起輸入自變量】選項,當認為所有自變量都能對觀測量特性提供豐富的信息時,使用該選擇項。選擇該項將不加選擇地使用所有自變量進行判別分析,建立全模型,不需要進一步進行選擇。
【使用步進式方法】選項,當不認為所有自變量都能對觀測量特性提供豐富的信息時,使用該選擇項。因此需要判別貢獻的大小,再進行選擇當鼠標單擊該項時【方法】按鈕加亮,可以進一步選擇判別分析方法。一般我們做判別分析前已經做了相關的預分析(不推薦)。
如圖-6所示【方法】選項:步進法讓自變量逐個嘗試進入函數式,如果進入到函數式中的自變量符合條件,則保留在函數式中,否則,將從函數式中剔除。可供選擇的判別分析方法有:
1.Wilks'lambda 選項,它是組內平方和與總平方和之比,用于描述各組的均值是否存在顯著差別,當所有觀測組的均值都相等時,Wilks’lambda值為1;當組內變異與總變異相比很小時,表示組件變異較大,表示組間變異較大,系數接近于0。系統默認選項。
2.未解釋方差。 它指把計算殘余最小的自變量優先納入到判別函數式中。
3.Mahalanobis’距離 。它把每步都使靠得最近的兩類間的馬氏距離最大的變量進入判別函數
4.最小 F值。它把方差差異最大的自變量優先納入到判別函數中。
5.Rao’s V 。勞氏增值法:它把勞氏統計量V產生最大增值的自變量優先納入到判別函數中??梢詫σ粋€要加入到模型中的變量的V 值指定一個最小增量。選擇此種方法后,應該在該項下面的V-to-enter 后的矩形框中輸入這個增量的指定值。當某變量導致的V值增量大于指定值的變量后進入判別函數。
【標準】:選擇逐步判別停止的判據
1.使用F值。系統默認的判據。當加人一個變量(或剔除一個變量)后,對在判別函數中的變量進行方差分析。當計算的F值大于指定的進入值時,該變量保留在函數中。默認值是3.84:當該變量使計算的F值小于指定的刪除值時,該變量從函數中剔除。默認值為2.71。即當被加入的變量F 值為3.84 時才把該變量加入到模型中,否則變量不能進入模型;或者,當要從模型中移出的變量F值<2.71時,該變量才被移出模型,否則模型中的變量不會被移出.設置這兩個值時應該注意進入值>刪除值。
2.使用F檢的概率。決定變量是否加入函數或被剔除的概率而不是用F值。加入變量的F值概率的默認值是0.05(5%),移出變量的F值概率是0.10(10%)。刪除值(移出變量的F值概率) >進入值(加入變量的F值概率)。
【輸出】:對于逐步選擇變量的過程和最后結果的顯示可以通過輸出欄中的兩項進行選擇:
1.步進摘要。要求在逐步選擇變量過程中的每一步之后顯示每個變量的統計量。
2.兩兩組間距離的F值。要求顯示兩兩類之間的兩兩F值矩陣。
這里我們選擇建立全模型,所以不用對方法進行設置。
如圖-7所示【statistics】選項:可以選擇的輸出統計量分為以下3 類:
(1) 描述性
1.平均值??梢暂敵龈黝愔懈髯宰兞康木怠藴什詈透髯宰兞靠倶颖镜木岛蜆藴什?。
2.單變量ANOVA復選項。對各類中同一自變量均值都相等的假設進行檢驗,輸出單變量的方差分析結果。
3.Box’s M 復選項。對各組的協方差矩陣相等的假設進行檢驗。如果樣本足夠大,差異不顯著的p值表明矩陣差異不明顯。
(2)函數系數欄:選擇判別函數系數的輸出形式
1.Fisherh’s。給出Bayes判別函數的系數。對每一類給出一組系數,并給出該組中判別分數最大的觀測量。(注意:這個選項不是要給出Fisher判別函數的系數。這個復選框的名字之所以為Fisher’s,是因為按判別函數值最大的一組進行歸類這種思想是由Fisher提出來的。這里極易混淆,請注意辨別。)
2.未標準化。給出未標準化的判別函數(即典型判別函數)的系數(SPSS默認給出標準化的判別函數信息)。
(3)矩陣
1.組內相關。即類內相關矩陣,它是根據在計算相關矩陣之前將各組(類)協方差矩陣平均后計算類內相關矩陣。
2.組內協方差。即計算并顯示合并類內協方差矩陣,是將各組(類)協方差矩陣平均后計算的。區別于總協方差陣。
3.分組協方差。對每類輸出顯示一個協方差矩陣。
4.總體協方差。計算并顯示總樣本的協方差矩陣。
如圖-8所示【分類】選項:
(1) 先驗概率:兩者選其一
1.所有組相等。各類先驗概率相等。若分為m類,則各類先驗概率均為1/m。系統默認
2.根據組大小計算。由各類的樣本量計算決定,即各類的先驗概率與其樣本量成正比。
(2) 使用協方差矩陣 :選擇分類使用的協方差矩陣
1.在組內。指定使用合并組內協方差矩陣進行分類。系統默認
2.分組。指定使用各組協方差矩陣進行分類。
由于分類是根據判別函數,而不是根據原始變量,因此該選擇項不是總等價于二次判別。
(3) 圖:選擇要求輸出的統計圖
1.合并組。生成一張包括各類的散點圖。該散點圖是根據前兩個判別函數值作的散點圖。如果只有一個判別函數就輸出直方圖。
2.分組。根據前兩個判別函數值對每一類生成一張激點圖,共分為幾類就生成幾張散點圖。如果只有一個判別函數就輸出直方圖。
3.區域圖。生成用于根據函數值把觀測量分到各組中去的邊界圖。此種統計圖把一張圖的平面劃分出與類數相同的區域。每一類占據一個區各類的均值在各區中用*號標出。如果僅有一個判別函數,則不作此圖。
(4) 輸出欄:選擇生成到輸出窗中的分類結果
1.個案摘要。要求輸出每個觀測量包括判別分數、實際類、預測類(根據判別函數求得的分類結果)和后驗概率等。選擇此項還可以選擇其附屬選擇項:將個案限制在前,并在后面的小矩形框中輸入觀測量數n選擇。此項則僅對前n個觀測量輸出分類結果。觀測數量大時可以選擇此項。
2.摘要表。要求輸出分類的小結,給出正確分類觀測量數(原始類和根據判別函數計算的預測類相同)和錯分觀測量數和錯分率。
3.不考慮該個案時的分類(留一分類)。輸出對每個觀測量進行分類的結果,所依據的判別是由除該觀測量以外的其他觀測量導出的,也稱為交互校驗結果。建議勾選
(5)使用均值替換缺失值:即用該類變量的均值代替缺失值。缺失值缺失大于10%,不介意勾選
本例中如圖-8中勾選。
如圖-9所示【保存】選項:指定生成并保存在數據文件中的新變量
1.預測組成員。要求建立一個新變量,預測觀測量的分類。是根據判別分數把觀測量按后驗概率最大指派所屬的類。每運行一次Discriminant過程,就建立一個表明使用判別函數預測各觀測量屬于哪一類的新變量。第1 次運行建立新變量的變量名為dis_l,如果在工作數據文件中不把前一次建立的新變量刪除,第n次運行Descriminant 過程建立的新變量默認的變量名為dis_n。
2.判別分數。要求建立fisher判別分數的新變量。該分數是由未標準化的判別系數乘自變量的值,將這些乘積求和后加上常數得來。每次運行Discriminant過程都給出一組表明判別分數的新變量,建立幾個判別函數就有幾個判別分數變量。
3. 組成員概率。Bayes后驗概率值。有m類,對一個觀測量就會給出m個概率值,因此建立m個新變量。
本例不勾選。
四、輸出結果
下面為最重要的結果,可在撰寫結論使用。