1. 判別分析的基本思想
a. 目的:識別一個個體所屬類別
b. 適用:被解釋對象是非度量變量(nonmetric),解釋變量是度量變量;分組類型2組以上,每組樣品>1。
c. 應用:歸類、預測
d. 判別分析與聚類分析:
i. 聚類分析前,我們并不知道應該分幾類,分類工作;
ii. 判別分析時,樣品的分類已事先確定,需要利用訓練樣 本建立判別準則,對新樣品所屬類別進行判定,歸類工作。
2. 判別分析的三大假設:
a. 假設1:每一個判別變量(解釋變量)不能是其他判別變量的線性組合。避免多重共線性問題。
b. 假設2:如果采用線性判別函數,還要求各組變量協方差矩陣相等----線性判別函數使用起來最方便、在實際 中使用最廣。
c. 假設3:各判別變量遵從多元正態分布,可精確的計算 顯著性檢驗值和歸屬概率,不然計算概率不準。
- 核心思想:樣品和哪個總體距離最近,就判它屬哪個總體。
3. 距離判別
兩總體:
協方差相等/協方差不等
多總體:
協方差相等/協方差不等
3.2距離判別的小結:
優點:
i. 距離判別只要求知道總體的特征量(即參數)---均值和協差陣,不涉及總體的分布類型.
ii. 當參數未知時,就用樣本均值和 樣本協差陣來估計.
iii. 距離判別方法簡單,結論明確,是很實用的方法.
ii. 缺點
i. 該判別法與各總體出現的機會大小(先驗概率)完全無關
ii. 判別方法沒有考慮錯判造成的損失,這是不合理的.
4. 貝葉斯判別:
v. 貝葉斯判別的基本思想
i. 假定對研究對象已經有了一定的認識,這種認識可以用先驗概率來描述,當取得樣本后,就可以利用樣本來修正已有的 先驗概率分布,得到后驗概率分布,再通過后驗概率分布進 行各種統計推斷。
ii. 貝葉斯判別屬于概率判別法。
iii. 判別準則:
i. 個體歸屬某類的概率(后驗概率)最大
ii. 錯判總平均損失最小為標準。
vi. 貝葉斯判別的后驗概率最大
貝葉斯小結
i. 貝葉斯(Bayes)判別要變量服從正態分布類型。
ii. 、貝葉斯(Bayes)判別的判別準則是以個體歸屬某類的概率最大或錯判總平均損失最小為標準。彌補了 距離判別和費歇(Fisher)判別的缺點。
5. 費歇(Fisher)判別
5.1費歇(Fisher)判別核心思想:
i. 通過多維數據投影到一維度直線上,將k組m維數據投影到 某一個方向,使得投影后組與組之間盡可能地分開。而衡量組 與組之間是否分開的方法借助于一元方差分析的思想
ii. 費歇(Fisher)判別是一種確定性判別。
5.2費歇(Fisher)判別小結:
i. 費歇(Fisher)判別對判別變量的分布類型并無要求, 而貝葉斯(Bayes)判別要變量服從正態分布類型。因此, Fisher類判別較Bayes類判別簡單一些。
ii. 當兩個總體時,若它們的協方差矩陣相同,則距離判 別和Fisher判別等價。 當變量服從正態分布時,它們還 和Bayes判別等價。
iii. 與距離判別一樣,費歇判別與各總體出現的機會大小 (先驗概率)完全無關;也沒有考慮錯判造成的損失。
6. 逐步判別
6.1背景與意義
i. 目的:
如何從m個變量中挑選出對區分k個總體有顯 著判別能力的變量,來建立判別函數,用以判別歸類。
ii. 常見問題:
1.忽略主要的指標;
- 引入太多 的指標,計算量大又干擾分析。
iii. 定義:
凡是具有篩選變量能力的判別方法統稱為逐步判別法。
6.2. 主要思想:
i. 保留判別能力顯著的變量
ii. 剔除判別能力不顯著的變量
6.3. 具體步驟:
i. 逐步篩選變量
i. 根據各變量對區分k個總體的判別能力的大小,利用向 前選入、向后剔除或逐步篩選的方法來選擇區分k個總體的 最佳變量子集。
ii. 判別歸類
i. 對已選出變量子集,使用三大判別方法(距離判別、 Bayes判別、Fisher判別)對樣品進行判別歸類。