先回顧下貝葉斯定理:
-
表示事件A出現(xiàn)的概率.
-
是條件概率的符號,表示事件A發(fā)生的條件下,事件B發(fā)生的概率,也被稱為似然度
-
也是條件概率的符號,表示事件B發(fā)生的條件下,事件A發(fā)生的概率,也被稱為后驗概率。
Bayes判別準則
- Fisher判別缺點:判別方法與各總體出現(xiàn)的概率無關,與錯判后造成的損失無關。
- Bayes判別準則:以個體歸屬某類的概率(或判別值)最大或錯判總平均數(shù)損失最小*為標準。
在這里我不想討論復雜的數(shù)學公式,因為我還沒搞明白,直接跳到在R語言中怎么用吧!例子還是之前的例子:
表6.3.png
20個電視機,5種暢銷,8種平銷,7種滯銷,試建立判別函數(shù),當一新產(chǎn)品其質(zhì)量評分為8.0,功能評分為7.5,銷售價格為65元,問該廠產(chǎn)品的銷售前景如何?用起來其實很簡單,還是用
lda()
函數(shù),使用prior
參數(shù)指定先驗概率即可:
> library(MASS)
> d6.3 <- read.xlsx("/home/my/桌面/MOOC/多元統(tǒng)計分析/mvstats5.xlsx",sheet="d6.3")
> d6.3
Q C P G3
1 8.3 4.0 29 1
2 9.5 7.0 68 1
3 8.0 5.0 39 1
4 7.4 7.0 50 1
5 8.8 6.5 55 1
6 9.0 7.5 58 2
7 7.0 6.0 75 2
8 9.2 8.0 82 2
9 8.0 7.0 67 2
10 7.6 9.0 90 2
11 7.2 8.5 86 2
12 6.4 7.0 53 2
13 7.3 5.0 48 2
14 6.0 2.0 20 3
15 6.4 4.0 39 3
16 6.8 5.0 48 3
17 5.2 3.0 29 3
18 5.8 3.5 32 3
19 5.5 4.0 34 3
20 6.0 4.5 36 3
> attach(d6.3)
> ld42 <- lda(G3~Q+C+P,prior=c(5,8,7)/20)
> ld42
Call:
lda(G3 ~ Q + C + P, prior = c(5, 8, 7)/20)
Prior probabilities of groups:
1 2 3
0.25 0.40 0.35
Group means:
Q C P
1 8.400000 5.900000 48.200
2 7.712500 7.250000 69.875
3 5.957143 3.714286 34.000
Coefficients of linear discriminants:
LD1 LD2
Q -0.81173396 0.88406311
C -0.63090549 0.20134565
P 0.01579385 -0.08775636
Proportion of trace:
LD1 LD2
0.7403 0.2597
> Z1 <- predict(ld42)
> T1 <- table(G3,Z1$class)
> T1
G3 1 2 3
1 5 0 0
2 1 6 1
3 0 0 7
> sum(diag(T1))/sum(T1) ##計算正確率
[1] 0.9
> predict(ld42,data.frame(Q=8,C=7.5,P=65)) ##預測
$class
[1] 2
Levels: 1 2 3
$posterior
1 2 3
1 0.2114514 0.786773 0.001775594
$x
LD1 LD2
1 -1.537069 -0.1367865
小結
本章最后教授給出了總結:
- 判別分析方法是按已知所屬組的樣本確定判別函數(shù),制定判別規(guī)則,然后再判斷每一個新樣品應屬于哪一類。
- 常用的判別方法有Fisher判別、距離判別、貝葉斯判別等,每個方法根據(jù)其出發(fā)點不同各有其特點。
- Fisher類判別對判別變量的分布類型并無要求,而Bayes類判別要變量的分布類型。因此,Fisher類判別較Bayes類判別簡單一些。
- 當兩個總體時,若它們的協(xié)方差矩陣相同,則距離判別和Fisher判別等價。當變量服從正態(tài)分布時,它們還和Bayes判別等價。
- 判別分析中的各種誤判的后果允許看作是相同的,通常將犯第一類錯誤的后果看得更嚴重些,但本章對此關注的不夠。