聚類分析、判別分析、主成分分析、因子分析

來(lái)自:帶呀帶尾呀(數(shù)據(jù)小生、數(shù)字營(yíng)銷、新媒體)

主成分分析與因子分析的區(qū)別

1. 目的不同: 因子分析把諸多變量看成由對(duì)每一個(gè)變量都有作用的一些公共因子和僅對(duì)某一個(gè)變量有作用的特殊因子線性組合而成,因此就是要從數(shù)據(jù)中控查出對(duì)變量起解釋作用的公共因子和特殊因子以及其組合系數(shù);主成分分析只是從空間生成的角度尋找能解釋諸多變量變異的絕大部分的幾組彼此不相關(guān)的新變量(主成分)。

2. 線性表示方向不同: 因子分析是把變量表示成各公因子的線性組合;而主成分分析中則是把主成分表示成各變量的線性組合。

3. 假設(shè)條件不同:主成分分析中不需要有假設(shè);因子分析的假設(shè)包括:各個(gè)公共因子之間不相關(guān),特殊因子之間不相關(guān),公共因子和特殊因子之間不相關(guān)。

4. 提取主因子的方法不同:因子分析抽取主因子不僅有主成分法,還有極大似然法,主軸因子法,基于這些方法得到的結(jié)果也不同;主成分只能用主成分法抽取。

5. 主成分與因子的變化:當(dāng)給定的協(xié)方差矩陣或者相關(guān)矩陣的特征值唯一時(shí),主成分一般是固定的;而因子分析中因子不是固定的,可以旋轉(zhuǎn)得到不同的因子。

6. 因子數(shù)量與主成分的數(shù)量:在因子分析中,因子個(gè)數(shù)需要分析者指定(SPSS根據(jù)一定的條件自動(dòng)設(shè)定,只要是特征值大于1的因子主可進(jìn)入分析),指定的因子數(shù)量不同而結(jié)果也不同;在主成分分析中,成分的數(shù)量是一定的,一般有幾個(gè)變量就有幾個(gè)主成分(只是主成分所解釋的信息量不等)。

7. 功能:和主成分分析相比,由于因子分析可以使用旋轉(zhuǎn)技術(shù)幫助解釋因子,在解釋方面更加有優(yōu)勢(shì);而如果想把現(xiàn)有的變量變成少數(shù)幾個(gè)新的變量(新的變量幾乎帶有原來(lái)所有變量的信息)來(lái)進(jìn)入后續(xù)的分析,則可以使用主成分分析。當(dāng)然,這種情況也可以使用因子得分做到,所以這種區(qū)分不是絕對(duì)的。

1 、聚類分析

基本原理:將個(gè)體(樣品)或者對(duì)象(變量)按相似程度(距離遠(yuǎn)近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強(qiáng)。目的在于使類間元素的同質(zhì)性最大化和類與類間元素的異質(zhì)性最大化。

常用聚類方法:系統(tǒng)聚類法,K-均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。

注意事項(xiàng):1. 系統(tǒng)聚類法可對(duì)變量或者記錄進(jìn)行分類,K-均值法只能對(duì)記錄進(jìn)行分類;

2. K-均值法要求分析人員事先知道樣品分為多少類;

3. 對(duì)變量的多元正態(tài)性,方差齊性等要求較高。

應(yīng)用領(lǐng)域:細(xì)分市場(chǎng),消費(fèi)行為劃分,設(shè)計(jì)抽樣方案等

2、判別分析

基本原理:從已知的各種分類情況中總結(jié)規(guī)律(訓(xùn)練出判別函數(shù)),當(dāng)新樣品進(jìn)入時(shí),判斷其與判別函數(shù)之間的相似程度(概率最大,距離最近,離差最小等判別準(zhǔn)則)。

常用判別方法:最大似然法,距離判別法,F(xiàn)isher判別法,Bayes判別法,逐步判別法等。

注意事項(xiàng):1. 判別分析的基本條件:分組類型在兩組以上,解釋變量必須是可測(cè)的;

2. 每個(gè)解釋變量不能是其它解釋變量的線性組合(比如出現(xiàn)多重共線性情況時(shí),判別權(quán)重會(huì)出現(xiàn)問(wèn)題);

3. 各解釋變量之間服從多元正態(tài)分布(不符合時(shí),可使用Logistic回歸替代),且各組解釋變量的協(xié)方差矩陣相等(各組協(xié)方方差矩陣有顯著差異時(shí),判別函數(shù)不相同)。

相對(duì)而言,即使判別函數(shù)違反上述適用條件,也很穩(wěn)健,對(duì)結(jié)果影響不大。

應(yīng)用領(lǐng)域:對(duì)客戶進(jìn)行信用預(yù)測(cè),尋找潛在客戶(是否為消費(fèi)者,公司是否成功,學(xué)生是否被錄用等等),臨床上用于鑒別診斷。

3、 主成分分析/ 因子分析

主成分分析基本原理:利用降維(線性變換)的思想,在損失很少信息的前提下把多個(gè)指標(biāo)轉(zhuǎn)化為幾個(gè)綜合指標(biāo)(主成分),即每個(gè)主成分都是原始變量的線性組合,且各個(gè)主成分之間互不相關(guān),使得主成分比原始變量具有某些更優(yōu)越的性能(主成分必須保留原始變量90%以上的信息),從而達(dá)到簡(jiǎn)化系統(tǒng)結(jié)構(gòu),抓住問(wèn)題實(shí)質(zhì)的目的。

因子分析基本原理:利用降維的思想,由研究原始變量相關(guān)矩陣內(nèi)部的依賴關(guān)系出發(fā),把一些具有錯(cuò)綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個(gè)綜合因子。(因子分析是主成分的推廣,相對(duì)于主成分分析,更傾向于描述原始變量之間的相關(guān)關(guān)系)

求解主成分的方法:從協(xié)方差陣出發(fā)(協(xié)方差陣已知),從相關(guān)陣出發(fā)(相關(guān)陣R已知)。

(實(shí)際研究中,總體協(xié)方差陣與相關(guān)陣是未知的,必須通過(guò)樣本數(shù)據(jù)來(lái)估計(jì))

求解因子載荷的方法:主成分法,主軸因子法,極大似然法,最小二乘法,a因子提取法。

注意事項(xiàng):1. 由協(xié)方差陣出發(fā)與由相關(guān)陣出發(fā)求解主成分所得結(jié)果不一致時(shí),要恰當(dāng)?shù)倪x取某一種方法;

2. 對(duì)于度量單位或是取值范圍在同量級(jí)的數(shù)據(jù),可直接求協(xié)方差陣;對(duì)于度量單位不同的指標(biāo)或是取值范圍彼此差異非常大的指標(biāo),應(yīng)考慮將數(shù)據(jù)標(biāo)準(zhǔn)化,再由協(xié)方差陣求主成分;

3.主成分分析不要求數(shù)據(jù)來(lái)源于正態(tài)分布;

4. 在選取初始變量進(jìn)入分析時(shí)應(yīng)該特別注意原始變量是否存在多重共線性的問(wèn)題(最小特征根接近于零,說(shuō)明存在多重共線性問(wèn)題)。

5. 因子分析中各個(gè)公共因子之間不相關(guān),特殊因子之間不相關(guān),公共因子和特殊因子之間不相關(guān)。

應(yīng)用領(lǐng)域:解決共線性問(wèn)題,評(píng)價(jià)問(wèn)卷的結(jié)構(gòu)效度,尋找變量間潛在的結(jié)構(gòu),內(nèi)在結(jié)構(gòu)證實(shí)。

4、對(duì)應(yīng)分析/最優(yōu)尺度分析

基本原理:利用降維的思想以達(dá)到簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)的目的,同時(shí)對(duì)數(shù)據(jù)表中的行與列進(jìn)行處理,尋求以低維圖形表示數(shù)據(jù)表中行與列之間的關(guān)系。

對(duì)應(yīng)分析:用于展示變量(兩個(gè)/多個(gè)分類)間的關(guān)系(變量的分類數(shù)較多時(shí)較佳);

最優(yōu)尺度分析:可同時(shí)分析多個(gè)變量間的關(guān)系,變量的類型可以是無(wú)序多分類,有序多分類或連續(xù)性變量,并 對(duì)多選題的分析提供了支持。

5、典型相關(guān)分析

基本原理:借用主成分分析降維的思想,分別對(duì)兩組變量提取主成分,且使從兩組變量提取的主成分之間的相關(guān)程度達(dá)到最大,而從同一組內(nèi)部提取的各主成分之間互不相關(guān)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容