看到很多數據分析書籍里面談及到主成分分析和因子分析,我們常常會發現兩種分析方法有很多相似的地方,然而,兩種方法卻截然不同,在網上看到了一篇文章將兩種方法的區別介紹的很清楚,原文鏈接:
1. 主成分分析方法:
主成分分析主要是通過創建原始變量的線性組合,從而創建若干個新的變量代替原始變量。這里所說的若干個新的變量成為主成分。
下圖即展示了主成分分析方法的概念,將四個變量Y1,Y2,Y3,Y4按照W1,W2,W3,W4的權重組成了主成分C。哪個Y的W越大,說明這個Y對于C的影響或者說重要性更大。用數學公式來表示:C = w1(Y1) + w2(Y2) + w3(Y3) + w4(Y4)
2. 因子分析法
因子分析分析方法更是為了找到各個變量背后的隱含力量(latent variable)。隱含力量這樣的說法聽起來比較抽象,也許可以將一些難以用數值衡量的因素理解為隱含力量,例如智商,社會性焦慮,土壤肥沃程度等等。進一步拿社會性焦慮來舉例,我們可以通過一系列的變量來衡量這個指標,例如我們可以在問卷內容上設計一些問題:在人群之中,我感覺不是很舒適;和陌生人說話通常讓我很緊張。有社會焦慮感很強的受眾可能會給這些問題更高的打分。
下圖展示中F代表了作用于Y1,Y2,Y3,Y4的隱含力量F,F對于Y的作用力度用b來表示,F對于變量不能解釋的部分則用U來表示。寫成數學公式如下:
Y1?= b1*F + u1
Y2?= b2*F + u2
Y3?= b3*F + u3
Y4?= b4*F + u4