x=[n*m]型矩陣數(shù)據(jù),n是樣本數(shù),m是變量維數(shù);
*********************************基本公式************************************
均值:每一列的均值
mean(xj)=(xj1+xj2+...+xjn)/n
方差:計算每一列的方差
var(xj)=[(xj1-mean(xj))^2+(xj2-mean(xj))^2+...+(xjn-mean(xj))^2]/n
標準差:方差的開方
std=var(xj)^1/2
協(xié)方差:變量xj和xk之間協(xié)方差
cov(xj, xk)=[(xj1-mean(xj))*(xk1-mean(xk))+...+(xjn-mean(xj))*(xkn-mean(xk))]/n
相關(guān)系數(shù):變量xj和xk之間的相關(guān)系數(shù) ,反映兩個變量的相似程度0~1;
r(xj , xk)=cov(xj , xk)/[std(xj)*std(xk)]
向量內(nèi)積:變量x和y之間的內(nèi)積
(x1y1+x2y2+...+xmym)
向量x,y之間的夾角:內(nèi)積/(模x*模y)
(x1y1+x2y2+...+xmym)/?[(x1^2+x2^2+...+xm^2)^1/2 *??(y1^2+y2^2+...+ym^2)^1/2]
***********************************基本處理********************************
數(shù)據(jù)中心化:均值為0,中心在原點
Xij=xij-mean(xj)
數(shù)據(jù)無量綱化:各種無量綱方法,對數(shù)據(jù)壓縮
Xij=xij/std(xj)
Xij=xij/max(xj)
Xij=xij/min(xj)
Xij=xij/mean(xj)
Xij=xij/[max(xj)-min(xj)]
數(shù)據(jù)歸一化:其實和上面無量綱一個意思,對數(shù)據(jù)中心化和壓縮
Xij=[xij-min(xj)]/[max(xj)-min(xj)]
數(shù)據(jù)標準化:標準化是對數(shù)據(jù)每列樣本數(shù)進行標準化,均值為0,方差為1;標準化的目的是對數(shù)據(jù)進行中心化和壓縮
Xij=(xij-mean(xj))/std(xj)
變量歸一化(單位圓化):對每個樣本進行歸一化(變量間歸一化),中心在原點,距離為1;注意這里是對每一行進行歸一化,每個樣本的模為1;
Xij=xij/(xi1^2+xi2^2+...+xim^2)^1/2
說明:因該針對不同的問題,采用不同數(shù)據(jù)處理方法,不能盲目用以上方法,比如:歸一化是對列還是對行進行處理,需要看數(shù)據(jù)針對的問題。
心得:單位圓化后的兩個向量的夾角=其內(nèi)積
補充:測定系數(shù)R^2(多元回歸中叫復(fù)測定系數(shù)),對回歸方程的一個評價指標。(參考偏最小二乘回歸的線性與非線性方法(書.王惠文))