數(shù)據(jù)分析基礎(chǔ)——基本運算

x=[n*m]型矩陣數(shù)據(jù),n是樣本數(shù),m是變量維數(shù);

*********************************基本公式************************************

均值:每一列的均值

mean(xj)=(xj1+xj2+...+xjn)/n

方差:計算每一列的方差

var(xj)=[(xj1-mean(xj))^2+(xj2-mean(xj))^2+...+(xjn-mean(xj))^2]/n

標準差:方差的開方

std=var(xj)^1/2

協(xié)方差:變量xj和xk之間協(xié)方差

cov(xj, xk)=[(xj1-mean(xj))*(xk1-mean(xk))+...+(xjn-mean(xj))*(xkn-mean(xk))]/n

相關(guān)系數(shù):變量xj和xk之間的相關(guān)系數(shù) ,反映兩個變量的相似程度0~1;

r(xj , xk)=cov(xj , xk)/[std(xj)*std(xk)]

向量內(nèi)積:變量x和y之間的內(nèi)積

(x1y1+x2y2+...+xmym)

向量x,y之間的夾角:內(nèi)積/(模x*模y)

(x1y1+x2y2+...+xmym)/?[(x1^2+x2^2+...+xm^2)^1/2 *??(y1^2+y2^2+...+ym^2)^1/2]

內(nèi)積和夾角之間的關(guān)系

***********************************基本處理********************************

數(shù)據(jù)中心化:均值為0,中心在原點

Xij=xij-mean(xj)

數(shù)據(jù)無量綱化:各種無量綱方法,對數(shù)據(jù)壓縮


Xij=xij/std(xj)


Xij=xij/max(xj)


Xij=xij/min(xj)


Xij=xij/mean(xj)


Xij=xij/[max(xj)-min(xj)]


數(shù)據(jù)歸一化:其實和上面無量綱一個意思,對數(shù)據(jù)中心化和壓縮

Xij=[xij-min(xj)]/[max(xj)-min(xj)]

數(shù)據(jù)標準化:標準化是對數(shù)據(jù)每列樣本數(shù)進行標準化,均值為0,方差為1;標準化的目的是對數(shù)據(jù)進行中心化和壓縮

Xij=(xij-mean(xj))/std(xj)

變量歸一化(單位圓化):對每個樣本進行歸一化(變量間歸一化),中心在原點,距離為1;注意這里是對每一行進行歸一化,每個樣本的模為1;

Xij=xij/(xi1^2+xi2^2+...+xim^2)^1/2

說明:因該針對不同的問題,采用不同數(shù)據(jù)處理方法,不能盲目用以上方法,比如:歸一化是對列還是對行進行處理,需要看數(shù)據(jù)針對的問題。

心得:單位圓化后的兩個向量的夾角=其內(nèi)積

補充:測定系數(shù)R^2(多元回歸中叫復(fù)測定系數(shù)),對回歸方程的一個評價指標。(參考偏最小二乘回歸的線性與非線性方法(書.王惠文))




最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • ***創(chuàng)建函數(shù)時,如果有多個未知參數(shù),可以用*args,在使用時可以用for arg in args:遍歷df的重...
    茶小美閱讀 1,478評論 0 3
  • 1 為什么要對特征做歸一化 特征歸一化是將所有特征都統(tǒng)一到一個大致相同的數(shù)值區(qū)間內(nèi),通常為[0,1]。常用的特征歸...
    顧子豪閱讀 6,806評論 2 22
  • 1 為什么要對特征做歸一化 特征歸一化是將所有特征都統(tǒng)一到一個大致相同的數(shù)值區(qū)間內(nèi),通常為[0,1]。常用的特征歸...
    顧子豪閱讀 1,460評論 0 1
  • 一、數(shù)值計算和統(tǒng)計 1.基本參數(shù)axis軸和skipna跳過空值 df.mean() #.mean()默認列計算均...
    茶小美閱讀 1,125評論 0 4
  • 單元1:NumPy庫入門 數(shù)據(jù)的維度 從一個數(shù)據(jù)到一組數(shù)據(jù) 一個數(shù)據(jù):表達一個含義一組數(shù)據(jù):表達一個或多個含義維度...
    YBOT閱讀 786評論 0 1