數據標準化的方法:“最小—最大標準化”、“Z-score標準化”
1.最小—最大標準化
原理:將某一問項的原始值x通過標準化映射成在區間[0,1]中的值 ,其公式為:新數據=(原數據-極小值)/(極大值-極小值),也稱為離差標準化,是對原始數據的線性變換,使結果值映射到[0 - 1]之間
公式:標準化結果x'=(x-min)/(max-min), 其中x表示原始數據,min表示該指標的最小值,max表示該指標的最大值
spss操作:第一步—選定該指標包含的數據,點擊“分析”-“描述”—得到描述性統計結果,并可知道該指標的最小、最大、平均和標準差值 ,如下圖 ;第二部,點擊“轉換”—“計算”——輸入標準化后變量的名稱,輸入 最小—最大標準化的公式,如下圖——點擊確定——新的標準化結果出現在spss面板的指標右方
2.“Z-score標準化”
原理:通過原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化,經過處理的數據符合標準正態分布,即均值為0,標準差為1,其標準化后的數值大小有正有負,如下圖中的標準正態分布曲線
適用范圍:問項數據的最大最小值不知道的情況下、有超出取值范圍的離群數據的情況、適用于不同量級數據的無量化處理
公式:新數據=(原數據-均值)/標準差
spss操作:點擊“分析”-“描述”—勾選z-score標準化處理,即可得結果
【補充說明】
數據標準化(歸一化)處理:
【專業解釋】不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,為了消除指標之間的量綱影響,需要進行數據標準化處理,以解決數據指標之間的可比性。原始數據經過數據標準化處理后,各指標處于同一數量級,適合進行綜合對比評價。歸一化化就是要把你需要處理的數據經過處理后(通過某種算法)限制在你需要的一定范圍內。首先歸一化是為了后面數據處理的方便,其次是保正程序運行時收斂加快。
【通俗的解釋】經過標準化處理,原始數據均轉換為無量綱化,數據無量綱化處理主要解決數據的可比性,即不同量級的數據通過標準化變為同一量級的數據,如用戶的搜索次數的量級為萬級的,而下載次數為百級,通俗地講,同一天內用戶對一首歌的搜索次數有幾萬次,而下載次數只有幾十次,將這兩個指標的數據標準化后,就變為同一個級別的數,比如均為【0,1】,就可以通過這兩個指標來討論和計算用戶對一首歌的喜歡程度,指標測評值,即各指標值都處于同一個數量級別上,可以進行綜合測評分析。