規格化就是將一個屬性取值范圍投射到一個特定范圍之內,以消除數值型屬 性因大小不一而造成挖掘結果的偏差。規劃化處理常常用于神經網絡、基于距離 計算的最近鄰分類和聚類挖掘的數據預處理。對于神經網絡,采用規格化后的數 據不僅有助于確保學習結果的正確性,而且也會幫助提高學習的速度。對于基于 距離計算的挖掘,規格化方法可以幫助消除因屬性取值范圍不同而影響挖掘結果 的公正性。介紹三種規格化方法
- <a href="http://www.lxweimin.com/p/f59c051551e1">最大最小規格化方法</a>
- <a href="http://www.lxweimin.com/p/92318a6c3a65">零均值規格化方法</a>
- <a href="http://www.lxweimin.com/p/890c36ff8f34">十基數變換規格化方法</a>
十基數變換規格化方法
- 該方法通過移動屬性 值的小數位置來達到規格化的目的。
<b>所移動的小數位數取決于屬性絕對值的最大值</b>。屬性的值可以通過以下計算公式獲得其映射值v':
十基數變換規格化算法.png
示例
假設屬性A的取值范圍是從 -986 到 917。屬性A絕對值的最大值
為986。采用十基數變換規格化方法,就是將屬性A的每個值除以 1000(即j = 3 ) 即可,因此-986 映射為 -0.986。代碼實現
待續......