說到數據,要分析清楚幾個概念。
統計是一門應用學科,通過利用高等數學和概率論等數學背景來建立理論模型,將相關數據整理和填補,利用各種統計檢驗方法對其進行量化分析,以求達到總結和預測的最終作用。統計學和數據挖掘的關系并非是包容的,一般人認為數據挖掘是統計學的分支,其實二者是有一定的交集。對于現在大數據背景下,人們更多強調數據的海量,卻往往忽略統計基礎的實現。統計與數據挖掘的區別如下:
1、統計學是以數學為基礎理論體系的,而數據挖掘偏向于計算機領域;
2、統計學接觸的是樣本數據,即在樣本基礎上估計總體,而數據挖掘本身在總體范圍里面估計。
3、統計學更加注重運用數學上已經明確的模型來研究數據,而數據挖掘注重機器學習和計算機科學這樣的經驗,即不管模型是否有得解釋。
4、統計學的本質是利用預期模型得出結果,而數據挖掘的本質是發現非預期但是有價值的信息,確定性是不一致的。
需要具體了解二者關系的同學請戳:http://www.36dsj.com/archives/5114