數據科學,機器學習,數據挖掘的探討

下面這個圖片概括的說明了數據科學所關聯的元素。

date_science_cn.png

概述

數據科學的基礎是數學和統計學,在研究和探索的過程當中我們需要有強大的計算機來為我們提供對數據處理的計算能力。研究之初我們需要使用科學的方法,應用數據工程學進行研究,研究過程當中可能會用到某個專業領域(醫療,空間探索等等)的專業知識相結合對數據進行分析研究,同是我們得有點黑客精神隨時客服困難,最后將研究數據結果進行可視化展現出來。

我以為機器學習是重疊在數據科學當中的,因為機器學習依賴數學,統計學,科學的研究方法這三個項目。數據挖掘則是應用了整個數據科學的關聯元素。

關于數學和統計學

雖然現在還沒有深入了解數據科學,但是聽說如果想了解機器學習的內容話,我們需要去學習很多數學和統計學的內容,比如多元微積分,統計與推理,線性代數,這些都是機器學習的先決條件。我本科數學的那些知識再加上未來一年的慢慢積累應該是可以補上這個坑的,實際上我都記不清自己是否上過統計學的課了,但是我仍然在某個書架上找到了統計學的書,十分枯燥。

計算能力

就貧民老百姓而言,計算能力幾乎就限于手頭的這臺電腦了,但是如果有多臺電腦倒是可以使用hadoop搭建一個分布式系統來進行運算能力的提升。或者有錢的話買幾臺云服務器也不錯。

可視化

可視化實際上是數據科學當中比較重要的一個環節,這涉及到了洞察數據的問題,數據應該以更容易被人理解的形式展現出來,畢竟得到的數據結果如果沒有辦法進行展示和表述就沒什么用了。

關于機器學習和數據挖掘

機器學習關注預測,我們讓程序讀取大量的數據進行訓練,讓程序學習已知的一些特性/知識,讓程序可以預測未來可能發生的事情。
數據挖掘則關注發現,一般都是從一大堆數據當中發現我們未知的事物。

關于數據科學相關的人員

大部分時候,數據科學家或者數據程序員,都是在應用一些已知的數學或者統計學方法配合上計算機技術對數據進行處理和分析或者讓程序獲得學習能力。并不是任何時候都需要關注某個算法的實現原理,只要知道因果就可以應用了。當然如果知道這些算法的深層次原理更好,這都是自己個人的寶貴財富。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容