如果“大統一理論”真的成立,那么數據科學到底還有什么特別之處呢?假設“大統一理論”指的是對世界上萬事萬物運行規律的普適解釋。這個問題引申出了一系列問題。
如果真有一個普適的理論,那么我們還需要研究數據科學這樣的具體學科嗎?
“大統一理論”有沒有存在的可能性?這個理論如果存在,那么它是否只存在于某一領域,比如說物理學?物理學是關于世界如何運轉的學科,它強調精確性,比如說可以精確預見100年才出現一次的那顆彗星何時重返。
如果這個理論不可能存在,就說明物理學和數據科學是有本質區別的,那這種區別是什么?
兩者的區別就只有準確度這一項嗎?或者更廣義地說,我們所能想到的東西,到底有多少能分別用這兩種理論來解釋?是不是因為我們在預測人類行為時,研究對象的行為會受到預測本身的影響,從而形成了一種反饋回路?
若將科學看作一個統一的整體,可能對解答上述疑問會有所幫助。在這個統一體中,精確的物理學處于最右端,而越往左走就越混亂——研究者要面對更多的不確定性和隨機性(也意味著更高的薪水)。那么諸如經濟學、營銷學和金融學這些學科又在科學體系中處于什么位置呢?
如果數據科學像物理學一樣,已經有一套業成熟的建模方式,那么要知道人們在何時會點擊什么樣的廣告,就變得和預測火星探測器何時著陸一樣容易。鑒于此,人們目前形成了普遍共識:無論是現在還是未來,我們都無法徹底了解這個世界。
數據科學值得稱作“科學”嗎?
不要低估了創意的力量——很多時候人們有了設想,卻未能找到實現手段。而作為數據科學家,你應該有能力把設想轉化為一個數學模型,這個模型在操作上會具備一些約束條件。你需要明確地知道問題所在,快速測度問題的方方面面,并且對它進行優化。而至關重要的一點是,在建模完成之后你要確保這個模型能夠解決最初提出的問題。
數據科學中也是講究藝術的,這主要體現在將人類實際問題和數學語言互為翻譯轉化的過程中。
經驗告訴我們,這種轉化問題的方式是沒有標準答案的——可選的模型總是不止一種,相應的模型評價指標也有很多,甚至連最優化的方法都有很多選擇。而數據科學之所以稱作科學——給定原始數據、限制條件和問題描述——其恰恰在于這樣的問題總是沒有絕對普適的答案,我們需要經歷一個迷宮一樣的過程才能找到一個可能的最優解。每一種方案的選擇都可以被視作一種假設,你需要具備利用精確的測試和實驗方法來檢驗(驗真或者證偽)這些假設的能力。
這樣一種假設和檢驗的循環往復的過程給“數據科學”深深地烙上了“科學”的印記。具體來說,其“科學”的一面主要體現在下面三點。
如果你找到了一個最優的模型,堅持使用它!
如果你有一個新主意,把它與你之前的最優模型進行比較。通常,你需要思考一下如何設計好一對比較實驗。
在能夠100%確定之前,不停地實驗(但也要盡量避免過擬合)。