大數(shù)據(jù)時代的新科學(xué)范式:數(shù)據(jù)密集型科學(xué)
已有 4331 次閱讀?2016-9-21 11:58?|系統(tǒng)分類:教學(xué)心得
1、什么是科學(xué)范式?
“范式”(paradigm)這一概念最初由美國著名科學(xué)哲學(xué)家Thomas Samuel Kuhn于1962年在《科學(xué)革命的結(jié)構(gòu)》中提出來,指的是常規(guī)科學(xué)所賴以運(yùn)作的理論基礎(chǔ)和實(shí)踐規(guī)范,是從事某一科學(xué)的科學(xué)家群體所共同遵從的世界觀和行為方式。“范式”的基本理論和方法隨著科學(xué)的發(fā)展發(fā)生變化。
新范式的產(chǎn)生,一方面是由于科學(xué)研究范式本身的發(fā)展,另一方面則是由于外部環(huán)境的推動。人類進(jìn)入到21世紀(jì)以來,隨著是信息技術(shù)的飛速發(fā)展,促使新的問題不斷產(chǎn)生,使得原有的科學(xué)研究范式受到各個方面的挑戰(zhàn)。
圖靈獎得主,關(guān)系型數(shù)據(jù)庫的鼻祖Jim Gray在2007年加州山景城召開的NRC-CSTB(National Research Council-Computer Science and Telecommunications Board)大會上,發(fā)表了留給世人的最后一次演講“The Fourth Paradigm: Data-Intensive Scientific Discovery”,提出將科學(xué)研究的第四類范式。其中的“數(shù)據(jù)密集型”就是現(xiàn)在我們所稱之為的“大數(shù)據(jù)”。Jim是一位航海運(yùn)動愛好者,在會議結(jié)束后不久的2007年1月28日,他駕駛的帆船在茫茫大海中失去聯(lián)系。
JimGray (right) toasts Gordon Bell at Gordon's 70th birthday, August 2004
Jim總結(jié)出科學(xué)研究的范式共有四個:
幾千年前,是經(jīng)驗科學(xué),主要用來描述自然現(xiàn)象;
幾百年前,是理論科學(xué),使用模型或歸納法進(jìn)行科學(xué)研究;
幾十年前,是計算科學(xué),主要模擬復(fù)雜的現(xiàn)象;
今天,是數(shù)據(jù)探索,統(tǒng)一于理論、實(shí)驗和模擬。它的主要特征是:數(shù)據(jù)依靠信息設(shè)備收集或模擬產(chǎn)生,依靠軟件處理,用計算機(jī)進(jìn)行存儲,使用專用的數(shù)據(jù)管理和統(tǒng)計軟件進(jìn)行分析。
2、經(jīng)驗科學(xué)
人類最早的科學(xué)研究,主要以記錄和描述自然現(xiàn)象為特征,又稱為“實(shí)驗科學(xué)”(第一范式),從原始的鉆木取火,發(fā)展到后來以伽利略為代表的文藝復(fù)興時期的科學(xué)發(fā)展初級階段,開啟了現(xiàn)代科學(xué)之門。
經(jīng)驗科學(xué)是“理論科學(xué)”的對稱,指偏重于經(jīng)驗事實(shí)的描述和明確具體的實(shí)用性的科學(xué),一般較少抽象的理論概括性。在研究方法上,以歸納為主,帶有較多盲目性的觀測和實(shí)驗。一般科學(xué)的早期階段屬經(jīng)驗科學(xué),生物、化學(xué)尤其如此。
這種方法自從17世紀(jì)的科學(xué)家Francisc Bacon闡明之后,科學(xué)界一直沿用著。他指出科學(xué)必須是實(shí)驗的、歸納的,一切真理都必須以大量確鑿的事實(shí)材料為依據(jù),并提出一套實(shí)驗科學(xué)的“三表法”,即尋找因果聯(lián)系的科學(xué)歸納法。其方法是先觀察,進(jìn)而假設(shè),再根據(jù)假設(shè)進(jìn)行實(shí)驗。如果實(shí)驗的結(jié)果與假設(shè)不符合,則修正假設(shè)再實(shí)驗。
經(jīng)驗科學(xué)的主要研究模型是:科學(xué)實(shí)驗。
典型范例包括:伽利略的物理學(xué)、動力學(xué)。伽利略是第一個把實(shí)驗引進(jìn)力學(xué)的科學(xué)家,他利用實(shí)驗和數(shù)學(xué)相結(jié)合的方法確定了一些重要的力學(xué)定律。在1598~1591年間,伽利略通過對落體運(yùn)動做細(xì)致的觀察之后,在比薩斜塔上做了“兩個鐵球同時落地”的著名實(shí)驗,從此推翻了亞里士多德“物體下落速度和重量成比例”的學(xué)說,糾正了這個持續(xù)了1900年之久的錯誤結(jié)論。牛頓的經(jīng)典力學(xué)、哈維的血液循環(huán)學(xué)說以及后來的熱力學(xué)、電學(xué)、化學(xué)、生物學(xué)、地質(zhì)學(xué)等都是實(shí)驗科學(xué)的典范。
3、理論科學(xué)
經(jīng)驗科學(xué)的研究,顯然受到當(dāng)時實(shí)驗條件的限制,難于完成對自然現(xiàn)象更精確的理解。科學(xué)家們開始嘗試盡量簡化實(shí)驗?zāi)P停サ粢恍?fù)雜的干擾,只留下關(guān)鍵因素(例如:“足夠光滑”、“足夠長的時間”、“空氣足夠稀薄”),然后通過演算進(jìn)行歸納總結(jié),這就是第二范式:理論科學(xué)。
理論指人類對自然、社會現(xiàn)象按照已有的實(shí)證知識、經(jīng)驗、事實(shí)、法則、認(rèn)知以及經(jīng)過驗證的假說,經(jīng)由一般化與演繹推理等方法,進(jìn)行合乎邏輯的推論性總結(jié)。人類借由觀察實(shí)際存在的現(xiàn)象或邏輯推論,而得到某種學(xué)說,如果未經(jīng)社會實(shí)踐或科學(xué)試驗證明,只能屬于假說。如果假說能借由大量可重現(xiàn)的觀察與實(shí)驗而驗證,并為眾多科學(xué)家認(rèn)定,這項假說可被稱為理論。理論科學(xué)偏重理論總結(jié)和理性概括,強(qiáng)調(diào)較高普遍的理論認(rèn)識而非直接實(shí)用意義的科學(xué)。在研究方法上,以演繹法為主,不局限于描述經(jīng)驗事實(shí)。
這種研究范式一直持續(xù)到19世紀(jì)末,都堪稱完美,牛頓三大定律成功解釋了經(jīng)典力學(xué),麥克斯韋理論成功解釋了電磁學(xué),經(jīng)典物理學(xué)大廈美輪美奐。但之后量子力學(xué)和相對論的出現(xiàn),則以理論研究為主,以超凡的頭腦思考和復(fù)雜的計算超越了實(shí)驗設(shè)計,而隨著驗證理論的難度和經(jīng)濟(jì)投入越來越高,科學(xué)研究開始顯得力不從心。
理論科學(xué)的主要研究模型是:數(shù)學(xué)模型。
典型范例包括:數(shù)學(xué)中的集合論、圖論、數(shù)論和概率論;物理學(xué)中的相對論、弦理論、圈量子引力理論;地理學(xué)中的大陸漂移學(xué)說、板塊構(gòu)造學(xué)說;氣象學(xué)中的全球暖化理論;經(jīng)濟(jì)學(xué)中的微觀經(jīng)濟(jì)學(xué)、宏觀經(jīng)濟(jì)學(xué)以及博弈論;計算機(jī)科學(xué)中的算法信息論、計算機(jī)理論。
4、計算科學(xué)
20世紀(jì)中葉,John von Neumann提出了現(xiàn)代電子計算機(jī)架構(gòu),利用電子計算機(jī)對科學(xué)實(shí)驗進(jìn)行模擬仿真的模式得到迅速普及,人們可以對復(fù)雜現(xiàn)象通過模擬仿真,推演出越來越多復(fù)雜的現(xiàn)象,典型案例如模擬核試驗、天氣預(yù)報等。隨著計算機(jī)仿真越來越多地取代實(shí)驗,逐漸成為科研的常規(guī)方法,即第三范式:計算科學(xué)。
郵票中的John von Neumann
計算科學(xué),又稱科學(xué)計算,是一個與數(shù)據(jù)模型構(gòu)建、定量分析方法以及利用計算機(jī)來分析和解決科學(xué)問題相關(guān)的研究領(lǐng)域。在實(shí)際應(yīng)用中,計算科學(xué)主要用于對各個科學(xué)學(xué)科中的問題進(jìn)行計算機(jī)模擬和其他形式的計算。典型的問題域包括:數(shù)值模擬,重建和理解已知事件(如地震、海嘯和其他自然災(zāi)害),或預(yù)測未來或未被觀測到的情況(如天氣、亞原子粒子的行為);模型擬合與數(shù)據(jù)分析,調(diào)整模型或利用觀察來解方程(如石油勘探地球物理學(xué)、計算語言學(xué),基于圖的網(wǎng)絡(luò)模型,復(fù)雜網(wǎng)絡(luò)等);計算和數(shù)學(xué)優(yōu)化,最優(yōu)化已知方案(如工藝和制造過程、運(yùn)籌學(xué)等)。
計算科學(xué)的主要研究模型是:計算機(jī)仿真和模擬。
典型范例包括:熱力學(xué)和分子問題、信號系統(tǒng),以及傳統(tǒng)的人工智能等。
5、數(shù)據(jù)密集型科學(xué)
隨著數(shù)據(jù)的爆炸性增長,計算機(jī)將不僅僅能做模擬仿真,還能進(jìn)行分析總結(jié),得到理論。數(shù)據(jù)密集范式理應(yīng)從第三范式中分離出來,成為一個獨(dú)特的科學(xué)研究范式。也就是說,過去由牛頓、愛因斯坦等科學(xué)家從事的工作,未來完全可以由計算機(jī)來做。這種科學(xué)研究的方式,被稱為第四范式:數(shù)據(jù)密集型科學(xué)。數(shù)據(jù)密集型科學(xué)由傳統(tǒng)的假設(shè)驅(qū)動向基于科學(xué)數(shù)據(jù)進(jìn)行探索的科學(xué)方法的轉(zhuǎn)變。
The fourth paradigm
我們可以看到,第四范式與第三范式,都是利用計算機(jī)來進(jìn)行計算,區(qū)別是什么呢?現(xiàn)在大多科研人員,應(yīng)該都比較理解第三范式,在研究中總是被專家評委不斷追問“科學(xué)問題是什么?”、“有什么科學(xué)假設(shè)?”,這就是先提出可能的理論,再搜集數(shù)據(jù),然后通過計算來驗證。而基于大數(shù)據(jù)的第四范式,則是先有了大量的已知數(shù)據(jù),然后通過計算得出之前未知的理論。
我們已經(jīng)知道,大數(shù)據(jù)時代最大的轉(zhuǎn)變,就是放棄對因果關(guān)系的渴求,取而代之關(guān)注相關(guān)關(guān)系。也就是說,只要知道“是什么”,而不需要知道“為什么”。
關(guān)聯(lián)關(guān)系是大數(shù)據(jù)的本質(zhì)特征之一。
這就顛覆了千百年來人類的思維慣例,據(jù)稱是對人類的認(rèn)知和與世界交流的方式提出了全新的挑戰(zhàn)。因為人類總是會思考事物之間的因果聯(lián)系,而對基于數(shù)據(jù)的相關(guān)性并不是那么敏感;相反,電腦則幾乎無法自己理解因果,而對相關(guān)性分析極為擅長。這樣我們就能理解了,第三范式是“人腦 + 電腦”,人腦是主角;而第四范式是“電腦 + 人腦”,電腦是主角。進(jìn)而由此引發(fā)的新一代人工智能技術(shù)。
我們知道要發(fā)現(xiàn)事物之間的因果聯(lián)系,在大多數(shù)情況下總是困難重重的。我們?nèi)祟愅茖?dǎo)的因果聯(lián)系,總是基于過去的認(rèn)識,獲得“確定性”的機(jī)理分解,然后建立新的模型來進(jìn)行推導(dǎo)。但是,這種過去的經(jīng)驗和常識,也許是不完備的,甚至可能有意無意中忽略了重要的變量。
舉個例子。現(xiàn)在我們?nèi)巳硕荚陉P(guān)注霧霾天氣。我們想知道:霧霾天氣是如何發(fā)生的,如何預(yù)防?首先需要在一些“代表性”位點(diǎn)建立氣象站,來收集一些與霧霾形成有關(guān)的氣象參數(shù)。根據(jù)已有的機(jī)理認(rèn)識,霧霾天氣的形成不僅與源頭和大氣化學(xué)成分有關(guān),還與地形、風(fēng)向、溫度、濕度氣象因素有關(guān)。僅僅這些有限的參數(shù),就已經(jīng)超過了常規(guī)監(jiān)測的能力,只能進(jìn)行簡化人為去除一些看起來不怎么重要的,只保留一些簡單的參數(shù)。那些看起來不重要的參數(shù)會不會在某些特定條件下,起到至關(guān)重要的作用?如果再考慮不同參數(shù)的空間異質(zhì)性,這些氣象站的空間分布合理嗎,足夠嗎?從這一點(diǎn)來看,如果能夠獲取更全面的數(shù)據(jù),也許才能真正做出更科學(xué)的預(yù)測,這就是第四范式的出發(fā)點(diǎn),也許是最迅速和實(shí)用的解決問題的途徑。
現(xiàn)在,我們的手機(jī)就可以監(jiān)測溫度、濕度,可以定位空間位置,監(jiān)測大氣環(huán)境化學(xué)和PM2.5功能的傳感設(shè)備也在逐漸走向市場,這些移動的監(jiān)測終端更增加了測定的空間覆蓋度,同時產(chǎn)生了海量的數(shù)據(jù),利用這些數(shù)據(jù),分析得出霧霾的成因,最終進(jìn)行預(yù)測指日可待。
計算科學(xué)的主要研究模型是:數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí),特別是機(jī)器學(xué)習(xí)。
典型范例包括幾乎所有的大數(shù)據(jù)實(shí)踐場景,以及基于大數(shù)據(jù)的人工智能。特別是當(dāng)前火熱的新一代人工智能研究。我們在過去認(rèn)為非常難以解決的智能問題,會因為大數(shù)據(jù)的使用而迎刃而解,比如圍棋。同時,大數(shù)據(jù)還會徹底改變未來的商業(yè)模式,很多傳統(tǒng)的行業(yè)都將采用數(shù)據(jù)驅(qū)動的智能技術(shù)實(shí)現(xiàn)升級換代,同時改變原有的商業(yè)模式。大數(shù)據(jù)和機(jī)器智能對于未來社會的影響是全方位的,對整個社會帶來巨大的沖擊,尤其是在智能革命的初期。
6、總結(jié)
從大數(shù)據(jù)中探索“不知道自己不知道”的現(xiàn)象和規(guī)律,成為科學(xué)研究中必不可少的部分。科學(xué)從經(jīng)驗科學(xué)到理論科學(xué)再到計算機(jī)科學(xué),現(xiàn)在發(fā)展到數(shù)據(jù)密集型科學(xué),科學(xué)范式也相應(yīng)地從經(jīng)驗范式發(fā)展到理論范式再到計算機(jī)模擬范式到第四范式。每一個范式都有各自相應(yīng)的特征和范例,清楚認(rèn)識各個范式的特點(diǎn)和所包含的范例,對于科學(xué)研究第四范式的發(fā)展有著重要的意義,對數(shù)據(jù)科學(xué)和數(shù)據(jù)工程也有著重要的推動意義,同時大數(shù)據(jù)發(fā)展也將引爆智能革命,深刻地影響著我們今天的每一個人。
注:本文參考了如下資料
Tony Hey, et al., The Fourth Paradigm: Data-Intensive Scientific Discovery, 2009.
鄧仲華,?李志芳,?科學(xué)研究范式的演化,?情報資料工作, 2013.
趙斌,?第四范式:基于大數(shù)據(jù)的科學(xué)研究,?科學(xué)網(wǎng), 2015.
http://blog.sciencenet.cn/blog-242272-1004180.html?