數(shù)據(jù)有意思

剛開始做數(shù)學(xué)模型的時(shí)候,我對(duì)數(shù)據(jù)這東西的迷戀程度不亞于那些求神問卦的。一張EXCEL表格上,少則幾萬,多則百萬的數(shù)據(jù),全是由那些最基本的數(shù)字1—0構(gòu)成,密密麻麻的堆在那里。那么一篩選,一擬合,就得出了對(duì)于未來的推測(cè)。

這不是算命,又是什么?

有了計(jì)算機(jī)后,更是讓數(shù)據(jù)大顯身手。機(jī)器的好處就是你給它發(fā)個(gè)指令,哪怕是死循環(huán)的句柄,它也會(huì)孜孜不倦地算下去,直到得出結(jié)果,或者內(nèi)存耗盡而死機(jī)。這是從前算圓周率那幫數(shù)學(xué)家所不能想象的。

第一次做的模型,是關(guān)于農(nóng)業(yè)保險(xiǎn)的。聽上去很高大上,其實(shí)不過是根據(jù)過去50年的氣象數(shù)據(jù)推演未來一段時(shí)間的天氣異常情況,再根據(jù)期望值反推賠率。那個(gè)數(shù)字的設(shè)定很微妙,既要讓這保險(xiǎn)公司不要特別賠錢,又能起到旱澇保收的效果。

建好模型,把算法輸入進(jìn)去,就是電腦的事兒了。這期間我總會(huì)坐那里發(fā)呆,想起我從前鄙視的天文學(xué)家第谷。從前我老覺得他一輩子算是廢了,看星星記數(shù)據(jù),這么機(jī)械的工作硬是搞了四十多年,也沒個(gè)成果。最后那什么三大定律還是開普勒根據(jù)他的數(shù)據(jù)推出來的。

現(xiàn)在,我只想說,沒第谷,就沒有那后來的宇宙飛船上天。數(shù)據(jù)是個(gè)內(nèi)斂的小姑娘,只有真正懂她的人才會(huì)知道它的溫柔。

和數(shù)據(jù)打交道多少有點(diǎn)像做飯。炒菜之前要先摘掉那些沒用的爛葉子,對(duì)付數(shù)據(jù)第一步當(dāng)然也是篩選掉那些太離譜的。如果是個(gè)新手,他會(huì)覺得這事是最輕松的,直到他和數(shù)據(jù)打了多年交道,他才會(huì)發(fā)現(xiàn),這一步很難。——你怎么知道,它的特別是因?yàn)槭д`,抑或反常必有妖?

然后就是選個(gè)趁手的家伙。如果是做模型,該想想用什么常規(guī)的算法,如果是單純的風(fēng)險(xiǎn)分析,就是看碟子下菜了。數(shù)據(jù)長(zhǎng)什么樣,總有幾種傳統(tǒng)的分析方式去應(yīng)對(duì)它。或橫縱對(duì)比,或者求極差中間數(shù)等等。

最后就是表達(dá),做出圖表來給人家看,然后借著這圖表來發(fā)表一番言論。當(dāng)然,大多數(shù)時(shí)候是先表明態(tài)度,再做數(shù)據(jù)分析。我們只會(huì)看我們想看的景物,數(shù)據(jù)也是。結(jié)論在先,數(shù)據(jù)的出場(chǎng)不過是助威抑或助紂為虐——你放心好了,你的兩只眼一定會(huì)死命盯著那些合適的數(shù)據(jù),丟掉那些成為悖論的。這是人的通病。

有段時(shí)間我討厭數(shù)據(jù),就是因?yàn)橥ǔG闆r下,人們是先做結(jié)論,再做分析,最后篩選數(shù)據(jù)。這樣的過程,無異于強(qiáng)詞奪理。

如果數(shù)據(jù)說謊,那一定是個(gè)彌天的可怕謊言。因?yàn)樗灾忚彽亟o你羅列枯燥的數(shù)據(jù),如同一位偵探在用他的理性思維分析推理,你津津有味地聽著,不停地點(diǎn)著頭。殊不知他其實(shí)是在詭辯。人們有種錯(cuò)覺,他們覺得文藝的東西是夢(mèng)幻的,所以處處可疑。數(shù)學(xué)科學(xué)這些東西卻一定是真實(shí)的,因?yàn)樗鼈冇邪迳厢斸數(shù)淖C據(jù)。

數(shù)據(jù)和歷史一樣,不過是任人打扮的小姑娘。改改坐標(biāo)軸,換換對(duì)比,刪繁就簡(jiǎn),正說反說都非常有理。

說到這里,諸位可以明了朋友圈里那些偽科學(xué)的由來了。什么不吃肉活千年啊,什么只吃肉不得癌癥啊,無非是掐著數(shù)據(jù)的脖子,讓它吐出了一面之詞而已。不信你可以去看看,有幾個(gè)這種所謂的營(yíng)養(yǎng)學(xué)大師敢去把自己的原始數(shù)據(jù)露給公眾看的?他們只會(huì)偽造結(jié)果,扭曲圖表罷了。

數(shù)據(jù)在我的眼里就像天上的星辰。那些星星在幾百萬年前就死掉了,我們所看到的光不過是它們?cè)?jīng)的傳說。星象學(xué)家們卻固執(zhí)地抓著那些軌跡不放,妄想去推斷一個(gè)可能的未來。推斷不是不可以,好好研究下去,宇宙洪荒的前世今生都能夠?yàn)槲覀冋宫F(xiàn),只是他們的方向錯(cuò)了。

過于信賴某種東西,終究會(huì)歸于迷信。數(shù)據(jù)可以某種意義上的預(yù)測(cè)未來,卻不能保證所有。你沒看到保險(xiǎn)公司的條款嗎?戰(zhàn)爭(zhēng)不賠,地震不賠。對(duì)于這種突發(fā)的事故,數(shù)據(jù)也只好束手無策。

數(shù)據(jù)是美的,在那些做模型的深夜。每當(dāng)我覺得熬不下去,就會(huì)點(diǎn)開matlab,做一個(gè)多維度的圖像出來。看著笛卡爾的愛情心臟線,想象他怎么借助這一張函數(shù)圖贏得了公主的愛慕。一切處于中間地帶的東西都有種微妙的美感,比如那些高階函數(shù)圖像,文理相通,天作之合。

那會(huì)兒的我夢(mèng)想是嫁給一個(gè)物理學(xué)家,還得是研究量子力學(xué)的那種。想想兩個(gè)人面對(duì)同一片星空,思維卻在兩個(gè)維度上,該多么有意思啊。

我現(xiàn)在手頭也沒什么物理學(xué)家,只有一堆分析不完的數(shù)據(jù)。雖然略微遺憾,但它也會(huì)給我驚喜。比如今天吧,都上了地鐵了,我還在想,那個(gè)該死的英屬維爾京群島——你聽聽這名字,就知道這是個(gè)很小很小的國(guó)家,怎么會(huì)在半年之內(nèi)進(jìn)口突飛猛進(jìn)。思前想后,我推斷那是個(gè)錯(cuò)誤數(shù)據(jù),雖然不大可能。

回到家總覺得不對(duì)。最后索性去知網(wǎng)上搜這個(gè)地方。和我想的不大一樣,那里最近沒出煤礦,也沒油田,它只是個(gè)優(yōu)秀的避稅天堂。優(yōu)秀到成為國(guó)際黑幫洗錢的藏污納垢之地。那論文還說,許多國(guó)內(nèi)著名的公司為了合理避稅,都在這里注冊(cè),這么一來,許多應(yīng)該繳稅的東西,突然在來料加工上占了大大的便宜。

數(shù)據(jù)是永遠(yuǎn)沒有謎面的謎語,是漢武帝的李夫人。當(dāng)返魂香燃起,你只會(huì)在簾子后看到她影影綽綽的一個(gè)倩影。于是你站在那里,遲疑了。那是真實(shí)的存在,還是一個(gè)夢(mèng)呢?

所謂生活中的真相莫過如此。真真假假,也只是憑一個(gè)信字而已啊。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容