大數(shù)據(jù)、預測類話題熱門了很久了,各種宏觀微觀的預測案例都是媒體喜聞樂道的話題。
這就涉及到“預測”這件事情的邊界問題。預測是否有邊界?有的事情類似牛頓力學是決定論、像太陽從東方升起一樣不用預測;有的事情被認為至今“不能預測”、比如對地震提前數(shù)月數(shù)天預測從古至今都難以做到;天氣可以大致預測、精確到城鎮(zhèn)和小時則很不容易。
那么,事件是可以有方法可以衡量“可預測的程度”的嗎?
為什么有不少事情,事后人們認為“顯而易見”“早有預示”、卻為什么“沒早點想到”呢?
“在終極的分析中,一切知識都是歷史;在抽象的意義下,一切科學都是數(shù)學;在理性的基礎(chǔ)上,所有的判斷都是統(tǒng)計學。”C.R.勞在《統(tǒng)計與真理——怎樣運用偶然性》中這樣說。
那么,像第一次登月、第一次核試爆、第一次發(fā)射衛(wèi)星,這類事情有何“歷史”可“統(tǒng)計”、來“預測”呢?
有沒有“不是歷史的知識”的知識呢?
像“薛定諤的貓”這類“海森堡測不準”的事情和“預測”又是什么關(guān)系呢?預測一定要有“度量”這個前提嗎?
既然抽象的意義下,一切科學都是數(shù)學;我們已經(jīng)知道,“哥德爾不完備定律”已經(jīng)證明一切形式邏輯要么不完備、要么內(nèi)部有悖論。那么“度量”、“預測”是不是也需要避開“量子糾結(jié)”的場景呢?
比如,預測房價漲,如果這個預測的資訊馬上被潛在購房人群吸收的話,那么漲幅和速度可能甚至超過預測;又比如,老師預測學生潛力不凡,對學生的影響就會真的讓學生愈加超出原本的能力水平;又比如,知名專家在機構(gòu)內(nèi)部對于股票的預測意外的傳播甚廣之后,對于實際股價的影響。比如,醫(yī)生對病情的預測、有的時候也會影響患者的心態(tài)和病情,古代有“醫(yī)不自醫(yī)”“關(guān)心則亂”、名醫(yī)自身和關(guān)切的人需要診斷的時候往往請另外的名醫(yī)幫助。
那么,“預測”的結(jié)果又會“自返放大”或者“自返縮小”、從而對被預測對象的原本發(fā)展趨勢造成了影響?
“理性的判斷都是基于統(tǒng)計學”,但我們的日常經(jīng)驗知道,蕓蕓眾生、繁華世界很多的決策和判斷都并不是基于統(tǒng)計,那么,我們的工作和生活中的常見“預測”有哪些方面是可考慮改進的呢?從統(tǒng)計學和數(shù)學來看,現(xiàn)代人的數(shù)學知識比古人平均是要多一些了,決策和預測有“先見之明”的人,要不數(shù)學和統(tǒng)計學知識豐富的人要稀有的多。這又涉及《思考,快與慢》中所說的人類決策習慣的“奧卡姆剃刀”了。
另外,即便是規(guī)約到統(tǒng)計學和數(shù)學,也還是存在一些問題。《系統(tǒng)化思維》的溫伯格說,最容易控制的、就是簡單又有序,比如機械系統(tǒng)、牛頓的世界,這是第一層;第二層,還有雖復雜、但有序,就是雖然量大,但是所涉及的元素,都是各個領(lǐng)域內(nèi)已經(jīng)比較有把握的東西;但是,模塊內(nèi)已經(jīng)比較靠譜的各個模塊、數(shù)量一多、聚在一起、組合到一起,卻未必靠譜。第三層,就是最不容易控制的,就是量很大、分解到各個元素,各個元素自身都很無需難以控制,很難建模、或者計算量大到NP的程度,這種情況就是只能看歷史結(jié)果的統(tǒng)計了。
要簡化給這三個性質(zhì)不同的情形各給一個代號名稱的話,我這里暫時稱呼第一層叫機械世界、第二層叫中數(shù)世界、第三層叫NP世界。我們?nèi)粘S龅降膱鼍埃谝粚右呀?jīng)基本都機器自動化了,第三層里有時稱“不可抗力”下的概率。
第二層中數(shù)世界是比較常見的情形,就是雖復雜、但有序,就是雖然量大,但是分解后、所涉及的元素,都是各個領(lǐng)域內(nèi)已經(jīng)比較有把握的東西。問題在于,模塊內(nèi)已經(jīng)比較靠譜的各個模塊、數(shù)量一多、聚在一起、組合到一起,卻未必靠譜。雖然不靠譜,也不必自暴自棄,不必直接就跳到概率的領(lǐng)域去完全聽從概率發(fā)落;這中間,還有個叫系統(tǒng)論的學問專治各種不服。
通過對系統(tǒng)建模,讓我們基于對機械世界的確定性的認識,可以幫助到對中數(shù)世界的預期。不斷的提升中數(shù)世界的能力,盡力把NP世界的一些地盤轉(zhuǎn)化為中數(shù)世界的地盤;于是獲得某些領(lǐng)域的領(lǐng)先地位。
小結(jié)一下零零星星了解的這些,就是,人們決策、或者為了決策支持的“預測”,有幾個前提:
一是,人要意識到“問題”。
在《精益數(shù)據(jù)分析》中,涉及到人認知有兩個層面、分出四個象限。
兩個層面,一個層面是“顯性的”自己有明確意識的領(lǐng)域,一個層面是“人的潛意識”就是人心里隱約感知、或者有這個能力,但沒有顯性的認識到可語言表達的層面,比如,有的高手的好習慣是下意識、他自己并不一定顯性的認識了這些習慣在成效中為何能發(fā)揮著作用。
對于四象限,
1我們知道自己知道的,可以用于預測的知識;這種需要數(shù)據(jù)的檢驗;
2知道自己不知道,可以去尋求幫助、或者調(diào)研,獲取一些知識,再檢驗這些知識;
3不知道自己知道,隱約懵懂,在決策中存在猶豫核模糊;也可以說是直覺,需要評估、訓練、整合,從“隱學”變?yōu)椤帮@學”。
4不知道自己不知道,就容易遺漏而不自知了;事情出現(xiàn)時才覺得吃驚、沒有準備、倉促應(yīng)對。這個領(lǐng)域需要的是探索。數(shù)據(jù)分析,既有描述型的數(shù)據(jù)分析,也有探索型的數(shù)據(jù)分析。
如果對于某個領(lǐng)域,我們的象限4很大,那么很可能根本就不知道去發(fā)起“預測”這件事、只覺得驚詫莫名、險象環(huán)生。
所以,很多人都知道用麥肯錫的MECE法來分析問題,但很多問題卻MECE執(zhí)行有局限。因為MECE是結(jié)構(gòu)化思維的范疇、假設(shè)能夠結(jié)構(gòu)化的分解“相互獨立、窮舉不遺漏”。各因素是不是“相互獨立”?是否“有遺漏”?這兩件事情都考察著使用MECE的人的“不知道自己不知道”的盲點。
在傅盛的認知升級論中,稱之為“認知的打怪升級過程”:
不知道自己不知道——以為自己什么都知道,自以為是的認知狀態(tài)。
知道自己不知道——有敬畏之心,開始空杯心態(tài),準備豐富自己的認知。
知道自己知道——抓住了事情的規(guī)律,提升了自己的認知。
不知道自己知道——永遠保持空杯心態(tài),認知的最高境界。
二是,“問題”要至少是可度量的,無論是定性還是定量。度量、預測的行為至少在一定時間和范圍內(nèi),需要避免“自返”。比如上文說的股價、房價、教師、醫(yī)生的例子。
三是,“問題”自身的復雜度。如果是上文的機械世界、不需要預測,要確保一貫的確定性的結(jié)果和表現(xiàn);如果是NP世界的問題,就多從概率層面去預期;盡力提高對于中數(shù)世界的建模水平和計算能力,就是預測的主要著力之處。
這就是為什么預測要求的精細度、顆粒度,會直接影響到預測的可行性和工作量。某個地區(qū)的氣候常常是可預期的,某一天是否會降雨就不那么確定了,未來48小時某個片區(qū)是否降雨預報比較有把握,但精確到點鐘和小鎮(zhèn)就很不容易了。“就好像知道一鍋水十分鐘會開是很好預測的,但要預測各個氣泡先后從哪里冒出則很困難。”
以上就是我自己“民科”小結(jié)的關(guān)于預測的一些架構(gòu)性的問題,之后關(guān)于什么樣的中數(shù)問題,如何解耦、系統(tǒng)化,解耦后的模塊的數(shù)量級,耦合的關(guān)系如何處理,如何選擇模型,分解到算法上的可執(zhí)行性如何,這其中的學問更是浩瀚深邃,且學且珍惜吧。