△作者曾建立過一個效果良好的棒球預測模型:PECOTA,本章可算是作者的領域,因此寫得相當詳細。在棒球預測史上,2003年出版的《點球成金》(布拉德皮特主演過同名電影)一書引發了大眾的關注,它也成了對棒球進行數據分析的代名詞,本章的寫作也有意依照《點球成金》一書的形式,突出了球探和數據怪才兩種預測系統的沖突,當然最后的觀點(毫無懸念地)依然是需要綜合人和機器兩者共同的努力。
△背景一:為什么棒球運動適合預測
1、棒球是1對1的運動,每人都有各自的統計數據,比賽中很少會有連鎖反應,這樣避免了非線性對預測結果的影響;
2、棒球比賽每年都能產生大量的數據,各種假設都能得到及時的檢驗與反饋,并能不斷修正與改進。
△背景二:棒球預測的商業價值
職棒大聯盟中,棒球球員打滿6個賽季之后才是自由球員,而那時他們已近30歲,絕大部分都已過了運動能力的巔峰時期(棒球運動有老化曲線這一概念,下文會提到)。也就是說,比起30歲之后的自由球員,年輕球員對球隊的貢獻更大,而且通常買入價也更便宜。
于是棒球行業最具價值的部分就是對年輕球員的甄選和培養——在他們進入大聯盟之前。所以棒球運動對于預測能力——球探或者數據怪才的工作——極為看重,也愿意為此付出大筆的金錢。在棒球領域,信息革命的顯性價值,就是一張數百萬美元的支票。
△背景三:老化曲線
老化曲線用來衡量一名運動員狀態隨年齡的變化。在棒球運動中,二十八九歲之前,大多數球員的技術水平都會持續提高,但之后通常會開始走下坡路,三十五六歲時尤為嚴重。
但真實的老化曲線因人而異,并不會這么平緩,通常如下
另外老化曲線不止限于體育運動,也適用于詩人、經濟學家、首席執行官等等。
△一個好的棒球預測系統
一個好的棒球預測系統需要考慮三個方面的影響:
1、影響球員表現的外在因素;
2、區別看待技術和運氣;
3、熟知老化曲線。
第1點相對較容易分析,主要是球場因素和聯盟因素:職棒大聯盟中每個球隊的主場地形都是不同的,有的適合進攻,有的適合防守,這些對所有球員的影響都是一樣的,因此較容易統計;同時職棒大聯盟下又有美聯和國聯(類似于NBA的東西區),球員身處不同的聯盟,會因為聯盟整體的實力差而對統計數據有不同的影響。
第2點涉及到對統計指標的篩選,比如對投手的評價用三振數比輸贏數更好,對打者用本壘打數比用平均擊球數更好。對統計指標的選擇是棒球預測模型的核心,《點球成金》出版后的時代,球探和數據怪才對數據的爭論焦點其實并不是該不該用數據,而是該用哪些數據,這一點在那些統計數據并不豐富的場合——比如小聯盟中——尤為關鍵。
第3點中,由于個體間的老化曲線都是不同的,因此無論是詹姆斯取1條作為標準,還是赫貝卡取26條作為一套系統,精確程度的提高都是有限的。作者的PECOTA系統中,借鑒了以上兩套系統中的特點,采用了相似分數法(取任意兩名球員為一組,初始1000分,比較時有一處不同則扣若干分。高相似組可得到950甚至975分),最后同一名球員能有不同的“高度相似組”(取決于得分的多少),實際上對老化曲線進行了擴展,在同一時刻,一名球員可能擁有多條的老化曲線(相當于他不同的成長軌跡),隨著時間的變化,比如第二年,同一名球員對應的老化曲線又會發生改變(取決于第二年他的“高度相似組”都變成了哪些人)。
插一句,從此處可以看到棒球預測相對政治預測復雜度提升了很多。因為政治預測時只需要關注黨派,再盯住候選人,結果就差不多了,而棒球預測需要面對的情況要復雜得多。實際上這也是本書寫作的體例,到第八章提出貝葉斯定理之前,每一章都是另一個越來越難以預測的領域。
△球探和數據怪才的結合
數據怪才有一個致命的缺點:若某項參數難以被量化(比如目前還沒有有效的測量手段),那么該參數就會被忽略——不管它是極重要的,還是極不重要的。
而且,作者也承認,球探和數據怪才的對立實際上是一個偽命題:加若數據怪才只認數據不認球員,球探們在考察球員的時候肯定是要接觸數據的。因此他對前“點球成金”時代中,球探表現不如數據怪才的解釋是,那時候的球探預測時帶有更多的個人偏見,比如他們執著于錯誤的參數,而數據怪才們挖掘出了正確的參數集。
若預測者沒有個人偏見,單純靠數據分析是無法打敗球探的。所以優秀的球隊都是依賴球探和數據怪才的共同協作。
△數據的不足
作者認為,對大聯盟球員而言,預測的重點是他能否保持足夠久的狀態,這時,就算你預測他明年幾乎和今年一樣通常差距也不大;而對小聯盟球員而言,預測的重點是他能否有足夠實力進入大聯盟,相當于預測鯉魚躍龍門的概率,需要的不但是數據,還要有大膽的猜測。
而在大聯盟之外,大學或高中球員,光憑數據進行的預測,效果會差很多。這一方面是由于數據本身不豐富,另一方面還是因為——球員的心理。
書中引用球探桑德斯的觀點,認為對棒球運動員而言,24歲才是心理成年的分界線,在此之前,衡量一名球員更重要的是心理而不是生理參數。
很顯然,心理參數需要球探的主觀去判斷,光憑數據是無法分析的。作者總結了桑德斯的五條心理指標(1、賽前準備和職業道德;2、全神貫注和集中精神;3、競爭力和自信心;4、壓力管理和自謙;5、靈活應變與學習能力),就我看來,這五條指標只是兩個方面:態度和自信心。
棒球運動金字塔的底座,是數十萬名業余球員,在此之上是數千名職業球員,在最頂端的,只有750人能在指定時間加入大聯盟,而其中能夠入選全明星隊的,只有幾十人。
在如此巨大的競爭壓力下,只有天才中的天才才能僅靠身體和技巧躋身大聯盟,剩下的天才們之間,水平只有毫厘之差,此時決定他們成就差距的,便是態度和信念,職業運動員必須在職業生涯早期就克服自我懷疑。
△總結
作者認為,在競爭積累的領域(比如棒球預測中,最好的系統間彼此差距不超過一兩個百分點)中,最出色的預測者必須不斷地創新。而當我們樂于待在宏觀與細節之間的“舒適地帶”時,很少能有新的想法,因為我們在使用固有的分類模型——卻不去尋求更多的模型。尋找新想法的一個有效方法是從極端的角度出發來重構世界。
吃預測飯的關鍵是要有一套自己的行之有效的方法,并保持不斷地改進,和認真的態度,這樣才能夠在有可能成功的時候——你的模型和你的態度敲開了正確的大門時——能抓住,還能夠有進一步提高的空間(僅有敲開大門的水平是不足以在頂尖領域立足的)。
△人與機器
這一章中,人與機器的對立其實并不明顯,因為球探本身就是主觀與數據的融合體。而棒球運動對于預測的巨大需求(和商業回報)也使人們更關注結果的正確,并不在意本人的主觀立場,相反對于好的想法從善如流。這種態度在接下來的幾章中(天氣預測、地震預測等)就很少見到了。
所以作者會在下文中提出,建立交易預測的市場能促進預測水平的提高,雖然這種想法在很多領域是難以實現的。
△思考
老化曲線部分是一個很好的例子,無論是用1套還是26套老化曲線,實際上是用有限的模板取套在無限的事物上,在大多數情況下這種簡化是可以被接受的,但這樣做無疑會錯過很多天才(或者錯過了某一未知類型的所有天才)。
更重要的是,本來只是權宜之計的有限模板,經過長期使用后,反而會固化在人們的心里,成為人自我突破的障礙。