在 2014 年的巴西世界杯上,衛冕冠軍西班牙連續兩場失利,小組賽即遭淘汰,不僅讓西班牙球迷傷心欲絕,讓彩民損失不小,還順便連累了眾多預測世界杯的高人欲哭無淚。下面選取國內外主要的世界杯預測機構,對他們的預測方法進行簡要的分析,看看誰的更準一些。
百度分析最傳統
據驗證, 2014 年全國高考作文題目 18 卷中 12 卷的作文方向被百度大數據預測命中,被戲稱“神預測”。因此,這次百度收集網上的綜合數據,然后進行整理、分析,最終通過大規模機器學習等人工智能技術,開始預測世界杯。
百度大數據通過分析過去5 年987 支球隊的 3.7 萬場比賽數據,共涉及 29610 名球員, 112,285,543條相關數據,構建了足球賽事預測模型。據說為了驗證模型是否準確,百度用 2010 年南非世界杯的淘汰賽數據進行了準確性驗證, 輸入2010年世界杯期間的比賽、球隊、球員等相關數據,由預測模型計算出淘汰賽比賽結果,與當時的比賽結果進行對比,準確率為 75%。
評:百度用的是傳統統計分析,注重近期球隊和球員表現,這種預測是至今為止在技術上最穩定的方法,但受意外因素(如天氣、傷病、裁判等)影響較大。
德銀推算最胡鬧
德銀根據各個球隊的 FIFA 排名、歷史戰績、球員構成和賭場賠率等因素,建立了量化分析模型,并根據復雜計算得到一份奪冠概率表格,從奪冠概率表格中挑選出了前 10 強,依據“輪流轉周期”,由此排除了 2014 年巴西、意大利和西班牙奪冠的可能性。
然后根據另一個假設:強隊會回來,即奪取過世界杯的強隊,未來必然還會奪取世界杯或至少打入一次決賽。最后,本屆英格蘭隊有6 名隊員來自利物浦,而正是在利物浦的球員最多的 1966年,英格蘭獲得了歷史上唯一一次世界杯冠軍。同時,德銀報告的主筆人承認自己是利物浦隊的鐵桿球迷,因此,最后確定英格蘭將獲得世界杯的冠軍。
評:還好,德銀報告主筆不是中國隊的球迷!
高盛模型最神秘
高盛對世界杯決賽周32 支國家隊的勝算,有它自己的一套評估方法 (命名為 Elo) , 在所有因素中分量最重。 Elo是高盛自設的動態系統,不斷根據球隊近績更新評分和排名。為此,分析師要收集多項數據,包括:世界各個國家足球隊歷史成績數據庫給出的各隊排名得分;比賽中雙方球隊過去10 場和 5 場比賽的進球數;比賽雙方是不是巴西主場;比賽球隊是不是美洲球隊;還有以往各隊在世界杯的進球數優于平時多少個。
最后,他們把這幾項數據按照一定的權重相加到一起, 可以得出每一個球隊在對陣另外某一個球隊時平均會進多少個球。按照這樣的方式,從小組賽一路到最后決賽,每一場比賽雙方的進球數都可以期望一番,最后獲得一個“最平均”的世界杯全程模擬結果。
評:投行一貫用神秘模型來忽悠投資者, Elo 模型就是高深黑洞,關鍵環節恕不奉告,至于準確與否,只有神知道。
嚴格地講,以上幾家世界杯預測都不能算“大數據分析”,只是傳統的統計分析,雖然數據“大”,但并未融合多種因素綜合考慮,可見在專業領域還是相信經典理論。
以下這些不靠譜的預測才是大數據
科隆體育最繁瑣
德國科隆體育學院根據復雜的計算機模擬測算得出的本屆世界杯預測結果:科隆體育學院的格羅爾教授領導研究小組以自己設計的計算機模擬算式一共進行了10萬次測算,綜合考慮各隊的世界排名、足彩賠率、市值、預選賽表現,還包括可能的傷病、戰術、氣候條件、主場優勢因素。他們預測,巴西隊與阿根廷隊將爭冠,衛冕冠軍西班牙有可能止步小組賽,從西荷大戰那個驚悚的5 比 1 賽果,看來德國人的模擬測算還是靠譜的。
評:德國人的嚴謹是出了名的,而且竟然沒有預測德國隊奪冠,對于西班牙卻一語中的,最后德國隊的奪冠讓這個預測顯得很不靠譜。
熊貓預測夭折了
世界杯開幕前,據媒體報道,中國保護大熊貓研究中心稱將派出一到兩歲的熊貓寶寶來預測世界杯。小組賽階段,主辦方會拿出三個竹筐代表主隊的勝平負,熊貓寶寶則通過選擇哪個筐里的食物來預測比賽結果。等到了淘汰賽,熊貓寶寶們還會通過爬樹和賽跑來預測結果。前者是讓熊貓爬上掛有一方球隊國旗的樹木來預測,后者則是兩個熊貓寶寶分別穿上兩隊球衣,通過誰先跑到目的地來預測比賽結果。
評:本來要頂替章魚保羅的國寶沒了用武之地,國人還是缺乏點娛樂精神,借此機會宣傳下大熊貓, 有何不可,萬一要是預測對了,那大熊貓基地豈不成了大師圣地,還愁旅游不火?
微軟相信Excel
微軟必應大數據之前曾多次成功預測奧斯卡獎項、投票大選。微軟的預測考慮過往比賽歷史、主場客場、地理位置、草坪狀況、天氣及“群眾智慧”等多種因素,還使用大量的公開數據——博彩市場、民意調查、社交媒體及其他在線數據,利用大數據分析來判斷每場比賽的結果。據說這一切都是用Excel 來完成的,我們權當其是軟件推廣策劃吧。
評:相信Excel是萬能的, 但預測足球估計是萬萬不能的,不過,人家說奧斯卡、大選都預測對了。
雅虎相信網絡流言
雅虎用輕博客網站Tumblr 的數據來估計每支國家隊的優勢,最終計算出最可能獲勝的是巴西隊。雅虎研究小組分析的前提是,Tumblr上所有有關世界杯的討論都具有一定價值。為了查明哪些國家將相互較量,小組會根據之前比賽的結果為每支隊伍賦予優勢值。針對每一次比賽,雅虎會利用名為泊松分布的不同參數的概率論來估計每一支隊伍可能的進球數量。
評:雅虎相信的是目前最火的社交網絡數據,據說可以預測傳染病和犯罪現場。
當然,雖然很多人相信大數據能夠幫助我們預測世界杯,也有不可預測派。美國的洛斯·阿拉莫斯國家實驗室的三位統計物理學家曾經對大型體育比賽的賽況進行數據化分析,發現在棒球、曲棍球、籃球、橄欖球及足球五大項目中,足球比賽是其中最具懸念,賽果最具不確定性的,弱旅戰勝強隊的概率居高不下,即使使用科學方法也未能得到準確的預測。
說實話,作為統計專業人士,對足球預測不敢太相信,體育比賽確實可以預測,足球也不例外,但足球項目影響因素太多,特別是世界杯足球比賽,相對場次不多、間隔周期太長,致使數據量很小,比賽中又有太多的主觀因素(比如裁判) ,有時候這種比賽的預測和算命沒什么差別。
小結:如果要問為何總有人預測正確?正如一家報紙所說,每屆世界杯都會有無數的“保羅”,大部分都在前幾次猜測失敗后從媒體視線中消失。貝利也不是真正的烏鴉嘴,只不過他預測成功的時候沒有后續報道。預測大師都是這樣煉成的!
文章來源:
內容簡介
本書不是一本介紹大數據概念的流行讀物,也不是開講編程工具高深理論的專業教材,而是立足于大數據之上的思維模式的普及。讀者不需要任何統計學知識,也沒必要掌握復雜的公式與算法,在通俗易懂的案例介紹和娓娓道來中就可以輕松理解大數據分析的基本模式與方法。