有時(shí)候?qū)φ罩匆恍┕适拢瑫?huì)挺有趣。
這本書中講了一個(gè)Google預(yù)測(cè)流感的故事。傳統(tǒng)的疫情預(yù)報(bào),是由各地醫(yī)院、診所等機(jī)構(gòu)和醫(yī)務(wù)人員向美國(guó)疾病控制和預(yù)防中心上報(bào),再由中心分析統(tǒng)計(jì)后發(fā)布。這種做法的最大問(wèn)題在于,滯后性太大。
Google在2009年2月,在《自然》上發(fā)表了研究成果,他們研究了2007年到2008年,各地區(qū)搜索量和流行病傳播之間的關(guān)系。依據(jù)用戶搜索與流感相關(guān)的關(guān)鍵詞的趨勢(shì)變化,預(yù)測(cè)流感流行到什么地方了。工程師們挑選了幾十種重要和次要的關(guān)鍵詞作為特征,訓(xùn)練出了一個(gè)線性回歸模型。這個(gè)模型在預(yù)測(cè)2007年和2008年流感趨勢(shì)和地點(diǎn)的時(shí)候,準(zhǔn)確率高達(dá)97%。
故事背后所用的技術(shù),與作者吳軍老師還有點(diǎn)關(guān)系。因?yàn)檫@項(xiàng)技術(shù)的發(fā)明人帕特爾,是吳軍老師進(jìn)入Google的面試官,并且當(dāng)年面試時(shí)的一個(gè)問(wèn)題就與此有關(guān)。
這個(gè)故事聽(tīng)起來(lái)非常振奮人心,然而這個(gè)預(yù)測(cè)是否真的很準(zhǔn)呢?
另外一本書告訴我們別的故事。雖然2008年一次預(yù)測(cè)準(zhǔn)了,甚至比美國(guó)疾病控制與防治中心提早了兩周,但2009年全球爆發(fā)的H1N1,Google事先完全沒(méi)有預(yù)測(cè)到,此外從2012年到2013年預(yù)測(cè)的很多流感也沒(méi)有爆發(fā)。
有人分析其中的原因得出,搜索流感和真得流感,其實(shí)是兩碼事情,而不了解用戶搜索的動(dòng)機(jī),就很難預(yù)測(cè)準(zhǔn)確。