最近Google收購的DeepMind的AlphaGo向韓國李世石九段發(fā)起了挑戰(zhàn),看了各方比賽的視頻,談點(diǎn)感受。
1.AlphaGo與李世石比賽是否公平?
資源上:AlphaGo輸入了歷史上相當(dāng)多的高手對(duì)決的棋譜,并且自己下棋對(duì)弈進(jìn)行強(qiáng)化學(xué)習(xí),資源上AlphaGo占據(jù)了絕對(duì)優(yōu)勢(shì)。
學(xué)習(xí)成本上:AlphaGo學(xué)習(xí)的進(jìn)度相對(duì)于人類的學(xué)習(xí)進(jìn)度,是指數(shù)級(jí)的差別。可能機(jī)器兩個(gè)月下的棋局就會(huì)相當(dāng)于一個(gè)高手一輩子的總棋局?jǐn)?shù)。當(dāng)相對(duì)來說可以忽略時(shí)間的時(shí)候,成長(zhǎng)的進(jìn)度AlphaGo完虐李世石。機(jī)器一旦開始進(jìn)化,人類趕上的機(jī)會(huì)就微乎其微了。
溝通代價(jià)上:AlphaGo內(nèi)部有Policy Network和Value Network,有全局觀和當(dāng)前下哪步棋的更優(yōu)搜索解。如果打破資源上的不公平,讓很多人類頂尖高手對(duì)局AlphaGo,溝通的成本有多大?在讀秒階段能應(yīng)承得來么?而AlphaGo只需要加CPU,內(nèi)存,優(yōu)化進(jìn)程就可以了。
2.AlphaGo的局限在哪里?
AlphaGo基于大量數(shù)據(jù)的決策,是完全不懂下棋而又能下贏人類的,學(xué)習(xí)方式是前所未有的,人類也很難學(xué)會(huì)的,但有個(gè)致命的弱點(diǎn),AlphaGo只能學(xué)會(huì)已有的技能,這次是圍棋,下次是星際爭(zhēng)霸……并沒有Original Learning的能力,這個(gè)技能學(xué)習(xí)模式注定了它只能在人類已知的認(rèn)知范圍內(nèi)爭(zhēng)霸,并不會(huì)突破人類認(rèn)知的盲區(qū),沒有人類的情感,發(fā)明創(chuàng)造能力。