今天看到了一篇文章,介紹了一位神人,發明了驗證碼,并做了改進,還發明了高效學習外語的平臺。我們一起來看看他的杰作吧。
路易斯·馮·安(英語:Luis von Ahn,1979年-),又譯為路易斯·范·安、路易斯·梵阿納,生于危地馬拉,企業家與計算機科學家,是卡內基梅隆大學計算機科學系的副教授。他是CAPTCHA(http://www.captcha.net/) 的發明者之一,他也創立了reCAPTCHA公司,并于2009年將這家公司出售給Google。
驗證碼
看到CAPTCHA這個單詞你熟悉么?嘿嘿,估計我們在編程的時候見過。其實它不是一個單詞,它是一個縮略詞,它是取 Completely Automated Public Turing Test To Tell Computers and Humans Apart 這幾個單詞的首寫字母組成的(其實我也是剛剛搜出來的)。它翻譯出來其實還挺拗口的,叫做全自動區分計算機和人類的圖靈測試。
CAPTCHA其實在我們的網絡生活中是隨處可見,幾乎每天都會碰到它。基本上我們所有的網站登錄界面都會用到它。沒錯!它就是『驗證碼』。所以,驗證碼還有這個洋氣的名字,叫做『全自動區分計算機和人類的圖靈測試』。說到這個驗證碼,我們不得不來了解一下這個驗證碼背后的男人——Luis von Ahn。
驗證碼背后的男人
Luis von Ahn是一位卡內基梅隆大學的副教授,他其實最開始是研究加密的,后來開始研究如何區分在網絡中人和計算機。
你可以想象一下在Luis von Ahn之前沒有驗證碼的日子嗎?買票的網站因為沒有驗證碼幾萬張票被黃牛通過刷票程序全部買走?網站被人一次性注冊幾百萬個垃圾帳號,然后產生各種垃圾信息,還可以操縱投票,使網站失去了公正性。
這還只是舉了簡單的幾個例子。沒有驗證碼的日子網絡世界一片狼藉。Luis von Ahn覺得自己應該可以做點什么,要知道他是研究如何區分在網絡中人和計算機的。上面兩個例子就是因為有人使用計算機非法的對網站進行操作。
于是Luis von Ahn就想如果我能把人和計算機分開就好了,剛好他的研究里面就有一個方法可以區分計算機和人,那就是人可以用肉眼很容易的識別出圖片里面的東西,但是計算機不能。Luis von Ahn就利用這個特性發明了CAPTCHA,也就是『全自動區分計算機和人類的圖靈測試』,也就是『驗證碼』。
那么驗證碼是怎么讓杜絕那些計算機對網站進行非法操作呢?很簡單,首先計算機是可以像人一樣去模擬登錄的,但是當它碰到驗證碼的時候,計算機就傻眼了,它不認得這個驗證碼里面是什么東西,但是人的話就一眼認出來,然后輸入驗證碼,就通過啦。就這么簡單。人和計算機就被區分開來了。這個小小的發明為世界上的所有網站攔截了大部分的惡意注冊和垃圾信息。
游戲還可以這樣玩
其實在這之前 Luis von Ahn還有一個研究領域就是如果利用人在上網過程的中作用,說簡單點就是如何讓人在上網的同時不知不覺的還完成了一些不可思議的事情。于是他基于這個研究開發了一個圖片游戲,這個游戲的玩法就是給任意隨機的玩家A和B發送同一張圖片,然后要A和B在有限的時間內對這個圖片進行描述,當這個兩個人的描述接近的時候就算這兩個人匹配成功,然后獲勝得分。
你能想到人在玩這個游戲的時候不知不覺的完成那些任務了么?就像上面說的那樣,計算機是很難識別圖片,但是人就可以很簡單的識別圖片,并對圖片進行描述,于是乎,人們在玩這個游戲的時候不知不覺的就對這些圖片進行了相當精確(因為是兩個人同時在想,而且限時,而且必須描述相近)的標記。哈哈哈,想法是不是相當高明。認為這個想法高明的不止有你,還有當時的搜索巨頭Google(谷歌)。Google當時就收購了這個游戲,并把這個想法應用到了Google的圖片搜索。
驗證碼的升級版
Luis von Ahn在發明驗證碼之后,有一段時間變得很郁悶。為啥呢?因為他得到了一些數據——全世界的網民每天數據驗證碼將近2億次,而每次驗證碼的輸入時間將近10秒,這樣算下來,每天網民要在驗證碼上面話費50萬個小時。Luis von Ahn看著這些數字陷入了沉思,因為自己的發明,網民每天要多花這么多時間,有沒有什么辦法利用這些時間呢?
『有了!』Luis von Ahn突然在辦公室跳起來,他想起之前被Google收購的那個游戲了,他知道該怎么做了。于是Luis von Ahn在CAPTCHA的基礎上進一步改進,并把新的驗證碼叫做『reCAPTCHA』。『re』就是重新的意思嘛。
那么這次他是怎么改的呢?在我看來,Luis von Ahn的這次改進簡直就是天才的想法。他的想法就是既然人們在輸入驗證碼的時候有10秒鐘的時間,那何不利用這10秒來講那些古老的書籍或者圖片的門牌號給識別出來。
這里需要說一下為什么要進行書籍的電子化。信息時代的一個特點就是要把我們生活的世界進行信息化,盡可能地把一切都可以索引。那么我們把書籍電子化就可以讓人們更方便的去查找某一本書的某一句話,而不需要你翻爛一本書都找不到出處。
但是古老的書籍實在信息時代之前出現的,因此需要人為的進行電子化。但是電腦在掃描這些古老的書籍的時候總是錯誤率很高,根本不能用,這也是圖書領域的一個大難題。不過,有了Luis von Ahn的天才想法,這些都不是問題。讓我們來看看他是怎么解決這個問題的:
驗證碼升級版的驗證過程
1、將古老書籍進行掃描(比如我們掃描《西游記》)
2、將掃描得到的圖片分成單個詞的片段 (將《西游記》掃描的圖片按照單個字進行截取)
3、系統隨機生成一個詞A和掃描圖片得到的詞B組成一個驗證碼(假如隨機生成的詞A為『我』,掃描圖片的詞B為『俺老孫』,當然了用戶是不知道『我』還是『俺老孫』哪一個是系統產生的)
4、當用戶正確輸入A之后就會被認為這是人在操作,那么B也就會被認為是人在認這個詞(于是只要用戶輸入正確的A的答案為『我』,那么系統也會人會后面輸入詞就是掃描圖片上面的詞了)
5、然后B這個詞就被人認出來了,以此類推,書就可以被全部認出來了。(以此類推,《西游記》就會被人在輸入驗證碼的時候就被電子化了。)
說了這么多,咱們還是來看看真圖(其中『morning』這個詞是書里掃描出來的,后面這個『upon』是系統隨機產生的,偽裝的很像哈):
升級版的驗證碼效果
那么這個升級版的驗證碼效果如何呢?當時是有35萬個網站使用這個驗證碼,一天可以數字化1億個單詞,一年可以將250萬本古老書籍電子化。這真的是一個功德無量的時候,它可以讓老一輩的智慧通過電子化繼續流傳下去(用書的話說不定哪天就被燒了呢)。
這個天才的想法再次被Google收購。唉,Luis von Ahn是名副其實的人生贏家了。
地址:http://googleblog.blogspot.jp/2009/09/teaching-computers-to-read-google.html
Luis von Ahn在我看來是一個閑不下來的人。按理來說,這個家伙的做的東西兩次被Google收購,還是國際頂級名校的副教授,吃穿都應該不愁了吧。可是人家的境界還是比我不知道高到哪里去了,他貌似又看到了一些新的東西。
再次出發,Duolingo教你學外語
Luis von Ahn有一次給他帶的研究生出了一個問題——如何讓一億網民免費來將互聯網的主要內容翻譯成各個主要語種。后來Luis von Ahn帶著他的研究生開啟一個全新的項目,叫做『Duolingo』,中文名叫做『多鄰國』。
這是一個什么樣的項目呢? 在Luis von Ahn看來,現在的互聯網的優質內容還主要集中在英語,如果想讓全球人民來無障礙來享用這些優質內容,這些優質內容必須被翻譯成他們相應的語言版本。同時其中一大部分還是很有熱情去學習一門外語,甚至花錢都可以。
于是Luis von Ahn又想到一個兩全其美的辦法讓人們即可以免費學習最正宗的外語,還能提供專業級的翻譯。他是這樣想的:
首先那些提供優質內容的網站(比如紐約時報,英國廣播電臺BBC,美國有線電視CNN)會付費把他們要翻譯的內容提供給『Duolingo』。
有了語料之后,『Duolingo』會在相關語種的語法專家的幫助下將這些內容分解成『Duolingo』的學習材料。這些內容會被分成簡單的小句子,而且句子中的每個單詞的意思都會給出。
有了這些單詞的意思,『Duolingo』的用戶就可以使用這些單詞的意思翻譯自己的語言版本,在這個過程中你的翻譯還會被系統進行評價,通過即可獲得積分和等級。
『Duolingo』里面的積分和等級代表了你的外語能力,你的積分和等級越高,你要翻譯的東西越復雜。于是在整個過程中,你通過翻譯學習了英語,同時你還幫助『Duolingo』完成了企業客戶提供的語料翻譯。
那『Duolingo』的效率如何呢?還是來看數據吧——將維基百科翻譯成西班牙語:在十萬用戶的前提下,5周可以翻譯完成;在100萬用戶的前提下,80個小時就可以了。多么神奇的一個工具呀。
如果你想體驗『Duolingo』學英語(還可以學西班牙語、日語、韓語)的感覺,直接去豌豆莢下載吧 :http://www.wandoujia.com/apps/com.duolingo
總算結束了
不容易,總算接近尾聲了。Luis von Ahn在我看來完全是一個優質偶像啊,你看發明了驗證碼,又改進驗證碼,讓人們在輸驗證碼的時候順便幫忙把那些古老的書籍電子化,讓人類的文明得到更好的傳承。后來看到大家很多人都在學外語,他通過『Duolingo』為人們免費提供高效的外語學習平臺,同時還幫助把互聯網的優質內容翻譯成其他語言版本,讓更多的人享受更優質的內容。在我看來牛逼的地方在于他的兩次創業成果都被Google收購,而且他還不滿足,繼續著自己的奮斗!
最后我想給大家推薦一下Luis von Ahn在TED的這個經典演講,內容基本概況的他的主要工作內容,更重要的是他的演講能力也很好,很會與聽眾互動,知道如何幽默地演講。
Luis von Ahn個人主頁
https://www.cs.cmu.edu/~biglou/
Luis von Ahn wikipedia
http://www.wikiwand.com/en/Luis_von_Ahn
TED 演講
http://www.ted.com/talks/luis_von_ahn_massive_scale_online_collaboration