這兩天登陸一個網(wǎng)站,總是要輸入驗證碼,那種兩個單詞,一個清楚,一個模糊還加條橫線,特難認(rèn),每次總錯要輸一兩回。很煩人,雖然知道這樣做是為了防止機器輸入的,但真有必要搞這么難浪費時間嗎? 這次順手查了下為啥做reCAPTCHA。
原來reCAPTCHA之前還有CAPTCHA。就是很多網(wǎng)站還在使用的普通驗證碼,字母或數(shù)字都很清晰的那種。
這個項目最初叫做CAPTCHA,源于10多年前,根據(jù)Wiki的說法,似乎同時有兩個團隊都宣稱發(fā)明了驗證碼。其中一個,就是卡內(nèi)基梅隆大學(xué)Luis von Ahn 所在的團隊進一步發(fā)明了reCHPTCHA產(chǎn)生了一個創(chuàng)業(yè)公司,在2009年被Google收購。
reCHPTCHA最早是卡內(nèi)基梅隆大學(xué)的一個項目,輸入驗證碼時,難辨識的那部分,實際是OCR掃描古老文獻時電腦無法辨認(rèn)的部分,通過由人工辨識,同時打到兩個目的:
- 有效的確保了是人而非機器在登陸。CAPTCHA 就是圖靈測試區(qū)分人還是機器的意思。
全自動區(qū)分計算機和人類的圖靈測試(英語:Completely Automated Public Turing test to tell Computers and Humans Apart,簡稱CAPTCHA),俗稱驗證碼,是一種區(qū)分用戶是計算機和人的公共全自動程序。在CAPTCHA測試中,作為服務(wù)器的計算機會自動生成一個問題由用戶來解答。這個問題可以由計算機生成并評判,但是必須只有人類才能解答。由于計算機無法解答CAPTCHA的問題,所以回答出問題的用戶就可以被認(rèn)為是人類。
- 通過免費眾包的方式,高效低成本實現(xiàn)了把海量文獻數(shù)字化的工作。
根據(jù)其作者之一的 Luis von Ahn 2011年在TED 上的演講,有35萬網(wǎng)站使用reCAPTCHA作為驗證碼登陸使用,每天有兩億次的使用量,可以辨識250萬單詞,每年有250萬圖書就是這樣數(shù)字化的。
reCAPTCHA計劃是由卡內(nèi)基梅隆大學(xué)所發(fā)展的系統(tǒng),主要目的是利用CAPTCHA技術(shù)來幫助典籍?dāng)?shù)字化的進行,這個計劃將由書本掃描下來無法準(zhǔn)確的被光學(xué)文字辨識技術(shù)(OCR, Optical Character Recognition)識別的文字顯示在CAPTCHA問題中,讓人類在回答CAPTCHA問題時用人腦加以識別[1]。reCAPTCHA正數(shù)字化《紐約時報》(New York Times)的掃描存盤[2],目前已經(jīng)完成20年份的數(shù)據(jù),并希望在2010年完成110年份的數(shù)據(jù)。2009年9月17日,Google宣布收購reCAPTCHA。[3]
通過浪費所有人一點時間去做一點貢獻,真是個奇妙的主義。
了解了reCAPTCHA背后的意義,每次輸錯所浪費的幾秒鐘似乎有了意義。不再抱怨,人可能真是唯一需要意義來支撐行動的動物。
Luis von Ahn 介紹的另一個類似想法的項目是 Duolingo。