導(dǎo)讀:圖像識別技術(shù),連接著機(jī)器和這個一無所知的世界,幫助它越發(fā)了解這個世界,并最終代替我們完成更多的任務(wù)。
計算機(jī)視覺(computer vision)是模擬人類視覺的人工智能技術(shù),用機(jī)器來“看”圖像,“理解”圖像。我們知道電腦中的所有圖片都是由無數(shù)像素點組成,說白了就是一團(tuán)馬賽克。因此計算機(jī)自身并沒有畫面概念。但是在人類經(jīng)過數(shù)千萬年的進(jìn)化中,早已擁有了復(fù)雜而精密的識別和傳感系統(tǒng);而對只有寥寥幾十年歷史的計算機(jī)而言,利用計算機(jī)視覺技術(shù)讓它看懂圖像是一件很復(fù)雜的事情。計算機(jī)場景識別的發(fā)展之路才剛剛開始,今天,小編就帶大家一起,了解一下圖像識別的前世今生。
熱鬧非凡的視覺識別和搜索
這些年計算機(jī)視覺識別和搜索這個領(lǐng)域非常熱鬧,出現(xiàn)了很多的創(chuàng)業(yè)公司,大公司在這方面也花了很多力氣在做。大家可以從下面的這張圖里看到的一些例子。
亞馬遜出品的Firefly當(dāng)時引起了很大的轟動雖然這個產(chǎn)品也很難說是不是成功,但是當(dāng)時確實是很大膽的一個舉動。百度也有圖像搜索和圖像識別。Google很早也有了Google Goggles這個產(chǎn)品雖然技術(shù)跟現(xiàn)在有很大的差別。Pinterest在去年也有這樣的功能問世,就是在它自己的分享照片上可以去搜相似的照片或者是相似的產(chǎn)品。阿里巴巴的拍立淘強調(diào)的是用自己手機(jī)拍照片去搜索網(wǎng)上相同或者相似的商品。
那么除了這些,還有一些識圖搜索引擎也不得不提。
Tineye是典型的以圖找圖搜索引擎,輸入本地硬盤上的圖片或者輸入圖片網(wǎng)址,即可自動幫你搜索相似圖片,搜索準(zhǔn)確度相對來說還比較令人滿意。
百度正式上線了其最新的搜索功能——“識圖”。該功能是百度基于相似圖片識別技術(shù),讓用戶通過上傳本地圖片或者輸入圖片的URL地址之后,百度再根據(jù)圖像特征進(jìn)行分析,進(jìn)而從互聯(lián)網(wǎng)中搜索出與此相似的圖片資源及信息內(nèi)容。
GazoPa搜索圖片時,不依據(jù)關(guān)鍵詞進(jìn)行檢索,而是通過圖片自身的某些特征(例如色彩,形狀等信 息)來進(jìn)行搜索。
Live.com允許你進(jìn)行一次關(guān)鍵字搜索后再執(zhí)行相似性的搜索。你可以為Live索引中的任意一張圖片尋找相似的圖片,但搜索結(jié)果看起來并不是很精確。
Terragalleria主要基于視覺上的相似性,而不考慮圖片的內(nèi)容。
當(dāng)然還有一個值得提起的后起之秀——“拍圖購”
繼拍立淘之后承接國內(nèi)電商圖搜領(lǐng)域的新橋梁,反饋速度快,搜索準(zhǔn)確率達(dá)到80%,同時還能提供更多領(lǐng)域的圖像搜索服務(wù)。
圖像搜索——從火熱到?jīng)]落再到興起
下面我們回到圖像搜索歷史進(jìn)程上來,圖搜發(fā)展至今也是經(jīng)歷了不同的階段的。
最早在二十世紀(jì)九十年代時那個時候叫做CBIR(Content-Based Image Retrieval)即基于內(nèi)容的圖像檢索。但是那時基本上只能在幾千、幾萬幅圖上進(jìn)行檢索而且檢索的效果很難保證。當(dāng)時有一個一直流行到現(xiàn)在的詞叫做“語義鴻溝”這也是當(dāng)時我們經(jīng)常用來質(zhì)疑基于圖像的搜索或CBIR到底靠不靠譜。因為當(dāng)時的特征難以區(qū)分下圖所示的兩種Case。
所以這個方向到了2000年之后我們有時候開玩笑把它叫做Sunset Project也就是像落日一樣沒有太大的希望了。這種基于樣例的檢索其實在之前也經(jīng)常被人質(zhì)疑。
樣例從哪里來?
如果我有了這個樣例為什么還要搜索呢?
當(dāng)然這個問題從今天來看已經(jīng)不是問題了!
因為在上個世紀(jì)九十年代的時候獲取一個圖像的樣本還不是那么容易。在手機(jī)相機(jī)那么普及的今天獲取一個圖像是易如反掌的所以今天一般沒有人會問這個問題。
圖像搜索的沒落直到2008年左右才有所起色當(dāng)時出現(xiàn)了一家叫TinEye的公司提供這樣一種網(wǎng)絡(luò)服務(wù)你提交一個圖片后它可以幫你找互聯(lián)網(wǎng)上跟此圖非常相似的圖片。這在當(dāng)時引起了非常多的討論也就是說它解決了當(dāng)時那些技術(shù)無法解決的scalability的問題。
那么這個scalability是個什么意思呢?做圖像的檢索時,當(dāng)圖片的量非常大是沒有辦法把Query圖像的特征與數(shù)據(jù)庫里面的圖像進(jìn)行一一對比的。以現(xiàn)在的計算能力如果圖像只有幾千個甚至上萬個問題都不是很大的。但是當(dāng)你的圖像再往大到千萬、億級甚至到十億、千億級別的時候就沒有辦法了。
所以此時就要把圖片進(jìn)行索引。索引在文本搜索里面是通過倒排的方法來做這個是非常容易實現(xiàn)的。但是圖像不一樣圖像的描述是它的特征而這個特征是一個向量。這個向量怎樣能夠有效地組織起來實現(xiàn)快速地檢索這是當(dāng)時TinEye系統(tǒng)往前走了一步的問題。
但是索引這件事情解決了之后是不是就解決了基于內(nèi)容的圖像搜索問題很遺憾實際上是沒有的。因為索引只是解決了scalability的問題,但是圖像的表征問題也就是怎么樣有效描述這個圖像的問題還沒有很好地解決。
如上所說這個問題就是
什么樣的特征才是有效的
即可以讓我們“認(rèn)為的”相似的圖像
在特征上相似并且也是我們認(rèn)為相似的這樣一個問題。
這個問題真正取得進(jìn)展確實是在深度學(xué)習(xí)出來之后它可以讓我們?nèi)グ凑兆约核胍_(dá)到的目標(biāo)去學(xué)習(xí)一個神經(jīng)網(wǎng)絡(luò)通過這個神經(jīng)網(wǎng)絡(luò)去抽取圖像的特征。
圖像搜索的明天
展望圖像搜索和識別技術(shù)的未來小編認(rèn)為:
這可能不是某一個算法能解決的,
也不是僅憑深度學(xué)習(xí)就可以解決的,
更不是說一個搜索系統(tǒng)、識別系統(tǒng)就可以解決的。
我認(rèn)為是四個方面結(jié)合起來
數(shù)據(jù)、用戶、模型和系統(tǒng)。這四個方面放在一起可能不斷地縮小語義鴻溝使得我們的搜索“所想”就能夠得到“所得”。