聊聊視覺搜索的技術(shù)前沿與應(yīng)用前景

6月15日,Google Open Source Blog 和 Google Research Blog 同步發(fā)表了一篇文章:《Supercharge your Computer Vision models with the TensorFlow Object Detection API》。核心就是谷歌開源了圖像的物體檢測(cè)API,代碼基于 TensorFlow 框架構(gòu)建。

注:開源代碼地址(附快速入門示例):https://github.com/tensorflow/models/tree/master/object_detection

此次發(fā)布的版本,包含了計(jì)算機(jī)視覺、卷積神經(jīng)網(wǎng)絡(luò)領(lǐng)域的不少前沿技術(shù)。如基于 MobileNets、Inception-V2 網(wǎng)絡(luò)的 SSD 檢測(cè)算法;基于 Resnet-101 網(wǎng)絡(luò)的 R-FCN 檢測(cè)算法;基于 Resnet-101、Inception-ResNet-v2 網(wǎng)絡(luò)的 Faster RCNN 檢測(cè)算法。

此舉對(duì)于普通的碼農(nóng),或計(jì)劃步入AI領(lǐng)域的創(chuàng)業(yè)者來說,無疑是重大利好消息。


視覺搜索,是深度學(xué)習(xí)(或人工智能)領(lǐng)域最重要的研究課題之一,在現(xiàn)實(shí)生活中也有著非常廣泛的應(yīng)用。從簡(jiǎn)單的以圖搜圖、車牌識(shí)別,到人臉識(shí)別、植物或?qū)櫸锏淖R(shí)別,人體或車輛的跟蹤,無人機(jī)、無人汽車的自動(dòng)駕駛,智能機(jī)器人等領(lǐng)域,都離不開計(jì)算機(jī)視覺搜索技術(shù)。

通常,視覺搜索包含了兩步任務(wù):首先,待搜索物體的檢測(cè)與定位;其次,從庫(kù)(知識(shí)圖譜、圖片庫(kù)、信息庫(kù)等)中搜索該物體,或查詢相關(guān)聯(lián)的場(chǎng)景。

如觀看電視劇《深夜食堂》時(shí),發(fā)現(xiàn)老板端出了一款美味精致的料理,想拍照搜索一下相關(guān)的食材和菜譜,視覺搜索就派上用場(chǎng)了。首先,系統(tǒng)需要檢測(cè)照片里面涉及的各種食材,并提取食材的特征信息;其次,系統(tǒng)根據(jù)待檢測(cè)物體的特征,去庫(kù)里做相應(yīng)的搜索和匹配,系統(tǒng)再根據(jù)匹配到的食材去搜索相應(yīng)的菜譜。

對(duì)于機(jī)器來說,這兩步都不容易,尤其是第一步,這也是此次谷歌開源基于 TensorFlow 的物體檢測(cè)代碼的意義所在。這點(diǎn)其實(shí)蠻有趣的,因?yàn)槿祟惽『孟喾矗谝徊降奈矬w檢測(cè)比第二步的搜索匹配容易多了。


這里,照例先吐槽一下百度的以圖搜圖功能,這個(gè)號(hào)稱國(guó)內(nèi)最好用的搜索引擎,這是百度相似圖片結(jié)果:

百度

原圖如下:

原圖
不過,一年前我做過基于四大搜索引擎的圖像爬蟲,當(dāng)時(shí)百度的搜索結(jié)果更加糟糕。如今百度已經(jīng)有了不少改進(jìn)。

下圖是谷歌的搜索結(jié)果:

谷歌
顯然,百度在圖像中物體檢測(cè)這一步,與谷歌相比還是有差距的(當(dāng)然這不是絕對(duì)的...)。


下面,先從簡(jiǎn)單一點(diǎn)的第二步說起,聊聊機(jī)器怎么實(shí)現(xiàn)物體搜索與匹配的。

1、圖像特征提取

圖像特征的提取,是圖像簡(jiǎn)化標(biāo)識(shí)的過程,也是圖像搜索、匹配、識(shí)別的關(guān)鍵和前提。

傳統(tǒng)的全局特征表示方法,如顏色、形狀、紋理等特征,簡(jiǎn)單直觀,但易受光照、裁剪、旋轉(zhuǎn)、噪聲等因素的影響,目前基本只作為輔助手段。

一些局部或特殊的特征點(diǎn),相對(duì)來說有更好的穩(wěn)定性,不易受外界干擾,所以更適合對(duì)圖像進(jìn)行搜索、匹配。如:

斑點(diǎn)特征檢測(cè),代表性算法有:LOG(高斯拉普拉斯算子檢測(cè))、DOH(利用圖像點(diǎn)的二階微分Hessian矩陣及其行列式);

角點(diǎn)特征檢測(cè),代表性算法有:Harris角點(diǎn)檢測(cè)、Shi-Tomasi角點(diǎn)檢測(cè)、FAST角點(diǎn)檢測(cè) 等;

SIFT(尺度不變特征轉(zhuǎn)化)特征檢測(cè),是具有劃時(shí)代意義的特征檢測(cè)算法。由于其具有非常不錯(cuò)的仿射不變性,旋轉(zhuǎn)不變性,對(duì)于光線、噪點(diǎn)、視角變化等的容忍度也較高,在圖像搜索匹配領(lǐng)域應(yīng)用非常廣泛,后續(xù)也出現(xiàn)了很多基于 SIFT 的改良算法。

SURF(加速魯棒特征)特征檢測(cè),是 SIFT 的高效變種,簡(jiǎn)化了 SIFT 特征提取的算法,運(yùn)算效率更高,基本可實(shí)現(xiàn)實(shí)時(shí)處理。

ORB 特征檢測(cè),主要在 FAST 特征點(diǎn)檢測(cè)算法與 BRIEF 特征描述方法的基礎(chǔ)上,做了一些優(yōu)化和改進(jìn),是 SIFT、SURF(兩者都受專利保護(hù))之外一個(gè)很好的選擇。

KAZE/AKAZE(KAZE的加速版)特征檢測(cè),比 SIFT 有著更優(yōu)異的性能和更穩(wěn)定的表現(xiàn),是繼 SIFT 之后一個(gè)較大的突破,也是目前我在系統(tǒng)中優(yōu)先采用的圖像特征提取算法。

另外,還有基于 BRISK/SBRISK(二進(jìn)制魯棒尺度不變關(guān)鍵點(diǎn))、FREAK(快速視網(wǎng)膜關(guān)鍵點(diǎn))等算法的特征提取檢測(cè),由于這些算法我沒有過多的關(guān)注,所以暫且略過。

不過,由于 2012 年之后,深度學(xué)習(xí)首先在語(yǔ)音識(shí)別、計(jì)算機(jī)視覺等領(lǐng)域開始崛起,深度學(xué)習(xí)算法正逐步蠶食傳統(tǒng)特征檢測(cè)算法的領(lǐng)地。

特別是利用深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)訓(xùn)練輸出的圖像卷積特征,表達(dá)能力比前面提到的傳統(tǒng)特征更強(qiáng),而且還具備很不錯(cuò)的遷移能力,只是可解釋性弱于傳統(tǒng)特征。如何設(shè)計(jì)卷積網(wǎng)絡(luò),以及如何結(jié)合傳統(tǒng)特征檢測(cè)的思路,使得深度學(xué)習(xí)訓(xùn)練得到的視覺特征更穩(wěn)定,可解釋性更強(qiáng),是當(dāng)前業(yè)界的一大研究課題。


2、圖像物體檢測(cè)

圖像中物體檢測(cè)與定位的過程,與文本中詞匯自動(dòng)補(bǔ)全的功能類似,可以極大的提高用戶搜索的體驗(yàn)。

傳統(tǒng)的做法,一般是由用戶手動(dòng)裁剪、框定,來指定需要搜索的物體。目前已經(jīng)有了不少算法來實(shí)現(xiàn)物體的自動(dòng)檢測(cè)。

除了前面提到過的,谷歌此次開源版本中已經(jīng)實(shí)現(xiàn)的 Faster R-CNN、R-FCN、SSD 檢測(cè)算法之外,還有不少其他檢測(cè)算法,如除 SSD 外,另一款端到端的檢測(cè)算法:YOLO(You Only Look Once),精度可能略遜于 Faster R-CNN(非絕對(duì),不同的數(shù)據(jù)、網(wǎng)絡(luò)設(shè)計(jì)會(huì)導(dǎo)致差異),但檢測(cè)速度較快。后續(xù)的 YOLO 9000(YOLO 升級(jí)版),論文提到能夠檢測(cè)識(shí)別超過 9000 類的物體,而且檢測(cè)更加快速、準(zhǔn)確。

這個(gè)領(lǐng)域的初學(xué)者,目前可以考慮基于谷歌新開源的《TensorFlow Object Detection API》先做一番嘗試和實(shí)踐,后續(xù)有機(jī)會(huì)再一起交流分享。


3、其他相關(guān)技術(shù)

大規(guī)模的項(xiàng)目實(shí)踐中,除了物體檢測(cè)與特征檢測(cè)算法外,還需要結(jié)合不少其他的技術(shù),才能讓視覺搜索有更流暢的體驗(yàn)。

通過特征提取算法,我們可以獲取到圖像離散的特征表示,或轉(zhuǎn)化為視覺詞匯。項(xiàng)目實(shí)踐時(shí)會(huì)基于局部敏感哈希(Locality Sensitive Hashing)等技術(shù),進(jìn)一步壓縮數(shù)據(jù)存儲(chǔ)空間。

類似 Lucene 的文本搜索技術(shù),我們會(huì)對(duì)視覺詞匯及其相關(guān)信息建立倒排索引、B樹索引等,實(shí)現(xiàn)高效的信息檢索。同時(shí),類似 Word2vec 這種文字模型,視覺詞匯之間也可以構(gòu)造類似的相關(guān)性矩陣,將查詢映射到附近的相似特征,以實(shí)現(xiàn)更好的相似圖片搜索。


4、應(yīng)用前景

視覺搜索的應(yīng)用前景顯然是非常廣闊。

譬如,和電子商務(wù)結(jié)合,搜索同款或相似款的衣物、包包;和社交網(wǎng)絡(luò)結(jié)合,實(shí)現(xiàn)更好的圖像理解與互動(dòng);和自媒體結(jié)合,更方便的尋找圖像、視頻的素材;和知識(shí)產(chǎn)權(quán)結(jié)合,可以更準(zhǔn)確的追溯圖像來源與版權(quán)信息;和醫(yī)療健康結(jié)合,可以更準(zhǔn)確的做病理研究;和工業(yè)生成結(jié)合,實(shí)現(xiàn)更可靠的瑕疵物件篩選;和網(wǎng)絡(luò)安全結(jié)合,實(shí)現(xiàn)更好的對(duì)圖像、視頻內(nèi)容的自動(dòng)過濾審核;和安保監(jiān)控結(jié)合,可以實(shí)現(xiàn)更準(zhǔn)確的跟蹤定位;和智能機(jī)器人相結(jié)合,可以實(shí)現(xiàn)更好的機(jī)器人物體識(shí)別和場(chǎng)景定位...


題外話

前些日子,蘋果 CEO 庫(kù)克在 MIT 的畢業(yè)典禮演講上曾說:我并不擔(dān)心人工智能可以讓機(jī)器像人一樣思考,我更擔(dān)心人會(huì)像機(jī)器一樣思考。

個(gè)人覺得,這句話說的非常精彩和及時(shí)。在即將到來的智能時(shí)代,技術(shù)首要的應(yīng)該是更多的注入人性中的正直和善良,否則技術(shù)帶來的也許是災(zāi)難,而不是福音。

碼字不易,文筆有限,文中若有不當(dāng)之處,歡迎交流指正。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,885評(píng)論 6 541
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,312評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,993評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,667評(píng)論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,410評(píng)論 6 411
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,778評(píng)論 1 328
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,775評(píng)論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,955評(píng)論 0 289
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,521評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,266評(píng)論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,468評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,998評(píng)論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,696評(píng)論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,095評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,385評(píng)論 1 294
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,193評(píng)論 3 398
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,431評(píng)論 2 378

推薦閱讀更多精彩內(nèi)容