注:開源代碼地址(附快速入門示例):https://github.com/tensorflow/models/tree/master/object_detection
此次發(fā)布的版本,包含了計(jì)算機(jī)視覺、卷積神經(jīng)網(wǎng)絡(luò)領(lǐng)域的不少前沿技術(shù)。如基于 MobileNets、Inception-V2 網(wǎng)絡(luò)的 SSD 檢測(cè)算法;基于 Resnet-101 網(wǎng)絡(luò)的 R-FCN 檢測(cè)算法;基于 Resnet-101、Inception-ResNet-v2 網(wǎng)絡(luò)的 Faster RCNN 檢測(cè)算法。
此舉對(duì)于普通的碼農(nóng),或計(jì)劃步入AI領(lǐng)域的創(chuàng)業(yè)者來說,無疑是重大利好消息。
視覺搜索,是深度學(xué)習(xí)(或人工智能)領(lǐng)域最重要的研究課題之一,在現(xiàn)實(shí)生活中也有著非常廣泛的應(yīng)用。從簡(jiǎn)單的以圖搜圖、車牌識(shí)別,到人臉識(shí)別、植物或?qū)櫸锏淖R(shí)別,人體或車輛的跟蹤,無人機(jī)、無人汽車的自動(dòng)駕駛,智能機(jī)器人等領(lǐng)域,都離不開計(jì)算機(jī)視覺搜索技術(shù)。
通常,視覺搜索包含了兩步任務(wù):首先,待搜索物體的檢測(cè)與定位;其次,從庫(kù)(知識(shí)圖譜、圖片庫(kù)、信息庫(kù)等)中搜索該物體,或查詢相關(guān)聯(lián)的場(chǎng)景。
如觀看電視劇《深夜食堂》時(shí),發(fā)現(xiàn)老板端出了一款美味精致的料理,想拍照搜索一下相關(guān)的食材和菜譜,視覺搜索就派上用場(chǎng)了。首先,系統(tǒng)需要檢測(cè)照片里面涉及的各種食材,并提取食材的特征信息;其次,系統(tǒng)根據(jù)待檢測(cè)物體的特征,去庫(kù)里做相應(yīng)的搜索和匹配,系統(tǒng)再根據(jù)匹配到的食材去搜索相應(yīng)的菜譜。
對(duì)于機(jī)器來說,這兩步都不容易,尤其是第一步,這也是此次谷歌開源基于 TensorFlow 的物體檢測(cè)代碼的意義所在。這點(diǎn)其實(shí)蠻有趣的,因?yàn)槿祟惽『孟喾矗谝徊降奈矬w檢測(cè)比第二步的搜索匹配容易多了。
這里,照例先吐槽一下百度的以圖搜圖功能,這個(gè)號(hào)稱國(guó)內(nèi)最好用的搜索引擎,這是百度相似圖片結(jié)果:
原圖如下:
下圖是谷歌的搜索結(jié)果:
下面,先從簡(jiǎn)單一點(diǎn)的第二步說起,聊聊機(jī)器怎么實(shí)現(xiàn)物體搜索與匹配的。
1、圖像特征提取
圖像特征的提取,是圖像簡(jiǎn)化標(biāo)識(shí)的過程,也是圖像搜索、匹配、識(shí)別的關(guān)鍵和前提。
傳統(tǒng)的全局特征表示方法,如顏色、形狀、紋理等特征,簡(jiǎn)單直觀,但易受光照、裁剪、旋轉(zhuǎn)、噪聲等因素的影響,目前基本只作為輔助手段。
一些局部或特殊的特征點(diǎn),相對(duì)來說有更好的穩(wěn)定性,不易受外界干擾,所以更適合對(duì)圖像進(jìn)行搜索、匹配。如:
斑點(diǎn)特征檢測(cè),代表性算法有:LOG(高斯拉普拉斯算子檢測(cè))、DOH(利用圖像點(diǎn)的二階微分Hessian矩陣及其行列式);
角點(diǎn)特征檢測(cè),代表性算法有:Harris角點(diǎn)檢測(cè)、Shi-Tomasi角點(diǎn)檢測(cè)、FAST角點(diǎn)檢測(cè) 等;
SIFT(尺度不變特征轉(zhuǎn)化)特征檢測(cè),是具有劃時(shí)代意義的特征檢測(cè)算法。由于其具有非常不錯(cuò)的仿射不變性,旋轉(zhuǎn)不變性,對(duì)于光線、噪點(diǎn)、視角變化等的容忍度也較高,在圖像搜索匹配領(lǐng)域應(yīng)用非常廣泛,后續(xù)也出現(xiàn)了很多基于 SIFT 的改良算法。
SURF(加速魯棒特征)特征檢測(cè),是 SIFT 的高效變種,簡(jiǎn)化了 SIFT 特征提取的算法,運(yùn)算效率更高,基本可實(shí)現(xiàn)實(shí)時(shí)處理。
ORB 特征檢測(cè),主要在 FAST 特征點(diǎn)檢測(cè)算法與 BRIEF 特征描述方法的基礎(chǔ)上,做了一些優(yōu)化和改進(jìn),是 SIFT、SURF(兩者都受專利保護(hù))之外一個(gè)很好的選擇。
KAZE/AKAZE(KAZE的加速版)特征檢測(cè),比 SIFT 有著更優(yōu)異的性能和更穩(wěn)定的表現(xiàn),是繼 SIFT 之后一個(gè)較大的突破,也是目前我在系統(tǒng)中優(yōu)先采用的圖像特征提取算法。
另外,還有基于 BRISK/SBRISK(二進(jìn)制魯棒尺度不變關(guān)鍵點(diǎn))、FREAK(快速視網(wǎng)膜關(guān)鍵點(diǎn))等算法的特征提取檢測(cè),由于這些算法我沒有過多的關(guān)注,所以暫且略過。
不過,由于 2012 年之后,深度學(xué)習(xí)首先在語(yǔ)音識(shí)別、計(jì)算機(jī)視覺等領(lǐng)域開始崛起,深度學(xué)習(xí)算法正逐步蠶食傳統(tǒng)特征檢測(cè)算法的領(lǐng)地。
特別是利用深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)訓(xùn)練輸出的圖像卷積特征,表達(dá)能力比前面提到的傳統(tǒng)特征更強(qiáng),而且還具備很不錯(cuò)的遷移能力,只是可解釋性弱于傳統(tǒng)特征。如何設(shè)計(jì)卷積網(wǎng)絡(luò),以及如何結(jié)合傳統(tǒng)特征檢測(cè)的思路,使得深度學(xué)習(xí)訓(xùn)練得到的視覺特征更穩(wěn)定,可解釋性更強(qiáng),是當(dāng)前業(yè)界的一大研究課題。
2、圖像物體檢測(cè)
圖像中物體檢測(cè)與定位的過程,與文本中詞匯自動(dòng)補(bǔ)全的功能類似,可以極大的提高用戶搜索的體驗(yàn)。
傳統(tǒng)的做法,一般是由用戶手動(dòng)裁剪、框定,來指定需要搜索的物體。目前已經(jīng)有了不少算法來實(shí)現(xiàn)物體的自動(dòng)檢測(cè)。
除了前面提到過的,谷歌此次開源版本中已經(jīng)實(shí)現(xiàn)的 Faster R-CNN、R-FCN、SSD 檢測(cè)算法之外,還有不少其他檢測(cè)算法,如除 SSD 外,另一款端到端的檢測(cè)算法:YOLO(You Only Look Once),精度可能略遜于 Faster R-CNN(非絕對(duì),不同的數(shù)據(jù)、網(wǎng)絡(luò)設(shè)計(jì)會(huì)導(dǎo)致差異),但檢測(cè)速度較快。后續(xù)的 YOLO 9000(YOLO 升級(jí)版),論文提到能夠檢測(cè)識(shí)別超過 9000 類的物體,而且檢測(cè)更加快速、準(zhǔn)確。
這個(gè)領(lǐng)域的初學(xué)者,目前可以考慮基于谷歌新開源的《TensorFlow Object Detection API》先做一番嘗試和實(shí)踐,后續(xù)有機(jī)會(huì)再一起交流分享。
3、其他相關(guān)技術(shù)
大規(guī)模的項(xiàng)目實(shí)踐中,除了物體檢測(cè)與特征檢測(cè)算法外,還需要結(jié)合不少其他的技術(shù),才能讓視覺搜索有更流暢的體驗(yàn)。
通過特征提取算法,我們可以獲取到圖像離散的特征表示,或轉(zhuǎn)化為視覺詞匯。項(xiàng)目實(shí)踐時(shí)會(huì)基于局部敏感哈希(Locality Sensitive Hashing)等技術(shù),進(jìn)一步壓縮數(shù)據(jù)存儲(chǔ)空間。
類似 Lucene 的文本搜索技術(shù),我們會(huì)對(duì)視覺詞匯及其相關(guān)信息建立倒排索引、B樹索引等,實(shí)現(xiàn)高效的信息檢索。同時(shí),類似 Word2vec 這種文字模型,視覺詞匯之間也可以構(gòu)造類似的相關(guān)性矩陣,將查詢映射到附近的相似特征,以實(shí)現(xiàn)更好的相似圖片搜索。
4、應(yīng)用前景
視覺搜索的應(yīng)用前景顯然是非常廣闊。
譬如,和電子商務(wù)結(jié)合,搜索同款或相似款的衣物、包包;和社交網(wǎng)絡(luò)結(jié)合,實(shí)現(xiàn)更好的圖像理解與互動(dòng);和自媒體結(jié)合,更方便的尋找圖像、視頻的素材;和知識(shí)產(chǎn)權(quán)結(jié)合,可以更準(zhǔn)確的追溯圖像來源與版權(quán)信息;和醫(yī)療健康結(jié)合,可以更準(zhǔn)確的做病理研究;和工業(yè)生成結(jié)合,實(shí)現(xiàn)更可靠的瑕疵物件篩選;和網(wǎng)絡(luò)安全結(jié)合,實(shí)現(xiàn)更好的對(duì)圖像、視頻內(nèi)容的自動(dòng)過濾審核;和安保監(jiān)控結(jié)合,可以實(shí)現(xiàn)更準(zhǔn)確的跟蹤定位;和智能機(jī)器人相結(jié)合,可以實(shí)現(xiàn)更好的機(jī)器人物體識(shí)別和場(chǎng)景定位...
題外話
前些日子,蘋果 CEO 庫(kù)克在 MIT 的畢業(yè)典禮演講上曾說:我并不擔(dān)心人工智能可以讓機(jī)器像人一樣思考,我更擔(dān)心人會(huì)像機(jī)器一樣思考。
個(gè)人覺得,這句話說的非常精彩和及時(shí)。在即將到來的智能時(shí)代,技術(shù)首要的應(yīng)該是更多的注入人性中的正直和善良,否則技術(shù)帶來的也許是災(zāi)難,而不是福音。
碼字不易,文筆有限,文中若有不當(dāng)之處,歡迎交流指正。