Abstract
食物照片被廣泛應用在食物飲食監測、食物日志、以及分享烹飪經歷的社交網絡中。大量的圖片在餐廳中拍攝, 由于不同的菜品、烹飪方式以及從視覺外觀來進行食物建模的內在困,使得菜品識別通常很具有挑戰性。因此,上下文信息在這樣的應用場景下對提高識別性能顯得尤為重要。尤其是,地理上下文在戶外地表識別上被廣泛地探索之后。相似的,我們探討菜譜、位置、餐館以及測試圖片之間的相關信息。首先,丟棄與測試圖片相差較大的非相似類別去適應一個網絡;然后,使用一個隨機模型鏈接菜品、餐廳、位置對問題進行重現。在三個不同任務上應用這個模型:菜品識別、餐館識別、位置優化。在6個數據庫上的實驗表明通過整合多個線索(視覺、位置、知識)我們的系統能在所有課題上提高性能。
Introduction
飲食是日常必需的活動,食物和我們生活的方方面面緊密相連。隨著近來諸如智能手機和計算機視等科技的發展,食物相關的應用也逐漸繁榮。健康監測是一個重要的研究領域。比如食物日志,卡路里攝入估計,營養分析。飲食自我監測通過改變飲食習慣能有效幫助人們減重。其余一些比較流行的領域包括烹飪。比如烹飪視頻檢索和創作,烹飪行為識別,菜單計劃,食譜推薦,增強配方,烹飪支持和幫助。本文的工作集中在社會語境中的菜品圖片,提供自動的標注以及檢索出相似的圖片。社交網絡對于預測消費模式和食物分析非常有用。
為了有效實現這些應用,從圖片中直接識別食物變得非常必要。然而,不受限制的食物識別對于人類來說也仍然很具有挑戰性,尤其是只依賴于視覺信息。事實上,當處理復雜的識別任務時,人類會聯合先驗和語義信息。相似的,智能系統也能借助外部知識來簡化問題。
本文關注生活中人們去餐廳吃飯和拍攝食物照片這個特定卻又普遍的場景。這些照片能夠被保存在個人的食物日志里,被用來提取營養信息、食譜、感興趣的任何其他信息,或者作為個人經歷分享到社交網絡。用戶通常對于特定的食物或者餐廳不熟悉(比如當初次旅游時),所以自動識別就會顯得很方便。在這樣的場景下,食物名稱和餐廳名稱是兩個重要的標簽。這種場景下的無約束的菜品識別由于食物種類繁多,烹飪方法和不同餐廳的展示方式不同而變得及其困難。因此我們借助外部信息(菜單和餐廳信息)以及探索地理位置來簡化問題,提高性能。
本文采用隨機策略,允許為問題中的每一個元素設計一個彈性的模型,通常會提升一定的性能。因此,我們提出一個連接位置、餐廳、菜品和視覺特征的隨機模型。通過結合視覺、位置信息、餐廳信息,能夠顯著提高自動的菜品和餐廳名字標注的性能。同時,本文能夠優化位置估計,在室內這種難以估計的環境下尤其有用。
Related work
在本文的特定場景下(餐廳中的菜品識別)我們能識別兩類相關工作:菜品識別和基于文本的圖片識別。
早期的菜品識別能夠在很多的類別中進行分類,[Automatic expansion of a food image dataset leveraging existing categories with domain adaptation]提出一種能夠辨別256種菜品的手機菜品識別系統。然而多菜品識別以及精細分類仍是一個難題。
當人類面臨一個復雜問題時,通常會查找比內容本身更重要的語義信息。類似的,現代設備能夠探索不同來源的知識(網站、數據庫)以及語義信息(GPS,加速計)。最具代表性的例子是手機識別地標。[Content and context boosting for mobile landmark recognition]基于位置和圖片檢索技術從地標圖片數據庫中查找類似的地標,以此來對測試圖片進行標注。位置能夠有效將搜索過程限制在一個小的圖片子集中。典型的,像SIFT一類的局部特征被提取出來,編碼成“詞袋”模型或者利用單詞樹。由于地標具有剛性和幾何不變性,提取相似圖片并驗證幾何形就能找到正確的地標。分類器通常會替代檢索技術。此時位置信息能夠幫助限制分類任務在集合領域中。
[Menu match: Restaurant-specific food logging from images]、[Leveraging context to support automated food recognition in restaurants]、[Geolocalized modeling for dish recognition]同時提出來利用文本信息和位置信息去提升菜品識別率。它們能減少在附近餐廳菜單中的菜品的候選類別。[menu match]還提取了菜品的營養信息,在一個從10家餐館提取出的4350張圖片,3家餐館提取的645張圖片數據庫上進行試驗。 這些研究致力于地理位置條件下的分類,表明位置信息能夠幫助提高分類性能。相反的,本文我們關注對語義信息、等其他信息的更好地建模而不是視覺分類器其本身。
Dish recognition in restaurants
A.餐廳菜品識別問題
傳統的食物或者菜品識別試圖通過特定的視覺分類器p去識別輸入圖片的類別s以及他們的視覺描述x。我們關注餐廳中的菜品識別,假設用戶目前正處在餐廳中。因此除了視覺模型,系統還獲得了語義信息,尤其是菜單歸屬的餐廳以及用戶和餐廳的地理位置。
識別系統將(U,x)作為輸入,U表示位置坐標,x為視覺描述子。當新圖片被捕獲時,假設手機設備已經通過位置服務功能估測到了當前位置(latitude,longitude)。
對于一個給定的餐廳k,系統探索菜單Mk和地理位置(latitude,longitude)的信息。Mk是指餐廳k所提供的菜品類別信息。餐廳數據庫包含了K家餐廳的所有菜品。
B.方法1:候選名單
迄今一個較簡單的獲取位置信息的方法是丟棄不太可能的候選信息以減少問題復雜度。這種方法通常用在地標識別上,通常被叫做候選名單方法。該方法使用位置信息去丟棄以u為中心的一定區域之外的地標或者建筑,然后在保留的候選信息中尋找和原圖相似的地標。由于保留的圖片以分數形式呈現候選等級,所以簡化問題和計算量同時提高精度。
這種方法也能被應用于本文中,用戶用智能終端拍攝圖片通過系統定位功能獲取位置信息。圖片一定是在定位的附近拍攝,只有附近餐館的菜單才會包含用戶拍攝的這張圖片,所以候選類別能夠被視覺分類器所識別。給定坐標信息U和視覺描述x,菜品預測等價于尋找在候選菜單中的最大似然,
Probabilistic Framework
A.model
候選名單方法的思想很直觀,本文采用概率論的觀點對系統進行建模,以利用概率模型聯系不同元素而不是根據經驗法則。本文模型中,手機等終端設備提供預測的位置信息u和視覺描述x,也就是觀測變量。確切的位置信息ψ,餐廳k,菜品s是潛在變量。明確引入餐廳和菜品(通過菜單),視覺特征和菜品(通過視覺分類器),餐廳和用戶位置,這幾者之間的依賴關系。引入ψ變量表示用戶位置,該位置不同于移動終端預測的位置。
給定當前觀測和潛在變量,以及地理模型,聯合概率p(s,k,ψ|u,x)表示為
因式分解后可以得出三個關鍵信息:p(ψ|u)表示領域模型,p(k|ψ)表示餐廳位置模型,p(s|k,x)表示視覺模型。
為了預測菜品,將k,ψ邊緣化,
通過解答下式可以獲得菜品的分類結果,
B.Revisiting the shortlist approach
名單再訪問如下圖所示,
領域模型實際上就是以u為圓心,e為半徑的圓,
餐廳用點表示,因此,用以下delta函數表示餐廳位置的聯系,
對于每一個餐廳來說,只有在該餐廳菜單中的菜品才是候選類別,因此具有非零的概率。將此在視覺模型中進行表示,
其中p=1(當描述為真);p=0(當描述為假)。該式能夠歸一化以包含所有概率。
PS:原文——《Modeling Restaurant Context for Food Recognition》