紀(jì)錄自己對于畢設(shè)的一些思考,或許能有助于最后論文的書寫。
研究背景
隨著科技的發(fā)展以及社會的需要,越來越多的大型攝像頭網(wǎng)絡(luò)被部署在在了機(jī)場、火車站、大學(xué)校園、辦公室等公共場所。這些地理空間跨度大,視域不重疊的攝像頭網(wǎng)絡(luò)給人們提供了大量的視頻數(shù)據(jù)。人工監(jiān)視這些視頻中的行人是不合適的,既費(fèi)時又費(fèi)錢。通過視頻算法自動地分析大量的視頻數(shù)據(jù)不僅能提高效率還能顯著提升監(jiān)控的質(zhì)量[1]。通過視頻分析能夠確定人們在一個場景中的長期活動和行為特征,使得監(jiān)控更加主動,例如:對可疑活動的檢測以及對不良事件的預(yù)測并及時向安保部門報警[2]。
行人再識別中的再識別是指在監(jiān)控視頻中識別出某個特定的已經(jīng)在監(jiān)控網(wǎng)絡(luò)中出現(xiàn)過的行人[3]。行人再識別是多攝像機(jī)視頻監(jiān)控系統(tǒng)研究中的重要內(nèi)容,其目的是通過不同攝像機(jī)視域下目標(biāo)的對應(yīng)關(guān)系來確定監(jiān)控系統(tǒng)中一個特定的目標(biāo)是否在其他攝像機(jī)視域中出現(xiàn)過。但是由于不同攝像機(jī)視域存在視角、光照條件和姿態(tài)的變化使得同一行人目標(biāo)外觀存在很大的差異。再加上不同攝像頭的分辨率不盡相同,被監(jiān)控行人部分被遮擋,背景的影響以及監(jiān)控視域中存在相似行人目標(biāo)等不確定因素,使得行人再識別問題成為一個非常具有挑戰(zhàn)性的課題。目前行人再識別領(lǐng)域面臨的主要挑戰(zhàn)為:行人外觀的變化以及自動探測和追蹤的實現(xiàn)。目前在行人再識別領(lǐng)域存在的挑戰(zhàn)具體又可分為系統(tǒng)級挑戰(zhàn)和組件級挑戰(zhàn)兩類。其中系統(tǒng)級挑戰(zhàn)包括行人探測以及多個行人的追蹤,關(guān)于單攝像頭的多對象跟蹤在近二十年有著廣泛的研究并且提出了很多算法。組件級挑戰(zhàn)包括描述符問題和匹配問題,例如:行人不配合、環(huán)境不可控、被遮擋、視頻數(shù)據(jù)的分辨率、幀率、圖像環(huán)境、圖像角度等問題。通常,行人再識別又可以分為短期行人再識別和長期行人再識別。在短期行人識別中,衣服是一個合理的描述符,但是在長期行人識別中,數(shù)據(jù)往往間隔幾天或幾個月。因此長期行人再識別相比于短期行人再識別,需要更加健壯并且獨(dú)特的特征,而想要自動提取這種特征是非常困難的。為了解決上述問題對行人再識別的影響,學(xué)者們提出了很多不同的方法。
行人再識別技術(shù)的發(fā)展(客觀分析,不受選題影響)
傳統(tǒng)行人再識別技術(shù)的研究方向主要分為兩類:描述法和測度學(xué)習(xí)法。描述法先對目標(biāo)進(jìn)行特征提取,再求特征向量之間的距離(主要有歐式、馬氏、巴氏等)來表示兩者之間的相似度。測度學(xué)習(xí)法采用對提取的行人特征進(jìn)行訓(xùn)練學(xué)習(xí),在另一個測度空間中對特征進(jìn)行比較。近幾年隨著深度學(xué)習(xí)的發(fā)展,開始有人將深度學(xué)習(xí)用在特征提取上,得到了十分高效的特征。【缺論文】另外,還可以將特征提取和距離度量兩步統(tǒng)一起來同時優(yōu)化,一個網(wǎng)絡(luò)就可以給出結(jié)果。【缺論文】
個人感覺,傳統(tǒng)的行人再識別研究是基于這樣一種思路。傳統(tǒng)研究中的描述法和測度學(xué)習(xí)法,其實是一個完整的行人再識別過程中獨(dú)立的兩個步驟。通過分別對這兩個方向進(jìn)行研究,找到各自的解決方案,例如:優(yōu)秀的特征以及優(yōu)秀的距離度量方法。然后再將其中的任意兩種自由組合。可以說在某種程度上是一種隨機(jī)的組合,因為這兩個步驟之間的研究是相互獨(dú)立的,毫無關(guān)聯(lián)性可言。可以說是傳統(tǒng)的行人再識別研究說的好聽一點(diǎn)是一種1+1>2的策略,究其本質(zhì),我更覺得它是一種玄學(xué)。
描述法
在視頻監(jiān)控環(huán)境中,行人的外貌特征比較容易提取和表示。因此,同一行人的不同外貌特征具有一定的魯棒性。有效的特征表達(dá)應(yīng)該對光照、視角以及行人姿態(tài)變化具有魯棒性。鑒于目前的監(jiān)控視頻分辨率較低,一般只能借助衣服顏色區(qū)分不同行人。基于顏色的特征表達(dá)都是提取圖像的顏色直方圖,再通過歐式距離或巴氏距離計算兩個圖像的相似度。雖然匹配過程簡單,但效果并不理想。研究者們又提出多特征融合的行人再識別,提高識別正確率,但特征冗余度較高且融合時很難準(zhǔn)確分配權(quán)重。突出的局部特征可以較好區(qū)分不同行人,例如通過圖像的顯著性區(qū)域區(qū)分圖像,但顯著性區(qū)域受行人姿態(tài)變化影響較大。為了消除低層特征和高級語義之間的語義鴻溝,研究者試圖尋找更接近人體視覺的特征。
測度學(xué)習(xí)法
上述基于特征的描述法都是使用標(biāo)準(zhǔn)距離(如曼哈頓距離、歐氏距離和巴氏距離等)進(jìn)行相似性度量。然而同一身份行人在跨越多個無重疊區(qū)攝像頭時,不同外貌特征受視角、光照等因素的影響不同。標(biāo)準(zhǔn)的距離度量方法平等的對待每一種特征,而不會摒棄那些獨(dú)立使用時效果很差的特征。因此,研究者嘗試通過距離學(xué)習(xí)的方法,獲得一個新的距離度量空間,使得同一行人不同圖像的距離小于不同人間的距離。距離學(xué)習(xí)方法一般在 Mahalanobis 距離的基礎(chǔ)上進(jìn)行,通過學(xué)習(xí)一個投影矩陣,使得在投影空間中同類樣本之間的距離較小,而不同類樣本之間的距離較大。與相似度匹配不同,它增加了對已標(biāo)識樣本的訓(xùn)練過程,通過學(xué)習(xí)到的測度矩陣,把特征向量映射到一個更容易區(qū)分的空間。這些方法包括學(xué)習(xí)一個馬氏形式的距離函數(shù):
公式中,M是一個半正定矩陣,即通過樣本學(xué)習(xí)得到參數(shù)。
2002年,Xing等人首次提出馬氏距離形式的距離測度學(xué)習(xí)。在常見的類別數(shù)據(jù)(x,y)基礎(chǔ)上,根據(jù)樣本標(biāo)簽是否相同將類標(biāo)簽表示的數(shù)據(jù)轉(zhuǎn)換成成對的相似樣本對和不相似樣本對:
基于兩種樣本對,作者學(xué)習(xí)到一個最優(yōu)矩陣M,使得相似樣本對的距離最小,同時不相似樣本對的距離最大。2006年,Weinberger等人提出大間隔最近鄰分類(Large Margin Nearest Neighbor,LMNN)距離測度學(xué)習(xí)算法。該算法采用三元組的形式
同時加入不相似樣本對的約束,學(xué)習(xí)使得盡可能多的三元組樣本滿足不等式(3)的最優(yōu)矩陣M。
基于原始的相似性約束和轉(zhuǎn)換的三元組形式的約束,作者采用hinge誤差函數(shù)將問題轉(zhuǎn)換成一個凸優(yōu)化問題。由于hinge誤差函數(shù)并不是處處可導(dǎo),所以采用次梯度的算法求解該問題。在2008年,作者提供了該問題的快速解法,采用一種激活集的策略來維護(hù)所有不滿足上述不等式的三元組形式樣本,避免計算所有樣本的梯度。2010年,Dik-men等人在LMNN基礎(chǔ)上提出改進(jìn)的LMNN-R算法,并用于行人重識別問題。用所有相似樣本對距離的均值代替上述不等式左邊的變量(如式4),通過該替換,其約束比原始的LMNN更強(qiáng)。
2007年,Davis等人提出基于信息論理論(Information Theoretic Metric Learning,ITML)的距離測度學(xué)習(xí)算法。認(rèn)為在沒有額外信息的情況下,歐式距離是一種比較好的距離函數(shù)。其中,歐式距離可以看作矩陣M為單位陣的情況,將矩陣M轉(zhuǎn)換映射到一個高斯模型,可以用散度來度量不同矩陣M之間的相似性。2011年,Zheng等人首次引入尺度學(xué)習(xí)算法的思想,僅采用LMNN中三元組形式的樣本對,提出基于概率相對距離比較(Probabilistic Relative Distance Comparison,PRDC)的距離測度學(xué)習(xí)算法。與LMNN相比,作者采用的是logistic誤差函數(shù),因此最終的目標(biāo)函數(shù)是一個平滑的凸優(yōu)化問題。為了避免過擬合,作者對矩陣M加入了額外約束。2013年,作者在PRDC的基礎(chǔ)上提出基于Adaboost的方法來減少標(biāo)注樣本的需求門。
2012年,Kostinger等人提出的基于簡單而且直接策略(Keep it Simple and Straight,KISS)的距離測度學(xué)習(xí)算法,直接通過模型的參數(shù)估計得到最終的距離函數(shù)參數(shù)矩陣M,降低了計算復(fù)雜度,并且取得較好的識別效果。因而該方法能夠用于大尺度數(shù)據(jù)的學(xué)習(xí)。然而,該方法需要估計高斯分布的模型參數(shù),在訓(xùn)練數(shù)據(jù)不足時,模型的參數(shù)估計不準(zhǔn)確。針對該問題,2013年,Tao等人提出規(guī)則平滑的KISS距離測度學(xué)習(xí)算法(RS—KISS),通過平滑和規(guī)則化等技術(shù)使得估計到的高斯分布協(xié)方差矩陣更為魯棒。
將樣本之間的差向量看做是高斯分布中的一個點(diǎn),同類樣本的差向量分布在同一個高斯分布中,而不同樣本之間的差向量分布在另一個高斯分布中,然后用概率的比值來度量樣本之間的距離。作者通過轉(zhuǎn)換最終將高斯分布的比值轉(zhuǎn)換成馬氏距離的形式,馬氏距離矩陣為同類樣本差向量協(xié)方差的逆減去不同類樣本差向量協(xié)方差的逆。該方法由于沒有使用到迭代優(yōu)化的算法,算法速度快,但是該方法也屬于距離度量學(xué)習(xí)方法。
深度學(xué)習(xí)法
2014年,隨著深度學(xué)習(xí)在圖像分類領(lǐng)域的成功,深度學(xué)習(xí)被開始用于行人再識別方向的研究中。Yi等人和Li等人都采用暹羅神經(jīng)網(wǎng)絡(luò)去判斷輸入的一對圖像是否屬于一個人。之所以選擇暹羅神經(jīng)網(wǎng)絡(luò)可能是因為每個行人的訓(xùn)練樣本數(shù)量是有限的(通常為2)。除了一些變量的參數(shù)設(shè)置,主要的不同在于Yi等人在神經(jīng)網(wǎng)絡(luò)中另外添加了一個附加損失函數(shù),而Li等人使用了更精細(xì)的身體分割。由于它們的實驗數(shù)據(jù)集沒有重疊,所以無法直接比較兩種方法的優(yōu)劣。雖然目前深度學(xué)習(xí)在行人再識別領(lǐng)域只用于了小型數(shù)據(jù)集而且表現(xiàn)不穩(wěn)定,但是深度學(xué)習(xí)方法在行人再識別領(lǐng)域已經(jīng)逐漸流行起來。
畢設(shè)課題意義
深度學(xué)習(xí)近年來在計算機(jī)視覺中得到了廣泛的應(yīng)用,因此不少學(xué)者研究并提出了基于深度學(xué)習(xí)的行人再識別算法。但基于深度學(xué)習(xí)的行人再識別算法需要非常大的訓(xùn)練數(shù)據(jù)庫,導(dǎo)致訓(xùn)練時間長,此外還需要針對特定問題搭建相應(yīng)的模型,因此不利于方法的推廣。同時,深度學(xué)習(xí)方法中還存在調(diào)置參數(shù)缺乏理論性指導(dǎo),具有較大主觀性的問題。
基于顯著性學(xué)習(xí)的行人再識別方法近年來也受到研究者的廣泛興趣,人們可以通過行人的一些顯著信息來識別行人。CN(Color Naming)是一種有效的顯著特征,最近的研究表明其具有特殊的實際意義。Weijer等人提出了一種新的學(xué)習(xí)CN特征的方法,即將現(xiàn)實世界中的圖像的RGB值映射為11種預(yù)先定義的顏色(黑色,藍(lán)色,棕色,灰色,綠色,橙色,粉色,紫色,紅色,白色和黃色)。
和單一特征行人再識別相比,基于融合特征的行人再識別研究同時采用了中級顯著特征CN(Color Naming)和低級特征WHOS(由HSV、HOG和RGB組成),然后通過KISSME算法進(jìn)行匹配。單一特征直接匹配識別率較低,多個特征進(jìn)行融合才能保證識別效果。WHOS是一種高緯度的低級特征,由HSV、HOG、RGB三種特征組成。HSV和RGB是基于不同顏色空間的顏色直方圖,因此可以補(bǔ)償光照條件的改變。HOG是一種被證明在與行人相關(guān)的任務(wù)里特別有效的局部特征。另一方面,CN特征是一種更有辨別力的中級特征。將二者分別用PCA降維并融合可以得到更具代表性和健壯性的特征。KISSME是一種簡單并且有效的度量矩陣學(xué)習(xí)算法,它基于統(tǒng)計推斷并且被廣泛運(yùn)用。該方法雖然僅僅采用了簡單快速的KISSME算法,但是在幾個行人再識別數(shù)據(jù)集上運(yùn)行的結(jié)果都領(lǐng)先于目前最先進(jìn)的方法,甚至能夠與深度學(xué)習(xí)方法相抗衡。
畢設(shè)題目介紹
特征表示
近年來,為了得到有效并具有魯棒性的行人再識別特征表達(dá),有大量的研究方法被提出。其中,顏色作為一種最常用的外觀特征,被證明發(fā)揮了重要作用。除了不同顏色空間的直方圖(例如:RGB、HSV、YCbCr),顏色命名分布因其在最近一些研究中的優(yōu)秀表現(xiàn),被認(rèn)為是另一種有特殊意義的有效描述符。Weijer等人提出了一種新的學(xué)習(xí)CN特征的方法,即將現(xiàn)實世界中的圖像的RGB值映射為11種預(yù)先定義的顏色(黑色,藍(lán)色,棕色,灰色,綠色,橙色,粉色,紫色,紅色,白色和黃色)。Yang et al 等人提出了另一種將RGB值映射為16種顯著顏色名稱的方法,并將其應(yīng)用到了行人再識別研究中。這種方法預(yù)先計算了每個RGB值對應(yīng)顏色名稱的可能性。顏色名稱模型可以被看作是由一定數(shù)量的顏色名稱的概率分布構(gòu)成的一種新的中級顏色描述符。盡管顏色很有效,但它并不是唯一一種有效特征。其他特征,諸如:LBP紋理描述符和HOG特征,也可以與顏色組合來增強(qiáng)其魯棒性。
相似度計算
像歐式距離這樣的直接距離在行人再識別中表現(xiàn)很差。度量學(xué)習(xí)的目的是學(xué)習(xí)一個基于學(xué)習(xí)目標(biāo)的馬氏度量矩陣,使得相同行人的不同圖像之間距離更小,不同行人的圖像之間距離更遠(yuǎn)。度量學(xué)習(xí)在這些任務(wù)中已經(jīng)被證明非常成功。KISSME是一種簡單并且有效的度量矩陣學(xué)習(xí)算法,它基于統(tǒng)計推斷并且被廣泛運(yùn)用。其他度量學(xué)習(xí)法包括最大近鄰學(xué)習(xí)(LMNN),信息理論度量學(xué)習(xí)(ITML),邏輯判別度量學(xué)習(xí)(LDML)。
行人再識別中的一些預(yù)處理步驟包括但不限于人體分割和身體部分細(xì)分,其旨在消除背景的影響并考慮了人體的局部特征。還提出了一些后處理步驟,最常用的方法是將其視為排名或搜索問題,采用后級或搜索技術(shù)。
主要貢獻(xiàn)
我們提出了一種新的特征融合策略,將高緯度的低級特征WHOS(由HSV、RGB顏色直方圖和HOG組成)和低緯度的中級特征CN融合,憑借簡單的度量學(xué)習(xí)算法(KISSME)在幾個數(shù)據(jù)集上都得到了最先進(jìn)的結(jié)果。
畢設(shè)方法細(xì)節(jié)
預(yù)處理
我們的預(yù)處理程序包括兩個主要步驟:行人分割和身體部分細(xì)分。
特征表示
CN特征(參考資料4)
研究人員對于局部特征是圖像分類的有效工具存在廣泛的一致意見,因為它們對于遮擋和幾何變換具有魯棒性。在已經(jīng)被提出的描述局部特征形狀的多種方法中,SIFT描述符被發(fā)現(xiàn)是最好的一個,是目前最常用的形狀描述符。直到最近,研究人員才開始用顏色信息來豐富局部圖像描述符。顏色描述的主要挑戰(zhàn)是獲得與現(xiàn)實世界中常見的光度變化相關(guān)的魯棒性,例如陰影和陰影變化以及光源顏色的變化。因此,顏色描述符通常基于光度不變量,例如HSV和歸一化RGB。在增加不變量的同時,還需要考慮辨別力的下降。例如,光度不變性無法識別出無色的顏色,如:黑色,灰色和白色。因為從光度的角度來看,這些顏色都可以通過改變強(qiáng)度從相同的顏色中產(chǎn)生。對于完全的光度不變性在真實世界的應(yīng)用來說,由于辨別力的損失而產(chǎn)生的負(fù)面影響能否接受還值得懷疑。
在描述現(xiàn)實世界中物體的顏色時,人們使用“紅色”,“黑色”和“橄欖色”等顏色名稱。顏色名稱在視覺心理學(xué),人類學(xué)和語言學(xué)領(lǐng)域被大量研究。顏色命名是為圖像中的像素分配語言標(biāo)簽的動作,主要應(yīng)用于圖像檢索。顏色名稱具有一定程度的光度不變性。此外,顏色名稱包括了黑色,灰色和白色的標(biāo)簽。從光度不變性的角度來看,這些標(biāo)簽是不能區(qū)分的。
英文中使用的顏色名稱數(shù)量很大,包括“white”,“green”,“pastel”和“l(fā)ight blue”等標(biāo)簽。在本方法中只使用11種基本顏色標(biāo)簽:黑色,藍(lán)色,棕色,灰色,綠色,橙色,粉紅色,紫色,紅,白,黃。Berlin and Kay對這些基本顏色標(biāo)簽的定義做出了卓越貢獻(xiàn)。基本顏色標(biāo)簽不能由其他基本顏色合成得到。
為了建立一種局部特征,每個行人圖像P都被定義為m個條狀區(qū)域組成的序列。取m等于6,并且每個條狀區(qū)域大小相等。
為了消除背景噪聲的影響,全局顏色名稱描述符只計算行人區(qū)域。對每個條帶都提取顏色特征。條帶j的特征向量如下:
其中CNs是指顏色為s的可能性。我們使用顏色分布模型計算每個條帶的顏色分布。這種模型的核心是在RGB與11種預(yù)先定義的顏色分布之間建立一種對應(yīng)關(guān)系。在這個模型中,RGB被離散化為32×32×32 = 32768個索引,建立了一個32768×11個維度的查找表。對于條帶j ,顏色分布CNs定義如下:
其中,p(CNs |xRGB) 是一個確定的像素的RGB值被分配給特定顏色名稱CNs的可能性。Rj是條帶j的前景區(qū)域,N表示Rj中總共的像素值。顯然,s從1到11的CNsj的總和為1。然后通過每個條帶的CN特征串聯(lián)起來可以得到一個66維的特征向量。最后,我們使用PCA將特征維度降到m。
CN特征在具有一定光度不變性的同時具有可以區(qū)分無色的顏色:灰,黑和白的辨別力。實驗結(jié)果表明,CN描述符明顯優(yōu)于現(xiàn)有的基于顏色描述的描述符,并且適當(dāng)提升了顏色和形狀的描述能力。但是CN特征的光度不變性和HSV和RGB特征的相比是有限的,所以我們需要whos特征融合來彌補(bǔ)其在光度不變性方面的缺失。實驗證明,CN特征在光度不變性方面帶來的損失無法被辨別力的提升所補(bǔ)償。
WHOS特征
我們設(shè)計了一種基于粗糙的條紋池化的局部特征,用于行人再識別具有辨別力。它采用了一種簡單而有效的中心支持內(nèi)核,從背景中大致分割出前景。整個描述符構(gòu)造過程如圖1所示。
將給定的目標(biāo)圖像縮放到規(guī)范尺寸128x48像素,然后通過將行人圖像劃分成水平條狀區(qū)域,從每個條狀區(qū)域中提取HSV和RGB直方圖。使用以圖象為中心的Epanechnikov核函數(shù)對每個像素對其對應(yīng)的直方圖的貢獻(xiàn)進(jìn)行加權(quán)。
W和H分別是圖像的寬度和高度,也是Epanechnikov核函數(shù)唯一的參數(shù)。然后將HSV和RGB直方圖和HOG描述符連接起來。
HSV直方圖包括8×8的分組,而RGB直方圖被量化為4×4×4 的分組。針對金字塔的15個級別分別計算HSV和RGB直方圖(第一級的八條水平區(qū)域加上第二級的七條水平重疊區(qū)域)。結(jié)果是總共1920維的直方圖。
HOG特征是從由原圖像分割出的8×8的子圖像中提取出來的。每個block包含2×2的cells,每個cell由4×4像素構(gòu)成。我們只在4個方向(水平,垂直,對角線)上計算每個cell的梯度直方圖。對于48×128的圖像而言,每8×8的像素組成一個cell,每2×2個cell組成一個block,因為每個cell有4個特征,所以每個block內(nèi)有4×4=16個特征,以8個像素為步長,那么,水平方向?qū)⒂?個掃描窗口,垂直方向?qū)⒂?3個掃描窗口。也就是說,48×128的圖片,總共16×5×13=1040個特征。
一共2960個特征,求平方根。
條紋池化模型具有一定程度的姿態(tài)不變性。水平條紋具有圖像中垂直顏色分布的信息,而重疊條紋則含有相鄰條紋之間的顏色相關(guān)信息。
HS和RGB直方圖包含顏色信息,HOG特征包含局部紋理信息。 HS直方圖使用的描述符具有一定的光度不變性,而RGB直方圖能區(qū)分更多的色彩信息,特別是對于黑色和灰色。 在提取直方圖之前,需要均衡RGB色彩通道。直方圖均衡化的主要優(yōu)點(diǎn)是可以降低圖像噪聲,提升圖像的局部顯示。
Epanechnikov內(nèi)核減少了行人圖像邊界附近背景信息的影響。避免了為每個場景學(xué)習(xí)一個單獨(dú)的背景模型,更加簡單和高效。
求描述符的平方根是圖像分類中一種眾所周知的技術(shù),通過減少特征的突發(fā)性來減輕權(quán)重值很高的小改變帶來的影響。
度量矩陣學(xué)習(xí)
實驗結(jié)果
VIPeR數(shù)據(jù)集驗證
我們用于評估我們的方法的第一個數(shù)據(jù)集是VIPeR,它是行人再識別最常用和具有挑戰(zhàn)性的數(shù)據(jù)集之一,包含632個不同行人的1264張圖像。每個行人都有由不同視角的兩臺攝像機(jī)拍攝的兩幅圖像,用于測試的總?cè)藬?shù)為316。圖像縮放為128×48像素。
在這個數(shù)據(jù)集中,我們將CN特征的維度m設(shè)置成28,WHOS的維度n設(shè)置成60,所以最后得到的特征維度為88。結(jié)果如圖XX。我們可以看到當(dāng)單獨(dú)使用CN特征和KISSME算法或者WHOS特征和KISSME算法都只能達(dá)到很小的準(zhǔn)確率改善。但是當(dāng)我們采取融合策略將CN和WHOS這兩種特征融合之后獲得了非常準(zhǔn)確的結(jié)果,相比與其他方法有很大改進(jìn)。top-1 rank準(zhǔn)確率達(dá)到了XXX,是們目前所知道的最好的結(jié)果,并且大大優(yōu)于其他方法。
CAVIAR4REID數(shù)據(jù)集驗證
CAVIAR4REID數(shù)據(jù)集包含了購物中心兩臺不同視角的攝像頭拍攝的行人圖像。它包含了72個不同行人的1221張圖片,其中只有50個行人分別出現(xiàn)在了2個攝像頭中,其余22個人出現(xiàn)在同一個攝像頭中。每個人的圖像數(shù)量從2到5不等,圖像大小從17 * 39到72 * 144不等。 我們選擇了每個人的第一個和第二個圖像,并將它們調(diào)整到相等的大小。 所以在這個數(shù)據(jù)集中有72個人的144張圖像,其中用于測試的人數(shù)是36。
在這個實驗中,我們將CN特征的維度m設(shè)置成9,WHOS的維度n也設(shè)置成9,得到的融合特征維度為18,然后再用PCA將其降為9維。我們的融合策略Top-1 rank準(zhǔn)確率為XXX。結(jié)果也很相似:盡管融合策略帶來的提升不太明顯,但我們的三種方法的表現(xiàn)都優(yōu)于其他方法。
結(jié)論
我們提出了一種行人再識別的融合特征,并使用KISSME算法進(jìn)行行人匹配。該融合策略將中級顏色命名特征和低級WHOS特征組合。試驗表明我們的方法顯著的提高了識別準(zhǔn)確率并且在幾個數(shù)據(jù)集上都達(dá)到了最先進(jìn)的結(jié)果。需要提醒的是在CAVIAR4REID數(shù)據(jù)集中我們只使用了36個行人,遠(yuǎn)遠(yuǎn)少于VIPeR數(shù)據(jù)集中的行人數(shù)量,所以提升不是很明顯。