目標
- 在視頻數據中找到人物(稀疏)
- 關聯大量不同攝像頭捕捉到的人物
- 自動匹配和追蹤人物
Detect -> Track -> Retrieval
通常認為的Re-id只是指Retrieval這個過程
- Re-id當做identification任務時,目標類似聚類
- Re-id當做recognization任務時,目標類似Ranking
數據
- video-based
- image-based
- 個體的動作行為
- 長期的活動模式
常用數據集
最新的一些數據集
特點與困難
- 數據
- 攝像頭采集到的圖像數據的視角,環境,時間等都不同
- 攝像頭中出現的不同的人會相互干擾
- 一個人會出現在不同的攝像頭中
- 攝像距離不確定,人數不確定
- 訓練數據與真實環境不一致,搜索空間大小不確定
Detect
- object detection圈出人物的精度不能完全滿足re-id的需求
- 人工識別代價高,不準確,經驗不可遷移,需要自動re-id
Feature
- 人臉識別和圖像細節不可靠,太模糊
- 一般基于視覺特征,如衣著,持有物,但這些特征辨識度很低,且很容易受光線視角影響,而且在衣著變化大的場合直接失效
- 特征表達很受攝像頭影響
- 特征類內差異大于類間差異:同一個人在不同地方的樣子的差異大于不同人的差異
建模和系統設計
- 類間差異有時候小于類內差異
- 樣本少,因此往往不當多分類問題來做,而當做二分類問題做,給定一個人,判斷是不是同一個人
- 需要數據標記,因此需要少的訓練數據的算法往往更受青睞
- 不同攝像頭間泛化能力弱
- 性能
- 長時間的re-id,人物可能換衣服,拿不同的東西,短時的特征會變得不可靠
評價標準:
Rank-1 accuracy:匹配百分比,CMC curve:匹配的出現在rank的前x的百分比
研究熱點
- 尋找受環境影響少的feature representation
- ML優化Re-id模型
步驟
- 輸入軌跡或包含行人的矩形(可能由視頻監控系統生成)
- 提取圖像特征,而不僅是像素點
- 構建一個可視化的feature representation,比如feature的柱狀圖
- 比較特征的相似度來匹配人物
- 匹配策略可能影響特征和超參數
特征表達
提取顏色,紋理,空間結構,容易可靠測量,不同人不同攝像頭間這些特征都有一些區分度
- 通常結合多種視覺特征,做成特征直方圖,給不同特征加權重,但特征越多越可能出現圖像匹配出錯
- re-id首先要行人檢測,但行人檢測的準確度不太能滿足re-id的需求,如果沒把行人圈出來,re-id的特征提取很容易受背景影響,所以很多工作會先嘗試把行人摳出來
- 檢測不同肢體部位來判斷姿態,利用對稱特點;
- 將行人圖像分解成多個身體部位,比較不同部位之間的相似度
- 捕捉人物身體3D特征,減小對衣著的依賴
- 擁擠場所精確行人檢測很困難,捕捉行人之間的關系,re-id一群人
從視覺特征中提取語義用于re-id,比如發型,衣服風格
建模學習
- 在相關的攝像頭之間做遷移,亮度遷移,姿態遷移,背景遷移等
- 距離測量:找到一個量度差異的量,使得類中距離小,類外距離大:最近鄰,信息理論,邏輯精度,概率相關,RankSVM
- Match:最近鄰算法,support vector ranking,需要找距離的尺度,比如幾何距離等,然后調優
- 減少數據標記需求:半監督稀疏標記,遷移學習
- 把re-id當做推斷問題來做,填充稀疏數據;條件隨機場;
- 上下文:合并同一軌跡上的多個幀,集合分析, 考慮外部上下文比如人群,學習攝像機網絡的拓撲, 減少匹配搜索空間減少出錯率。
實驗環境與真實環境
- 當前數據集的局限
- 實際搜索空間巨大,會產生許多誤判,需要結合環境中其他知識來篩選,或者攝像頭拓撲推斷人物出現在某一幀的可能性:同一個人在不同攝像頭出現的時間表達了攝像頭之間的距離,尋找人群活動模式的時空關系,
人群re-id
- 基于服飾屬性的特征描述
- 工程上應用re-id成果的比較少,關注:相關性,容量,可用性。使用GPU,結合軌跡
Other Idea
- 多模態:結合紅外信號,或者其他人的能量信號:運動時,能量的轉移和消耗因人而異;利用聲音信號
- Deep learning