基礎
使用Haar基于特征的級聯分類器記性物體檢測是一個很有效的物體檢測方法。它是一個基于機器學習的方法,從大量積極和消極的圖像里訓練一個級聯函數。然后用來在其他圖像里檢測物體。
這里我們來做面部識別,初始狀態下,算法需要大量積極圖像(面部的圖像)和消極圖像(沒有面部的圖像)來訓練分類器。然后我們需要從里面提取特征。這用到了下面的圖像展示的haar特征。他們就像我們的卷積核一樣,每個特征是從黑色矩形的像素和里減去白色矩形的像素和得到的一個值。
現在每個核的所有可能的大小和位置都用來計算很多的特征(可以想象一下需要多啊的計算量,即使是一個24x24的窗口的結果也是超過160000個特征)。對于每個特征計算,我們需要找到黑色和白色方塊下的像素和。要解決這個,他們提出了全景圖像。它只簡單的計算像素和,像素的數量可能是多大,需要運算的只是4個像素。這會讓事情變得很快。
但是所有這些要計算的特征里,大部分是無關的,比如下面這張圖像,頂上的行顯示出兩個號的特征,第一個選擇的特征看起來集中在眼睛的區域要比鼻子和臉頰的區域要暗這個屬性上。第二個選擇的特征依賴眼睛比鼻梁要暗這個屬性。但是應用在臉頰或者其他地方的同樣的窗口是無關的,所以我們如何從160000+個特整理找到最好的特征呢?可以用Adaboost。
我們在所有訓練圖像上應用每個特征,對每個特征,它找到最佳的閾值來把臉分類成積極的和消極的。但是顯然,有誤差和分類錯誤。我們選擇錯誤率最小的特征,這表示這些特征能夠最好的分類有臉的圖和沒臉的圖。(這個過程沒那么簡單,每個圖像在開始的權重都一樣,每次分類后,錯誤分類的圖像的權重都增加,然后再次執行同樣的過程,計算新的錯誤率,新的權重。持續這個過程直到需要的準確度或者錯誤率達到標準或者直到了需要的數量的特征)
最后的分類器是這些弱分類器的加權和。他被叫做弱分類器是因為它不能分類圖像,只能和其他在一起組成強分類器。論文說即使200個特征也能提供95%的準確率。他們的最終的設置有6000個特征(想象一下從160000+個特征到6000個特征,這是個巨大的節省)
所以現在你取一個圖像,取出每個24x24的窗口,應用6000個特征。檢查是否它是臉或者不是。這是不是很美效率?是的,作者有個好辦法解決。
在圖像里,大部分圖像區域是非臉的區域,所以最好的辦法是有一個簡單辦法來檢查一個區域不是臉。如果不是臉,就把它扔掉。再也不處理。這樣我們可以有更多時間來處理有臉的區域。
它們提出了一個概念級聯分類器。不用把所有6000個特征應用到一個窗口上,而是把特征分組成不同的階段,一個一個應用。(一般最開始的幾個階段會包含非常少的特征)。如果一個窗口在最開始階段失敗了,就丟棄,我們不再上面繼續嘗試剩下的特征,如果通過,應用第二個階段的特征并持續這個過程。通過了所有階段的窗口就是臉部區域。
作者的檢測器有6000+個特征,38個階段,最開始的5個階段有1,10,25,25和50個特征(上面圖像的兩個特征實際上是從Adaboost得到的最好的兩個特征)。根據作者說的,平均來說,對于每個子窗口6000+個特征中改的10個會被評估。
這就是簡單直觀的介紹Viola-Jones面部識別是如何工作的。
OpenCV里的Haar-cascade檢測
OpenCV提供了檢測器和訓練器。如果你想訓練你自己的分類器來識別諸如汽車啊,飛機什么的,你可以使用OpenCV來創建一個。詳細內容見:Cascade Classifier Training
這里我們只看檢測器,OpenCV已經包含了很多訓練過的分類器,面部的,眼睛的,笑容的等。那些XML文件存在opencv/data/haarcascades/目錄。讓我們創建一張臉和眼的檢測器吧。
首先我們需要加載必須的XML分類器,然后用灰度模式加載我們的輸入圖像(或者視頻)。
import numpy as np
import cv2face_cascade = cv2.CascadeClassifier('haarcascade_frontalface_default.xml')
eye_cascade = cv2.CascadeClassifier('haarcascade_eye.xml')img = cv2.imread('sachin.jpg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
現在我們在圖像里找到臉。如果找到臉,它會返回檢測到的臉的位置(x, y, w,h)。當我們得到這些位置,我們可以為臉創建一個ROI然后在這個ROI上應用眼睛檢測(因為眼睛總是在臉上的!)
faces = face_cascade.detectMultiScale(gray, 1.3, 5)
for (x,y,w,h) in faces:
? ? img = cv2.rectangle(img,(x,y),(x+w,y+h),(255,0,0),2)
? ? roi_gray = gray[y:y+h, x:x+w]
? ? roi_color = img[y:y+h, x:x+w]
? ? eyes = eye_cascade.detectMultiScale(roi_gray)
? ? for (ex,ey,ew,eh) in eyes:
? ? ? ? cv2.rectangle(roi_color,(ex,ey),(ex+ew,ey+eh),(0,255,0),2)
cv2.imshow('img',img)
cv2.waitKey(0)
cv2.destroyAllWindows()
結果:
END