基礎(chǔ)
使用Haar基于特征的級聯(lián)分類器記性物體檢測是一個很有效的物體檢測方法。它是一個基于機(jī)器學(xué)習(xí)的方法,從大量積極和消極的圖像里訓(xùn)練一個級聯(lián)函數(shù)。然后用來在其他圖像里檢測物體。
這里我們來做面部識別,初始狀態(tài)下,算法需要大量積極圖像(面部的圖像)和消極圖像(沒有面部的圖像)來訓(xùn)練分類器。然后我們需要從里面提取特征。這用到了下面的圖像展示的haar特征。他們就像我們的卷積核一樣,每個特征是從黑色矩形的像素和里減去白色矩形的像素和得到的一個值。
現(xiàn)在每個核的所有可能的大小和位置都用來計(jì)算很多的特征(可以想象一下需要多啊的計(jì)算量,即使是一個24x24的窗口的結(jié)果也是超過160000個特征)。對于每個特征計(jì)算,我們需要找到黑色和白色方塊下的像素和。要解決這個,他們提出了全景圖像。它只簡單的計(jì)算像素和,像素的數(shù)量可能是多大,需要運(yùn)算的只是4個像素。這會讓事情變得很快。
但是所有這些要計(jì)算的特征里,大部分是無關(guān)的,比如下面這張圖像,頂上的行顯示出兩個號的特征,第一個選擇的特征看起來集中在眼睛的區(qū)域要比鼻子和臉頰的區(qū)域要暗這個屬性上。第二個選擇的特征依賴眼睛比鼻梁要暗這個屬性。但是應(yīng)用在臉頰或者其他地方的同樣的窗口是無關(guān)的,所以我們?nèi)绾螐?60000+個特整理找到最好的特征呢?可以用Adaboost。
我們在所有訓(xùn)練圖像上應(yīng)用每個特征,對每個特征,它找到最佳的閾值來把臉分類成積極的和消極的。但是顯然,有誤差和分類錯誤。我們選擇錯誤率最小的特征,這表示這些特征能夠最好的分類有臉的圖和沒臉的圖。(這個過程沒那么簡單,每個圖像在開始的權(quán)重都一樣,每次分類后,錯誤分類的圖像的權(quán)重都增加,然后再次執(zhí)行同樣的過程,計(jì)算新的錯誤率,新的權(quán)重。持續(xù)這個過程直到需要的準(zhǔn)確度或者錯誤率達(dá)到標(biāo)準(zhǔn)或者直到了需要的數(shù)量的特征)
最后的分類器是這些弱分類器的加權(quán)和。他被叫做弱分類器是因?yàn)樗荒芊诸悎D像,只能和其他在一起組成強(qiáng)分類器。論文說即使200個特征也能提供95%的準(zhǔn)確率。他們的最終的設(shè)置有6000個特征(想象一下從160000+個特征到6000個特征,這是個巨大的節(jié)?。?/p>
所以現(xiàn)在你取一個圖像,取出每個24x24的窗口,應(yīng)用6000個特征。檢查是否它是臉或者不是。這是不是很美效率?是的,作者有個好辦法解決。
在圖像里,大部分圖像區(qū)域是非臉的區(qū)域,所以最好的辦法是有一個簡單辦法來檢查一個區(qū)域不是臉。如果不是臉,就把它扔掉。再也不處理。這樣我們可以有更多時(shí)間來處理有臉的區(qū)域。
它們提出了一個概念級聯(lián)分類器。不用把所有6000個特征應(yīng)用到一個窗口上,而是把特征分組成不同的階段,一個一個應(yīng)用。(一般最開始的幾個階段會包含非常少的特征)。如果一個窗口在最開始階段失敗了,就丟棄,我們不再上面繼續(xù)嘗試剩下的特征,如果通過,應(yīng)用第二個階段的特征并持續(xù)這個過程。通過了所有階段的窗口就是臉部區(qū)域。
作者的檢測器有6000+個特征,38個階段,最開始的5個階段有1,10,25,25和50個特征(上面圖像的兩個特征實(shí)際上是從Adaboost得到的最好的兩個特征)。根據(jù)作者說的,平均來說,對于每個子窗口6000+個特征中改的10個會被評估。
這就是簡單直觀的介紹Viola-Jones面部識別是如何工作的。
OpenCV里的Haar-cascade檢測
OpenCV提供了檢測器和訓(xùn)練器。如果你想訓(xùn)練你自己的分類器來識別諸如汽車啊,飛機(jī)什么的,你可以使用OpenCV來創(chuàng)建一個。詳細(xì)內(nèi)容見:Cascade Classifier Training
這里我們只看檢測器,OpenCV已經(jīng)包含了很多訓(xùn)練過的分類器,面部的,眼睛的,笑容的等。那些XML文件存在opencv/data/haarcascades/目錄。讓我們創(chuàng)建一張臉和眼的檢測器吧。
首先我們需要加載必須的XML分類器,然后用灰度模式加載我們的輸入圖像(或者視頻)。
import numpy as np
import cv2face_cascade = cv2.CascadeClassifier('haarcascade_frontalface_default.xml')
eye_cascade = cv2.CascadeClassifier('haarcascade_eye.xml')img = cv2.imread('sachin.jpg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
現(xiàn)在我們在圖像里找到臉。如果找到臉,它會返回檢測到的臉的位置(x, y, w,h)。當(dāng)我們得到這些位置,我們可以為臉創(chuàng)建一個ROI然后在這個ROI上應(yīng)用眼睛檢測(因?yàn)檠劬偸窃谀樕系模。?/p>
faces = face_cascade.detectMultiScale(gray, 1.3, 5)
for (x,y,w,h) in faces:
? ? img = cv2.rectangle(img,(x,y),(x+w,y+h),(255,0,0),2)
? ? roi_gray = gray[y:y+h, x:x+w]
? ? roi_color = img[y:y+h, x:x+w]
? ? eyes = eye_cascade.detectMultiScale(roi_gray)
? ? for (ex,ey,ew,eh) in eyes:
? ? ? ? cv2.rectangle(roi_color,(ex,ey),(ex+ew,ey+eh),(0,255,0),2)
cv2.imshow('img',img)
cv2.waitKey(0)
cv2.destroyAllWindows()
結(jié)果:
END