34從傳統(tǒng)算法到深度學(xué)習(xí):目標(biāo)檢測入門實戰(zhàn) --方向梯度直方圖

什么是方向梯度直方圖

在前面的實驗 1、實驗 2 中,我們了解到傳統(tǒng)的目標(biāo)檢測流程可分為三個步驟,第一步是使用滑動窗口和圖像金字塔從圖片中選擇一些區(qū)域。第二步是將選擇出來的區(qū)域轉(zhuǎn)化為人工設(shè)計的特征,可稱為特征提取。第三步是將這些特征輸入分類器進(jìn)行分類。方向梯度直方圖(Histogram of Oriented Gradients)以下簡稱 HOG,就是一種人工設(shè)計的特征,用來簡化圖像表述的特征描述符。
下圖中左邊的圖片是一只貓,我們不僅可以看出貓身體上的特征、顏色、紋理,而且還能看到背景。右邊的圖片是使用 HOG 來表示的圖片,除了可以看到圖中能看出貓的外形,其他的細(xì)節(jié)包括背景幾乎都被去除了,故右邊的圖片是左邊圖片的一種簡化表示形式。HOG 可以用來表示物體的形狀、外形特征,將這些特征輸入分類器就可以實現(xiàn)目標(biāo)的分類。


image.png

在傳統(tǒng)的算法中,使用 HOG 描述圖片,可以保留有用信息,剔除無用的信息,這樣不僅減少計算量,還使得分類器的效果更好。HOG 可以分為以下幾個步驟:預(yù)先歸一化、計算水平和垂直方向梯度、計算梯度直方圖、區(qū)域(Blocks)歸一化。

方向梯度直方圖流程

預(yù)先歸一化(Normalization)

在計算梯度前可對圖片歸一化(Normalization)處理,歸一化的目的是使所有的數(shù)值落入到統(tǒng)一的范圍內(nèi),從而使算法能有更好的表現(xiàn)。在 HOG 的原論文中提到使用伽馬矯正的方法處理輸入圖片,伽馬矯正可以增加圖像的對比度。但是在很多情況下,伽馬矯正對提升算法效果不明顯,我們可以跳過圖片預(yù)先歸一化,直接計算圖片梯度。

計算梯度

前面提到可以不用預(yù)先對圖片進(jìn)行歸一化,故可以說 HOG 特征是從計算圖像在水平方向和垂直方向上的梯度開始的。圖像的梯度計算是使用卷積核對圖像進(jìn)行卷積操作,例如我們可以使用矩陣 [[-1, 0, 1]] 和 [[-1], [0], [1]] 分別與圖像上的每個像素進(jìn)行運(yùn)算來獲得水平和垂直方向上的梯度。


image.png

image.png

image.png

image.png

上面的兩個公式分別計算每個像素的梯度幅值G和梯度方向θ。下面左圖是合并水平、垂直方向上的梯度獲得的梯度幅值,可以看到相較于水平、垂直方向上的圖片,左圖中貓的輪廓更清晰明顯。右圖表示圖片中的梯度方向。


image.png

方向梯度直方圖

現(xiàn)在我們已經(jīng)有了梯度幅值G和梯度方向θ,接下來我們就可以計算方向梯度直方圖了。在計算方向梯度直方圖之前,我們需要將圖片分成若干個小方格(Cells),為避免歧義下文皆書寫為 Cell 或 Cells 。例如,下圖是一張寬高為649×385 的圖片,我們將其平均分割成若干個 Cells,每個 Cell 內(nèi)包含 8×8 個像素,所以圖片的高被分為 ?385÷8?=48 份,圖片的寬被分為 ?649÷8?=81 份(?? 表示向下取整),故整張圖片有48×81 個 Cells。


image.png

至此我們已經(jīng)將圖片分成許多 Cells,對于每一個 Cell,使用G和θ 來構(gòu)建方向梯度直方圖。首先我們先選擇梯度方向的范圍,梯度方向的范圍可分為 0 到 180 度(無符號)和 0 到 360 度(有符號),通常使用 0 到 180 度的范圍。然后將 0 到 180 度的范圍分成 9 個區(qū)間(bins),分別為 0 到 20 度,20 到 40 度, 40 到 60 度 …… 160 到 180 度。每個像素都有一個梯度幅值和一個梯度方向,所以方向梯度直方圖的計算就是每個像素所對應(yīng)的梯度方向落在 9 個區(qū)間中的哪一個,那么該像素的梯度幅值就在該區(qū)間中累加。
下圖是一個計算方向梯度圖的例子,對于紅色方框中的像素,假設(shè)其中有些像素對應(yīng)的梯度方向落在 0 到 20 區(qū)間,那么將這些像素對應(yīng)的梯度幅值在 0 到 20 區(qū)間內(nèi)進(jìn)行累加,同理其他區(qū)間也做同樣的運(yùn)算,最終得到下圖中右邊的方向梯度直方圖。同樣地,整張圖片中的所有 Cells 都用同樣的方法計算方向梯度直方圖。


image.png

區(qū)域(Blocks)歸一化

我們已經(jīng)將圖像分成若干個 Cells,并且計算了每個 Cell 的方向梯度直方圖。接下來我們要對圖像進(jìn)行區(qū)域歸一化處理,歸一化的目的是減少光照變化對圖像梯度的影響。 現(xiàn)在讓我們來看看如何進(jìn)行歸一化處理。
首先我們先來介紹什么是區(qū)域(Blocks),為避免歧義下文皆書寫為 Block 或 Blocks,前面我們將圖像分成若干個 Cells,每個 Cell 內(nèi)有若干個像素,類似地,一個 Block 是一塊由若干個 Cells 組成的矩形。對圖像進(jìn)行歸一化的過程類似于前面實驗學(xué)習(xí)的滑動窗口,將一個 Block 從左向右、從上向下在圖中滑動,然后在每個 Block 區(qū)域內(nèi)進(jìn)行歸一化計算。
讓我們通過下圖來理解如何通過 Blocks 對圖片進(jìn)行歸一化。 下圖中右邊圖片是我們從原圖片中選取的一部分,在這塊區(qū)域里面有若干個 Cells,我們用紅色矩形框表示一個 Blcok,紅色矩形框在圖上向右滑動一個 Cell 的步長后我們就得到了藍(lán)色矩形框,所以區(qū)域歸一化的方法就是設(shè)定一個尺寸為K×K 個 Cells 的 Block,在圖上從左向右、從上向下滑動,然后在每個 Block 內(nèi)進(jìn)行歸一化。


image.png

在每個 Block 內(nèi)有2×2 個 Cells,前面我們將梯度方向分為 9 個區(qū)間并為每個 Cell 計算了方向梯度直方圖,故每個 Cell 有 9 個向量,則在一個 Block 內(nèi)共有2×2×9 個向量。然后我們可以使用L1范數(shù)或L2范數(shù)對 Block 內(nèi)的向量進(jìn)行歸一化。其中使用L2范數(shù)進(jìn)行歸一化的效果相對較好,下面就是使用L2范數(shù)歸一化的公式,即 Block 內(nèi)的每個向量除以由 Block 內(nèi)所有向量計算得到的L2范數(shù)。其中vi表示 Block 內(nèi)的向量,? 的作用是防止出現(xiàn)分母為 0 的情況,它是一個很小的值。


image.png

從上圖中可以看出每一個 Cell 不止出現(xiàn)在一個 Block 內(nèi),也就是說一個 Cell 將被重復(fù)的用于歸一化計算中,這樣做會看似比較冗余,但是會提高特征描述的表現(xiàn)。最后對所有的 Block 完成歸一化計算,合并所有獲得的歸一化后的向量,這樣我們就完成了圖像的 HOG 特征化表示。

使用 Scikit-image 實現(xiàn)方向梯度直方圖

本節(jié)實驗我們將通過幾行簡單的代碼來實現(xiàn) HOG 算法。首先我們執(zhí)行下面命令下載需要用到的圖片。

!wget https://labfile.oss.aliyuncs.com/courses/3096/pets.jpg

然后我們從 Scikit-image 導(dǎo)入 feature 和 exposure 模塊。feature 模塊里存放著一些用于計算特征的算法,exposure 模塊具有一些直方圖處理的功能。我們還需要導(dǎo)入 cv2 模塊用于圖片的讀取。

from skimage import feature
from skimage import exposure
from matplotlib import pyplot as plt
import cv2

%matplotlib inline

接著使用 cv2.imread 函數(shù)讀取圖片。

image = cv2.imread("pets.jpg")

我們使用 feature.hog 用于計算圖片的方向梯度直方圖。該函數(shù)的參數(shù)意義如下所示。
第一個參數(shù) image 表示輸入圖像。
orientations 表示要將梯度方向分成幾個區(qū)間,這里我們將梯度方向分為 9 個區(qū)間。
pixels_per_cell 表示 Cell 的尺寸,即一個 Cell 中有幾個像素,需要傳遞一個元組給該參數(shù),我們將 (8, 8) 傳遞給該參數(shù)。
cells_per_block 表示每個 Block 的尺寸,即一個 Block 中有幾個 Cells,這里需要傳遞一個元組給該參數(shù),我們將 (2, 2) 傳遞給該參數(shù)。
transform_sqrt 表示伽馬校正,我們將 True 傳遞給該參數(shù)表示使用伽馬校正預(yù)先對圖片進(jìn)行歸一化處理。
visualize 表示可視化,將 True 傳遞給該參數(shù)表示返回 HOG 圖像。

(o, hog) = feature.hog(image, orientations=9, pixels_per_cell=(8, 8),
    cells_per_block=(2, 2), transform_sqrt=True, visualize=True)

該函數(shù)返回 2 個值,第一個值 o 是 HOG 圖像的一維展開數(shù)組。第二個值 hog 表示返回一個高和寬同輸入圖像一樣的二維數(shù)組,這個值可用于可視化方向梯度直方圖。
接下來我們使用 exposure.rescale_intensity 來調(diào)整的輸入圖片的像素值大小或像素強(qiáng)度。因為獲得的 hog 中的元素值都為被歸一化了,所以這些值都比較小,如果直接將這些值作為圖像的像素值,那么該圖像看起來像一張全黑圖片,我們需要用該函數(shù)將這些值拉伸到一個較大的范圍。

hog = exposure.rescale_intensity(hog, out_range=(0, 255))
hog = hog.astype("uint8")
hog[hog > 50] = 255

我們傳遞 2 個參數(shù)給該函數(shù),第一個參數(shù) hog 表示前面獲取的可視化二維數(shù)組。第二個參數(shù) out_range 表示將輸入圖片的像素強(qiáng)度拉伸到設(shè)定的范圍,這里我們將 hog 中的每個元素值拉伸到 (0, 255) 范圍內(nèi)。接下來我們使用 astype 方法將 hog 中的元素轉(zhuǎn)換為 uint8 類型。最后我們將 hog 中大于 50 的元素賦值為 255。
我們使用 plt.figure 創(chuàng)建畫板,參數(shù) dpi=150 表示圖像的分辨率設(shè)置為 150。最后使用 plt.imshow 函數(shù)顯示圖片。

plt.figure(dpi=150)
plt.imshow(hog, cmap = 'gray', aspect='auto')

如下圖,左邊圖片是輸入圖片,右邊是對輸入圖片使用 HOG 提取特征后的圖片,可以看到相較于左邊圖片,右邊圖片僅保留了動物的外形特征。


image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容