這些天整理專利,看到一些很有用的文章,轉(zhuǎn)發(fā)學(xué)習(xí)
【格式細(xì)節(jié)忽略,MarkDown的】
圖像處理與計(jì)算機(jī)視覺基礎(chǔ),經(jīng)典以及最近發(fā)展
By xdyang(楊曉冬 xdyang.ustc@gmail.com)
一、 緒論
1. 為什么要寫這篇文章
從 2002 年到現(xiàn)在,接觸圖像快十年了。雖然沒有做出什么很出色的工作,不過在這個領(lǐng)域摸爬滾打了十年之后,發(fā)現(xiàn)自己對圖像
處理和計(jì)算機(jī)視覺的感情越來越深厚。下班之后看看相關(guān)的書籍和文獻(xiàn)是一件很愜意的事情。平常的一大業(yè)余愛好就是收集一些相關(guān)的
文章,尤其是經(jīng)典的文章,到現(xiàn)在我的電腦里面已經(jīng)有了幾十 G 的文章。寫這個文檔的想法源于我前一段時(shí)間整理文獻(xiàn)時(shí)的一個突發(fā)奇
想,既然有這個多文獻(xiàn),何不整理出其中的經(jīng)典,抓住重點(diǎn)來閱讀,同時(shí)也可以共享給大家。于是當(dāng)時(shí)即興寫了一個《圖像處理與計(jì)算
機(jī)視覺中的經(jīng)典論文》。現(xiàn)在來看,那個文檔寫得很一般,所共享的論文也非常之有限。就算如此,還是得到了一些網(wǎng)友的夸獎,心里
感激不盡。因此,一直想下定決心把這個工作給完善,力求做到盡量全面。
本文是對現(xiàn)有的圖像處理和計(jì)算機(jī)視覺的經(jīng)典書籍(后面會有推薦)的一個補(bǔ)充。一般的圖像處理書籍都是介紹性的介紹某個方法,
在每個領(lǐng)域內(nèi)都會引用幾十上百篇參考文獻(xiàn)。有時(shí)候想深入研究這個領(lǐng)域的時(shí)候卻發(fā)現(xiàn)文獻(xiàn)太多,不知如何選擇。但實(shí)際上在每個領(lǐng)域
都有那么三五篇抑或更多是非讀不可的經(jīng)典文獻(xiàn)。這些文獻(xiàn)除了提出了很經(jīng)典的算法,同時(shí)他們的 Introduction 和 Related work 也是對所
在的領(lǐng)域很好的總結(jié)。讀通了這幾篇文獻(xiàn)也就等于深入了解了這個領(lǐng)域,比單純的看書收獲要多很多。寫本文的目的就是想把自己所了
解到的各個領(lǐng)域的經(jīng)典文章整理出來,不用迷失在參考文獻(xiàn)的汪洋大海里。
2. 圖像處理和計(jì)算機(jī)視覺的分類
按照當(dāng)前流行的分類方法,可以分為以下三部分:
A.圖像處理:對輸入的圖像做某種變換,輸出仍然是圖像,基本不涉及或者很少涉及圖像內(nèi)容的分析。比較典型的有圖像變換,圖像增
強(qiáng),圖像去噪,圖像壓縮,圖像恢復(fù),二值圖像處理等等?;陂撝档膱D像分割也屬于圖像處理的范疇。一般處理的是單幅圖像。
B.圖像分析:對圖像的內(nèi)容進(jìn)行分析,提取有意義的特征,以便于后續(xù)的處理。處理的仍然是單幅圖像。
C.計(jì)算機(jī)視覺:對圖像分析得到的特征進(jìn)行分析,提取場景的語義表示,讓計(jì)算機(jī)具有人眼和人腦的能力。這時(shí)處理的是多幅圖像或者
序列圖像,當(dāng)然也包括部分單幅圖像。
關(guān)于圖像處理,圖像分析和計(jì)算機(jī)視覺的劃分并沒有一個很統(tǒng)一的標(biāo)準(zhǔn)。一般的來說,圖像處理的書籍總會或多或少的介紹一些圖
像分析和計(jì)算機(jī)視覺的知識,比如岡薩雷斯的數(shù)字圖像處理。而計(jì)算機(jī)視覺的書籍基本上都會包括圖像處理和圖像分析,只是不會介紹
的太詳細(xì)。其實(shí)圖像處理,圖像分析和計(jì)算機(jī)視覺都可以納入到計(jì)算機(jī)視覺的范疇:圖像處理->低層視覺(low level vision),圖像分析->中間層視覺(middle level vision),計(jì)算機(jī)視覺->高層視覺(high level vision)。這是一般的計(jì)算機(jī)視覺或者機(jī)器視覺的劃分方法。在本文中,仍然按照傳統(tǒng)的方法把這個領(lǐng)域劃分為圖像處理,圖像分析和計(jì)算機(jī)視覺。
3. 圖像處理和計(jì)算機(jī)視覺開源庫以及編程語言選擇
目前在圖像處理中有兩種最重要的語言:c/c++和 matlab。它們各有優(yōu)點(diǎn):c/c++比較適合大型的工程,效率較高,而且容易轉(zhuǎn)成硬 件語言,是工業(yè)界的默認(rèn)語言之一。而 matlab 實(shí)現(xiàn)起來比較方便,適用于算法的快速驗(yàn)證,而且 matlab 有成熟的工具箱可以使用,比如 圖像處理工具箱,信號處理工具箱。
它們有一個共同的特點(diǎn):開源的資源非常多。在學(xué)術(shù)界 matlab 使用的非常多,很多作者給出的源代 碼都是 matlab 版本。最近由于 OpenCV 的興起和不斷完善,c/c++在圖像處理中的作用越來越大??偟膩碚f,c/c++和 matlab 都必須掌握, 最好是精通,當(dāng)然側(cè)重在 c/c++上對找工作會有很大幫助。計(jì)算機(jī)視覺/圖像算法/模式識別 工程師們使用的主流編程語言
1) 重中之重:編程語言之 C/C++
公司面試除了考查應(yīng)聘者的圖像處理基礎(chǔ)知識、思維邏輯和個人品性之外,在個人能力之中最重要的一條就是 C/C 的功底,很多學(xué)生朋
友們在學(xué)校求學(xué)階段并不重視 C/C++的學(xué)習(xí),導(dǎo)致找工作時(shí)處處碰壁(不過對于來參加面試的朋友,如果有較強(qiáng)的邏輯思維或圖像理論功
底,即使 C/C++ 功底弱些,企業(yè)還是會偏愛的,畢竟 C/C++ 只是一個工具,只要給些時(shí)間去鉆研還是可以調(diào)高的,但是邏輯思維能力
和圖像理論功底卻不是短時(shí)期就能提高的。不過一般邏輯思維和圖像理論比較強(qiáng)的人,其 C/C 水平也是不錯的)。
為啥要這么重視 C/C++ 呢?答案很簡單,與絕大多數(shù)其它開發(fā)語言相比:C/C++ 的應(yīng)用領(lǐng)域無法被超越、程序運(yùn)行效率無法匹敵(當(dāng)然匯
編語言除外),是使用人數(shù)最多、跨平臺最廣的語言工具(適用于 windows/linux/dsp/arm/單片機(jī),當(dāng)然還有其它一些平臺)。簡單的說,對 于多數(shù)應(yīng)用,其它語言能做的事情 C/C++ 幾乎都能做,其它語言不能做的事情 C/C++ 也可以做。
2) 輔助工具之:MATLAB
百度百科中是這么說的:“MATLAB 是美國 MathWorks 公司出品的商業(yè)數(shù)學(xué)軟件,用于算法開發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計(jì)算
的高級技術(shù)計(jì)算語言和交互式環(huán)境,主要包括 MATLAB 和 Simulink 兩大部分?!?/p>
MATLAB 本身是一個不錯的仿真、建模工具,但不適用于應(yīng)用級項(xiàng)目的開發(fā),原因很簡單:效率與 C/C++ 無法匹敵、不夸平臺。(雖然
后來出來了 codegen可以將 MATLAB 部分代碼轉(zhuǎn)換為 C++,但自動生成的還是無法與我們自己寫的并優(yōu)化的 C++代碼相比;還有 MATLAB
的 mex 接口能夠?qū)?C++與 MABLAB 接口對接,既然使用了 MATLAB 編程,那在應(yīng)用級的領(lǐng)域還是無法與純 C++相比)
簡短說說多年前做學(xué)生時(shí)的部分學(xué)習(xí)經(jīng)歷:
記得多年前上大學(xué)階段大嘴起初只跟著學(xué)校的課程學(xué)習(xí)了 MATLAB 的圖像處理相關(guān)模塊(后來才學(xué)的 C/C++ ),一開始覺得很興奮,因?yàn)?只需要編寫很少量的代碼就可以實(shí)現(xiàn)很強(qiáng)大的效果。后來大嘴進(jìn)一家計(jì)算機(jī)視覺類的公司實(shí)習(xí),發(fā)現(xiàn)公司主要用的是 C/C++ ,因?yàn)?/p>
MATLAB 效率比起 C/C++ 相差幾倍、十幾倍、甚至幾十倍,而且要命的是不跨平臺,只能用于 windows 上,后來逼的自己去學(xué)了 C/C++ , 也正因如此那以后一直到現(xiàn)在特別是當(dāng)初找工作的時(shí)候讓我受益匪淺。
對于企業(yè),特別是私企,公司除非給你充足的時(shí)間先使用 MATLAB 做完算法功能,然后再用 C/C++ 慢慢改寫,而且了解的朋友們都知 道,MATLAB 的精度與封裝的函數(shù)標(biāo)準(zhǔn)與 C/C++ 有很多不一樣,改寫起來相對麻煩一些,這樣太慢太慢太慢了,項(xiàng)目不等人啊。試問
人家成手能夠用短時(shí)間寫出 C/C++ 做圖像算法并馬上可以投入應(yīng)用,而自己卻在那邊慢慢磨 MATLAB,然后再費(fèi)老大勁改成純 C(比如需
要警覺 MATLAB 與 C++精度不一樣的問題、圖像處理基礎(chǔ)函數(shù)標(biāo)準(zhǔn)不一樣的問題),那么老板會比較喜歡誰呢?
如果大家從最初就使用 C/C++ ,雖然一開始不數(shù)量會寫的很慢,但是隨著知識量和自各種庫(比如圖像處理庫)的積累,那么總有一天 開發(fā)速度會快起來的,量的積累,質(zhì)的飛躍。
說了不少,本人并不否認(rèn) MATLAB,MATLAB 做為建模、仿真以及一些驗(yàn)證的工作(比如圖形分析和處理、圖表顯示、圖像仿真、語音 仿真等)還是不錯的,這方面大嘴絕對力挺 MATLAB,目前本人也還在使用中。
一句話:對于多數(shù)普通人來講,如果你的目標(biāo)是想進(jìn)企業(yè)做為一個實(shí)力派工程師,那么大嘴建議您以 C/C++ 為主、MATLAB 為輔助工 具做開發(fā)。
3) 輔助工具之:OPENCV
隨著 opencv 的問世,圖像算法/計(jì)算機(jī)視覺/模式識別行業(yè)的門檻兒變低了,原因有以下幾點(diǎn):
(1)opencv 是以 C/C ++為基礎(chǔ)開發(fā)出來的,適用性強(qiáng),windows 下適用 opencv 開發(fā)的圖像算法應(yīng)用效率足夠快
(2)封裝了很多基礎(chǔ)圖像處理函數(shù)和視覺算法,可謂“拿來即可用”。
(3)與嵌入式接口的統(tǒng)一趨勢,如前幾年大牛們?nèi)宋锔愠鰜淼?EMCV(基于 C/C++ ),其基礎(chǔ)架構(gòu)和接口與 opencv 基本一致,但個人認(rèn)為 EMCV很多函數(shù)功能尚不完善,目前暫時(shí)無法與 opencv 相比。今后很多人在 windows 下基于 opencv 開發(fā)后,可以較為輕松的移植到 DSP 上,這種開發(fā)模式會是一種趨勢。
說了 opencv 幾條優(yōu)點(diǎn),但本人并不贊同只依賴 opencv 做開發(fā),無論是圖像算法行業(yè)還是其它很多行業(yè),最重要的不是用什么工具,而是 自己的基礎(chǔ)知識和邏輯思維方式,opencv 封裝了很多基礎(chǔ)函數(shù),如果朋友們未搞懂其基礎(chǔ)原理便加以使用,這種方式并不利于鍛煉自己,抽空自己實(shí)現(xiàn)一下 opencv 和 MATLAB 的封裝好的那些基礎(chǔ)函數(shù)吧,久而久之,你會發(fā)現(xiàn)自己站的高度會越來越高的。
說到這里,改寫一下評述 MATLAB 時(shí)的一句話:”對于多數(shù)普通人來講,如果你的目標(biāo)是想進(jìn)企業(yè)做為一個實(shí)力派工程師,那么大嘴建 議您以 C/C ++為主、OPENCV 和 MATLAB 為輔助工具做開發(fā)?!?/p>
4) 簡單說說其它語言
其它開發(fā)語言,比如:C#,JAVA 等(還有很多很多語言,不一一舉例了)都是不錯的開發(fā)語言,各自有各自的主應(yīng)用領(lǐng)域和優(yōu)勢,也有很多很多牛人在使用,不過做圖像處理嘛,如果不偏向企業(yè)級應(yīng)用(如嵌入式中),雖然也可以用,但是了解的朋友做出來的算法效率實(shí)在不敢恭維…,又無法夸平臺,在一些不要求效率的場合還是可以用的,所以請學(xué)生朋友們慎重選擇開發(fā)語言,因?yàn)檫@與自己以后的擇業(yè)以及
職位方向有很大關(guān)系。
4. 本文的特點(diǎn)和結(jié)構(gòu),以及適合的對象
在本文面向的對象是即將進(jìn)入或者剛剛進(jìn)入圖像處理和計(jì)算機(jī)視覺領(lǐng)域的童鞋,可以在閱讀書籍的同時(shí)參閱這些文獻(xiàn),能對書中提
到的算法有比較深刻的理解。由于本文涉及到的范圍比較廣,如果能對計(jì)算機(jī)視覺的資深從業(yè)者也有一定的幫助,我將倍感欣慰。為了
不至太誤人子弟,每一篇文章都或多或少的看了一下,最不濟(jì)也看了摘要(這句話實(shí)在整理之前寫的,實(shí)際上由于精力有限,好多文獻(xiàn)都
只是大概掃了一眼,然后看了看 google 的引用數(shù),一般在 1000 以上就放上來了,把這些文章細(xì)細(xì)品味一遍也是我近一兩年之內(nèi)的目標(biāo))。
在成文的過程中,我本人也受益匪淺,希望能對大家也有所幫助。
由于個人精力和視野的關(guān)系,有一些我未涉足過的領(lǐng)域不敢斗膽推薦,只是列出了一些引用率比較高的文章,比如攝像機(jī)標(biāo)定和立
體視覺。不過將來,由于工作或者其他原因,這些領(lǐng)域也會接觸到,我會逐步增減這些領(lǐng)域的文章。盡管如此,仍然會有疏漏,忘見諒。
同時(shí)文章的挑選也夾帶了一些個人的喜好,比如我個人比較喜歡 low level 方向的,尤其是 IJCV 和 PAMI 上面的文章,因此這方面也稍微
多點(diǎn),希望不要引起您的反感。
如果有什么意見或者建議,歡迎 mail 我。文章和資源我都會在我的 csdn blog 和 sina ishare 同步更新。
本文的安排如下。第一部分是緒論。第二部分是圖像處理中所需要用到的理論基礎(chǔ),主要是這個領(lǐng)域所涉及到的一些比較好的參考
書籍。第三部分是計(jì)算機(jī)視覺中所涉及到的信號處理和模式識別文章。由于圖像處理與圖像分析太難區(qū)分了,第四部分集中討論了它們。
第五部分是計(jì)算機(jī)視覺部分。最后是小結(jié)。
二、 圖像處理與計(jì)算機(jī)視覺相關(guān)的書籍
1. 數(shù)學(xué)
我們所說的圖像處理實(shí)際上就是數(shù)字圖像處理,是把真實(shí)世界中的連續(xù)三維隨機(jī)信號投影到傳感器的二維平面上,采樣并量化后得
到二維矩陣。數(shù)字圖像處理就是二維矩陣的處理,而從二維圖像中恢復(fù)出三維場景就是計(jì)算機(jī)視覺的主要任務(wù)之一。這里面就涉及到了
圖像處理所涉及到的三個重要屬性:連續(xù)性,二維矩陣,隨機(jī)性。所對應(yīng)的數(shù)學(xué)知識是高等數(shù)學(xué)(微積分),線性代數(shù)(矩陣論),概
率論和隨機(jī)過程。這三門課也是考研數(shù)學(xué)的三個組成部分,構(gòu)成了圖像處理和計(jì)算機(jī)視覺最基礎(chǔ)的數(shù)學(xué)基礎(chǔ)。如果想要更進(jìn)一步,就要
到網(wǎng)上搜搜林達(dá)華推薦的數(shù)學(xué)書目了。
2. 信號處理
圖像處理其實(shí)就是二維和三維信號處理,而處理的信號又有一定的隨機(jī)性,因此經(jīng)典信號處理和隨機(jī)信號處理都是圖像處理和計(jì)算機(jī)視覺中必備的理論基礎(chǔ)。
2.1 經(jīng)典信號處理
信號與系統(tǒng)(第 2 版) Alan V.Oppenheim 等著 劉樹棠譯
離散時(shí)間信號處理(第 2 版) A.V.奧本海姆等著 劉樹棠譯
數(shù)字信號處理:理論算法與實(shí)現(xiàn) 胡廣書 (編者)
2.2 隨機(jī)信號處理
現(xiàn)代信號處理 張賢達(dá)著
統(tǒng)計(jì)信號處理基礎(chǔ):估計(jì)與檢測理論 Steven M.Kay 等著 羅鵬飛等譯
自適應(yīng)濾波器原理(第 4 版) Simon Haykin 著 鄭寶玉等譯
2.3 小波變換
信號處理的小波導(dǎo)引:稀疏方法(原書第 3 版) tephane Malla 著, 戴道清等譯
2.4 信息論
信息論基礎(chǔ)(原書第 2 版) Thomas M.Cover 等著 阮吉壽等譯
3. 模式識別
Pattern Recognition and Machine Learning Bishop, Christopher M. Springer
模式識別(英文版)(第 4 版) 西奧多里德斯著
Pattern Classification (2nd Edition) Richard O. Duda 等著
Statistical Pattern Recognition, 3rd Edition Andrew R. Webb 等著
模式識別(第 3 版) 張學(xué)工著
4. 圖像處理與計(jì)算機(jī)視覺的書籍推薦
圖像處理,分析與機(jī)器視覺 第三版 Sonka 等著 艾海舟等譯
Image Processing, Analysis and Machine Vision
(附:這本書是圖像處理與計(jì)算機(jī)視覺里面比較全的一本書了,幾乎涵蓋了圖像視覺領(lǐng)域的各個方面。中文版的個人感覺也還可以,值
得一看。)
數(shù)字圖像處理 第三版 岡薩雷斯等著
Digital Image Processing
(附:數(shù)字圖像處理永遠(yuǎn)的經(jīng)典,現(xiàn)在已經(jīng)出到了第三版,相當(dāng)給力。我的導(dǎo)師曾經(jīng)說過,這本書寫的很優(yōu)美,對寫英文論文也很有幫助,
建議購買英文版的。)
計(jì)算機(jī)視覺:理論與算法 Richard Szeliski 著
Computer Vision: Theory and Algorithm
(附:微軟的 Szeliski 寫的一本最新的計(jì)算機(jī)視覺著作。內(nèi)容非常豐富,尤其包括了作者的研究興趣,比如一般的書里面都沒有的 Image
Stitching 和 Image Matting 等。這也從另一個側(cè)面說明這本書的通用性不如 Sonka 的那本。不過作者開放了這本書的電子版,可以有選擇
性的閱讀。
計(jì)算機(jī)視覺:一種現(xiàn)代方法 DA Forsyth 等著
Computer Vision: A Modern Approach
MIT 的經(jīng)典教材。雖然已經(jīng)過去十年了,還是值得一讀。期待第二版
Machine vision: theory, algorithms, practicalities 第三版 Davies 著
(附:為數(shù)不多的英國人寫的書,偏向于工業(yè)應(yīng)用。)數(shù)字圖像處理 第四版 Pratt 著
Digital Image Processing
(附:寫作風(fēng)格獨(dú)樹一幟,也是圖像處理領(lǐng)域很不錯的一本書。網(wǎng)上也可以找到非常清晰的電子版。)
5. 小結(jié)
羅嗦了這么多,實(shí)際上就是幾個建議:
(1)基礎(chǔ)書千萬不可以扔,也不能低價(jià)處理給同學(xué)或者師弟師妹。不然到時(shí)候還得一本本從書店再買回來的。錢是一方面的問題,對著
全新的書看完全沒有看自己當(dāng)年上過的課本有感覺。
(2)遇到有相關(guān)的課,果斷選修或者蹭之,比如隨機(jī)過程,小波分析,模式識別,機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,現(xiàn)代信號處理甚至泛函。多一
些理論積累對將來科研和工作都有好處。
(3)資金允許的話可以多囤一些經(jīng)典的書,有的時(shí)候從牙縫里面省一點(diǎn)都可以買一本好書。不過千萬不要像我一樣只囤不看。
三、 計(jì)算機(jī)視覺中的信號處理與模式識別
從本章開始,進(jìn)入本文的核心章節(jié)。一共分三章,分別講述信號處理與模式識別,圖像處理與分析以及計(jì)算機(jī)視覺。與其說是講述,
不如說是一些經(jīng)典文章的羅列以及自己的簡單點(diǎn)評。與前一個版本不同的是,這次把所有的文章按類別歸了類,并且增加了很多文獻(xiàn)。
分類的時(shí)候并沒有按照傳統(tǒng)的分類方法,而是劃分成了一個個小的門類,比如 SIFT,Harris 都作為了單獨(dú)的一類,雖然它們都可以劃分
到特征提取里面去。這樣做的目的是希望能突出這些比較實(shí)用且比較流行的方法。為了以后維護(hù)的方便,按照字母順序排的序。
1. Boosting
Boosting 是最近十來年來最成功的一種模式識別方法之一,個人認(rèn)為可以和 SVM 并稱為模式識別雙子星。它真正實(shí)現(xiàn)了“三個臭皮匠,
賽過諸葛亮”。只要保證每個基本分類器的正確率超過 50%,就可以實(shí)現(xiàn)組合成任意精度的分類器。這樣就可以使用最簡單的線性分類器。
Boosting 在計(jì)算機(jī)視覺中的最成功的應(yīng)用無疑就是 Viola-Jones 提出的基于 Haar 特征的人臉檢測方案。聽起來似乎不可思議,但
Haar+Adaboost 確實(shí)在人臉檢測上取得了巨大的成功,已經(jīng)成了工業(yè)界的事實(shí)標(biāo)準(zhǔn),并且逐步推廣到其他物體的檢測。
Rainer Lienhart 在 2002 ICIP 發(fā)表的這篇文章是 Haar+Adaboost 的最好的擴(kuò)展,他把原始的兩個方向的 Haar 特征擴(kuò)展到了四個方向,他本
人是 OpenCV 積極的參與者?,F(xiàn)在 OpenCV 的庫里面實(shí)現(xiàn)的 Cascade Classification 就包含了他的方法。這也說明了盛會(如 ICIP,ICPR,
ICASSP)也有好文章啊,只要用心去發(fā)掘。
[1997] A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting
[1998] Boosting the margin A new explanation for the effectiveness of voting methods
[2002 ICIP TR] Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection
[2003] The Boosting Approach to Machine Learning An Overview
[2004 IJCV] Robust Real-time Face Detection
2. Clustering
聚類主要有 K 均值聚類,譜聚類和模糊聚類。在聚類的時(shí)候如果自動確定聚類中心的數(shù)目是一個一直沒有解決的問題。不過這也很正常,
評價(jià)標(biāo)準(zhǔn)不同,得到的聚類中心數(shù)目也不一樣。不過這方面還是有一些可以參考的文獻(xiàn),在使用的時(shí)候可以基于這些方法設(shè)計(jì)自己的準(zhǔn)
則。關(guān)于聚類,一般的模式識別書籍都介紹的比較詳細(xì),不過關(guān)于 cluster validity 講的比較少,可以參考下面的文章看看。
[1989 PAMI] Unsupervised Optimal Fuzzy Clustering
[1991 PAMI] A validity measure for fuzzy clustering
[1995 PAMI] On cluster validity for the fuzzy c-means model
[1998] Some New Indexes of Cluster Validity[1999 ACM] Data Clustering A Review
[1999 JIIS] On Clustering Validation Techniques
[2001] Estimating the number of clusters in a dataset via the Gap statistic
[2001 NIPS] On Spectral Clustering
[2002] A stability based method for discovering structure in clustered data
[2007] A tutorial on spectral clustering
3. Compressive Sensing
最近大紅大紫的壓縮感知理論。
[2006 TIT] Compressed Sensing
[2008 SPM] An Introduction to Compressive Sampling
[2011 TSP] Structured Compressed Sensing From Theory to Applications
4. Decision Trees
對決策樹感興趣的同學(xué)這篇文章是非看不可的了。
[1986] Introduction to Decision Trees
5. Dynamical Programming
動態(tài)規(guī)劃也是一個比較使用的方法,這里挑選了一篇 PAMI 的文章以及一篇 Book Chapter
[1990 PAMI] using dynamic programming for solving variational problems in vision
[Book Chapter] Dynamic Programming
6. Expectation Maximization
EM 是計(jì)算機(jī)視覺中非常常見的一種方法,尤其是對參數(shù)的估計(jì)和擬合,比如高斯混合模型。EM 和 GMM 在 Bishop 的 PRML 里單獨(dú)的
作為一章,講的很不錯。關(guān)于 EM 的 tutorial,網(wǎng)上也可以搜到很多。
[1977] Maximum likelihood from incomplete data via the EM algorithm
[1996 SPM] The Expectation-Maximzation Algorithm
7. Graphical Models
伯克利的喬丹大師的 Graphical Model,可以配合這 Bishop 的 PRML 一起看。
[1999 ML] An Introduction to Variational Methods for Graphical Models
8. Hidden Markov Model
HMM 在語音識別中發(fā)揮著巨大的作用。在信號處理和圖像處理中也有一定的應(yīng)用。最早接觸它是跟小波和檢索相關(guān)的,用 HMM 來描述
小波系數(shù)之間的相互關(guān)系,并用來做檢索。這里提供一篇 1989 年的經(jīng)典綜述,幾篇 HMM 在小波,分割,檢索和紋理上的應(yīng)用以及一本
比較早的中文電子書,現(xiàn)在也不知道作者是誰,在這里對作者表示感謝。
[1989 ] A tutorial on hidden markov models and selected applications in speech recognition
[1998 TSP] Wavelet-based statistical signal processing using hidden Markov models
[2001 TIP] Multiscale image segmentation using wavelet-domain hidden Markov models
[2002 TMM] Rotation invariant texture characterization and retrieval using steerable wavelet-domain hidden Markov models
[2003 TIP] Wavelet-based texture analysis and synthesis using hidden Markov models
Hmm Chinese book.pdf
9. Independent Component Analysis
同 PCA 一樣,獨(dú)立成分分析在計(jì)算機(jī)視覺中也發(fā)揮著重要的作用。這里介紹兩篇綜述性的文章,最后一篇是第二篇的 TR 版本,內(nèi)容差
不多,但比較清楚一些。
[1999] Independent Component Analysis A Tutorial
[2000 NN] Independent component analysis algorithms and applications
[2000] Independent Component Analysis Algorithms and Applications
10. Information Theory
計(jì)算機(jī)視覺中的信息論。這方面有一本很不錯的書 Information Theory in Computer Vision and Pattern Recognition。這本書有電子版,如果
需要用到的話,也可以參考這本書。
[1995 NC] An Information-Maximization Approach to Blind Separation and Blind Deconvolution
[2010] An information theory perspective on computational vision
11. Kalman Filter
這個話題在張賢達(dá)老師的現(xiàn)代信號處理里面講的比較深入,還給出了一個有趣的例子。這里列出了 Kalman 的最早的論文以及幾篇綜述,
還有 Unscented Kalman Filter。同時(shí)也有一篇 Kalman Filter 在跟蹤中的應(yīng)用以及兩本電子書。
[1960 Kalman] A New Approach to Linear Filtering and Prediction Problems Kalman
[1970] Least-squares estimation_from Gauss to Kalman
[1997 SPIE] A New Extension of the Kalman Filter to Nonlinear System
[2000] The Unscented Kalman Filter for Nonlinear Estimation
[2001 Siggraph] An Introduction to the Kalman Filter_full
[2003] A Study of the Kalman Filter applied to Visual Tracking
12. Pattern Recognition and Machine Learning
模式識別名氣比較大的幾篇綜述
[2000 PAMI] Statistical pattern recognition a review
[2004 CSVT] An Introduction to Biometric Recognition
[2010 SPM] Machine Learning in Medical Imaging
13. Principal Component Analysis
著名的 PCA,在特征的表示和特征降維上非常有用。
[2001 PAMI] PCA versus LDA
[2001] Nonlinear component analysis as a kernel eigenvalue problem
[2002] A Tutorial on Principal Component Analysis
[2009] A Tutorial on Principal Component Analysis
[2011] Robust Principal Component Analysis
[Book Chapter] Singular Value Decomposition and Principal Component Analysis
14. Random Forest
隨機(jī)森林
[2001 ML] Random Forests
15. RANSAC
隨機(jī)抽樣一致性方法,與傳統(tǒng)的最小均方誤差等完全是兩個路子。在 Sonka 的書里面也有提到。[2009 BMVC] Performance Evaluation of RANSAC Family
16. Singular Value Decomposition
對于非方陣來說,就是 SVD 發(fā)揮作用的時(shí)刻了。一般的模式識別書都會介紹到 SVD。這里列出了 K-SVD 以及一篇 Book Chapter
[2006 TSP] K-SVD An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation
[Book Chapter] Singular Value Decomposition and Principal Component Analysis
17. Sparse Representation
這里主要是 Proceeding of IEEE 上的幾篇文章
[2009 PAMI] Robust Face Recognition via Sparse Representation
[2009 PIEEE] Image Decomposition and Separation Using Sparse Representations An Overview
[2010 PIEEE] Dictionaries for Sparse Representation Modeling
[2010 PIEEE] It's All About the Data
[2010 PIEEE] Matrix Completion With Noise
[2010 PIEEE] On the Role of Sparse and Redundant Representations in Image Processing
[2010 PIEEE] Sparse Representation for Computer Vision and Pattern Recognition
[2011 SPM] Directionary Learning
18.Support Vector Machines
[1998] A Tutorial on Support Vector Machines for Pattern Recognition
[2004] LIBSVM A Library for Support Vector Machines
19. Wavelet
在小波變換之前,時(shí)頻分析的工具只有傅立葉變換。眾所周知,傅立葉變換在時(shí)域沒有分辨率,不能捕捉局部頻域信息。雖然短時(shí)傅立
葉變換克服了這個缺點(diǎn),但只能刻畫恒定窗口的頻率特性,并且不能很好的擴(kuò)展到二維。小波變換的出現(xiàn)很好的解決了時(shí)頻分析的問題,
作為一種多分辨率分析工具,在圖像處理中得到了極大的發(fā)展和應(yīng)用。在小波變換的發(fā)展過程中,有幾個人是不得不提的,Mallat,
Daubechies,Vetteri, M.N.Do, Swelden,Donoho。Mallat 和 Daubechies 奠定了第一代小波的框架,他們的著作更是小波變換的必讀之 作,相對來說,小波十講太偏數(shù)學(xué)了,比較難懂。而 Mallat 的信號處理的小波導(dǎo)引更偏應(yīng)用一點(diǎn)。Swelden 提出了第二代小波,使小波變 換能夠快速方便的實(shí)現(xiàn),他的功勞有點(diǎn)類似于 FFT。而 Donoho,Vetteri,Mallat 及其學(xué)生們提出了 Ridgelet, Curvelet, Bandelet,Contourlet
等幾何小波變換,讓小波變換有了方向性,更便于壓縮,去噪等任務(wù)。尤其要提的是 M.N.Do,他是一個越南人,得過 IMO 的銀牌,在
這個領(lǐng)域著作頗豐。我們國家每年都有 5 個左右的 IMO 金牌,希望也有一兩個進(jìn)入這個領(lǐng)域,能夠也讓我等也敬仰一下。而不是一股腦
的都進(jìn)入金融,管理這種跟數(shù)學(xué)沒有多大關(guān)系的行業(yè),呵呵。很希望能看到中國的陶哲軒,中國的 M.N.Do。
說到小波,就不得不提 JPEG2000。在 JPEG2000 中使用了 Swelden 和 Daubechies 提出的用提升算法實(shí)現(xiàn)的 9/7 小波和 5/3 小波。如果對 比 JPEG 和 JPEG2000,就會發(fā)現(xiàn) JPEG2000 比 JPEG 在性能方面有太多的提升。本來我以為 JPEG2000 的普及只是時(shí)間的問題。但現(xiàn)在看 來,這個想法太 Naive 了。現(xiàn)在已經(jīng)過去十幾年了,JPEG2000 依然沒有任何出頭的跡象。不得不說,工業(yè)界的慣性力量太強(qiáng)大了。如果以前的東西沒有什么硬傷的話,想改變太難了。不巧的是,JPEG2000 的種種優(yōu)點(diǎn)在最近的硬件上已經(jīng)有了很大的提升。壓縮率?現(xiàn)在動 輒 1T,2T 的硬盤,沒人太在意壓縮率。漸進(jìn)傳輸?現(xiàn)在的網(wǎng)速包括無線傳輸?shù)乃俣纫呀?jīng)相當(dāng)快了,漸進(jìn)傳輸也不是什么優(yōu)勢。感覺現(xiàn)在 做圖像壓縮越來越?jīng)]有前途了,從最近的會議和期刊文檔也可以看出這個趨勢。不管怎么說,JPEG2000 的 Overview 還是可以看看的。
[1989 PAMI] A theory for multiresolution signal decomposition__the wavelet representation
[1996 PAMI] Image Representation using 2D Gabor Wavelet
[1998 ] FACTORING WAVELET TRANSFORMS INTO LIFTING STEPS
[1998] The Lifting Scheme_ A Construction Of Second Generation Wavelets
[2000 TCE] The JPEG2000 still image coding system_ an overview
[2002 TIP] The curvelet transform for image denoising
[2003 TIP] Gray and color image contrast enhancement by the curvelet transform[2003 TIP] Mathematical Properties of the jpeg2000 wavelet filters
[2003 TIP] The finite ridgelet transform for image representation
[2005 TIP] Sparse Geometric Image Representations With Bandelets
[2005 TIP] The Contourlet Transform_ An Efficient Directional Multiresolution Image Representation
[2010 SPM] The Curvelet Transform
四、 圖像處理與分析
本章主要討論圖像處理與分析。雖然后面計(jì)算機(jī)視覺部分的有些內(nèi)容比如特征提取等也可以歸結(jié)到圖像分析中來,但鑒于它們與計(jì)算機(jī)
視覺的緊密聯(lián)系,以及它們的出處,沒有把它們納入到圖像處理與分析中來。同樣,這里面也有一些也可以劃歸到計(jì)算機(jī)視覺中去。這
都不重要,只要知道有這么個方法,能為自己所用,或者從中得到靈感,這就夠了。
1. Bilateral Filter
Bilateral Filter 俗稱雙邊濾波器是一種簡單實(shí)用的具有保持邊緣作用的平緩濾波器,由 Tomasi 等在 1998 年提出。它現(xiàn)在已經(jīng)發(fā)揮著重大
作用,尤其是在 HDR 領(lǐng)域。
[1998 ICCV] Bilateral Filtering for Gray and Color Images
[2008 TIP] Adaptive Bilateral Filter for Sharpness Enhancement and Noise Removal
2. Color
如果對顏色的形成有一定的了解,能比較深刻的理解一些算法。這方面推薦岡薩雷斯的數(shù)字圖像處理中的相關(guān)章節(jié)以及 Sharma 在 Digital
Color Imaging Handbook 中的第一章“Color fundamentals for digital imaging”。跟顏色相關(guān)的知識包括 Gamma,顏色空間轉(zhuǎn)換,顏色索引以
及膚色模型等,這其中也包括著名的 EMD。
[1991 IJCV] Color Indexing
[2000 IJCV] The Earth Mover's Distance as a Metric for Image Retrieval
[2001 PAMI] Color invariance
[2002 IJCV] Statistical Color Models with Application to Skin Detection
[2003] A review of RGB color spaces
[2007 PR]A survey of skin-color modeling and detection methods
Gamma.pdf
GammaFAQ.pdf
3. Compression and Encoding
個人以為圖像壓縮編碼并不是當(dāng)前很熱的一個話題,原因前面已經(jīng)提到過。這里可以看看一篇對編碼方面的展望文章
[2005 IEEE] Trends and perspectives in image and video coding
4. Contrast Enhancement
對比度增強(qiáng)一直是圖像處理中的一個恒久話題,一般來說都是基于直方圖的,比如直方圖均衡化。岡薩雷斯的書里面對這個話題講的比
較透徹。這里推薦幾篇個人認(rèn)為不錯的文章。
[2002 IJCV] Vision and the Atmosphere
[2003 TIP] Gray and color image contrast enhancement by the curvelet transform
[2006 TIP] Gray-level grouping (GLG) an automatic method for optimized image contrast enhancement-part II
[2006 TIP] Gray-level grouping (GLG) an automatic method for optimized image contrast Enhancement-part I[2007 TIP] Transform Coefficient Histogram-Based Image Enhancement Algorithms Using Contrast Entropy
[2009 TIP] A Histogram Modification Framework and Its Application for Image Contrast Enhancement
5. Deblur (Restoration)
圖像恢復(fù)或者圖像去模糊一直是一個非常難的問題,尤其是盲圖像恢復(fù)。港中文的 jiaya jia 老師在這方面做的不錯,他在主頁也給出了可
執(zhí)行文件。這方面的內(nèi)容也建議看岡薩雷斯的書。這里列出了幾篇口碑比較好的文獻(xiàn),包括古老的 Richardson-Lucy 方法,幾篇盲圖像恢
復(fù)的綜述以及最近的幾篇文章,尤以 Fergus 和 Jiaya Jia 的為經(jīng)典。
[1972] Bayesian-Based Iterative Method of Image Restoration
[1974] an iterative technique for the rectification of observed distributions
[1990 IEEE] Iterative methods for image deblurring
[1996 SPM] Blind Image Deconvolution
[1997 SPM] Digital image restoration
[2005] Digital Image Reconstruction - Deblurring and Denoising
[2006 Siggraph] Removing Camera Shake from a Single Photograph
[2008 Siggraph] High-quality Motion Deblurring from a Single Image
[2011 PAMI] Richardson-Lucy Deblurring for Scenes under a Projective Motion Path
6. Dehazing and Defog
嚴(yán)格來說去霧化也算是圖像對比度增強(qiáng)的一種。這方面最近比較好的工作就是 He kaiming 等提出的 Dark Channel 方法。這篇論文也獲得
了 2009 的 CVPR 最佳論文獎。2 這位 003 年的廣東高考狀元已經(jīng)于 2011 年從港中文博士畢業(yè)加入 MSRA(估計(jì)當(dāng)時(shí)也就二十五六歲吧),
相當(dāng)了不起。
[2008 Siggraph] Single Image Dehazing
[2009 CVPR] Single Image Haze Removal Using Dark Channel Prior
[2011 PAMI] Single Image Haze Removal Using Dark Channel Prior
7. Denoising
圖像去噪也是圖像處理中的一個經(jīng)典問題,在數(shù)碼攝影中尤其重要。主要的方法有基于小波的方法和基于偏微分方程的方法。
[1992 SIAM] Image selective smoothing and edge detection by nonlinear diffusion. II
[1992 SIAM] Image selective smoothing and edge detection by nonlinear diffusion
[1992] Nonlinear total variation based noise removal algorithms
[1994 SIAM] Signal and image restoration using shock filters and anisotropic diffusion
[1995 TIT] De-noising by soft-thresholding
[1998 TIP] Orientation diffusions
[2000 TIP] Adaptive wavelet thresholding for image denoising and compression
[2000 TIP] Fourth-order partial differential equations for noise removal
[2001] Denoising through wavelet shrinkage
[2002 TIP] The Curvelet Transform for Image Denoising
[2003 TIP] Noise removal using fourth-order partial differential equation with applications to medical magnetic resonance images in space and time
[2008 PAMI] Automatic Estimation and Removal of Noise from a Single Image
[2009 TIP] Is Denoising Dead
8. Edge Detection
邊緣檢測也是圖像處理中的一個基本任務(wù)。傳統(tǒng)的邊緣檢測方法有基于梯度算子,尤其是 Sobel 算子,以及經(jīng)典的 Canny 邊緣檢測。到
現(xiàn)在,Canny 邊緣檢測及其思想仍在廣泛使用。關(guān)于 Canny 算法的具體細(xì)節(jié)可以在 Sonka 的書以及 canny 自己的論文中找到,網(wǎng)上也可
以搜到。最快最直接的方法就是看 OpenCV 的源代碼,非常好懂。在邊緣檢測方面,Berkeley 的大牛 J Malik 和他的學(xué)生在 2004 年的 PAMI提出的方法效果非常好,當(dāng)然也比較復(fù)雜。在復(fù)雜度要求不高的情況下,還是值得一試的。MIT 的 Bill Freeman 早期的代表作 Steerable Filter
在邊緣檢測方面效果也非常好,并且便于實(shí)現(xiàn)。這里給出了幾篇比較好的文獻(xiàn),包括一篇最新的綜述。邊緣檢測是圖像處理和計(jì)算機(jī)視
覺中任何方向都無法逃避的一個問題,這方面研究多深都不為過。
[1980] theory of edge detection
[1983 Canny Thesis] find edge
[1986 PAMI] A Computational Approach to Edge Detection
[1990 PAMI] Scale-space and edge detection using anisotropic diffusion
[1991 PAMI] The design and use of steerable filters
[1995 PR] Multiresolution edge detection techniques
[1996 TIP] Optimal edge detection in two-dimensional images
[1998 PAMI] Local Scale Control for Edge Detection and Blur Estimation
[2003 PAMI] Statistical edge detection_ learning and evaluating edge cues
[2004 IEEE] Edge Detection Revisited
[2004 PAMI] Design of steerable filters for feature detection using canny-like criteria
[2004 PAMI] Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues
[2011 IVC] Edge and line oriented contour detection State of the art
9. Graph Cut
基于圖割的圖像分割算法。在這方面沒有研究,僅僅列出幾篇引用比較高的文獻(xiàn)。這里又見 J Malik,當(dāng)然還有華人杰出學(xué)者 Jianbo Shi,
他的主頁非常搞笑,在醒目的位置標(biāo)注 Do not fly China Eastern Airlines ... 看來是被坑過,而且坑的比較厲害。這個領(lǐng)域,俄羅斯人比較
厲害。
[2000 PAMI] Normalized cuts and image segmentation
[2001 PAMI] Fast approximate energy minimization via graph cuts
[2004 PAMI] What energy functions can be minimized via graph cuts
10. Hough Transform
雖然霍夫變換可以擴(kuò)展到廣義霍夫變換,但最常用的還是檢測圓和直線。這方面同樣推薦看 OpenCV 的源代碼,一目了然。Matas 在 2000
年提出的 PPHT 已經(jīng)集成到 OpenCV 中去了。
[1986 CVGIU] A Survey of the Hough Transform
[1989] A Comparative study of Hough transform methods for circle finding
[1992 PAMI] Shapes recognition using the straight line Hough transform_ theory and generalization
[1997 PR] Extraction of line features in a noisy image
[2000 CVIU] Robust Detection of Lines Using the Progressive Probabilistic Hough Transform
11. Image Interpolation
圖像插值,偶爾也用得上。一般來說,雙三次也就夠了
[2000 TMI] Interpolation revisited
12. Image Matting
也就是最近,我才知道這個詞翻譯成中文是摳圖,比較難聽,不知道是誰開始這么翻譯的。沒有研究,請看文章以及 Richard Szeliski 的
相關(guān)章節(jié)。以色列美女 Levin 在這方面有兩篇 PAMI。
[2008 Fnd] Image and Video Matting A Survey
[2008 PAMI] A Closed-Form Solution to Natural Image Matting[2008 PAMI] Spectral Matting
13. Image Modeling
圖像的統(tǒng)計(jì)模型。這方面有一本專門的著作 Natural Image Statistics
[1994] The statistics of natural images
[2003 JMIV] On Advances in Statistical Modeling of Natural Images
[2009 IJCV] Fields of Experts
[2009 PAMI] Modeling multiscale subbands of photographic images with fields of Gaussian scale mixtures
14. Image Quality Assessment
在圖像質(zhì)量評價(jià)方面,Bovik 是首屈一指的。這位老師也很有意思,作為編輯出版了很多書。他也是 IEEE 的 Fellow
[2004 TIP] Image quality assessment from error visibility to structural similarity
[2011 TIP] blind image quality assessment From Natural Scene Statistics to Perceptual Quality
15. Image Registration
圖像配準(zhǔn)最早的應(yīng)用在醫(yī)學(xué)圖像上,在圖像融合之前需要對圖像進(jìn)行配準(zhǔn)。在現(xiàn)在的計(jì)算機(jī)視覺中,配準(zhǔn)也是一個需要理解的概念,比
如跟蹤,拼接等。在 KLT 中,也會涉及到配準(zhǔn)。這里主要是綜述文獻(xiàn)。
[1992 MIA] Image matching as a diffusion process
[1992 PAMI] A Method for Registration of 3-D shapes
[1992] a survey of image registration techniques
[1998 MIA] A survey of medical image registration
[2003 IVC] Image registration methods a survey
[2003 TMI] Mutual-Information-Based Registration of Medical Survey
[2011 TIP] Hairis registration
16. Image Retrieval
圖像檢索曾經(jīng)很熱,在 2000 年之后似乎消停了一段時(shí)間。最近各種圖像的不變性特征提出來之后,再加上互聯(lián)網(wǎng)搜索的商業(yè)需求,這個
方向似乎又要火起來了,尤其是在商業(yè)界,比如淘淘搜。這仍然是一個非常值得關(guān)注的方面。而且圖像檢索與目標(biāo)識別具有相通之處,
比如特征提取和特征降維。這方面的文章值得一讀。在最后給出了兩篇 Book chapter,其中一篇還是中文的。
[2000 PAMI] Content-based image retrieval at the end of the early years
[2000 TIP] PicToSeek Combining Color and Shape Invariant Features for Image Retrieval
[2002] Content-Based Image Retrieval Systems A Survey
[2008] Content-Based Image Retrieval-Literature Survey
[2010] Plant Image Retrieval Using Color,Shape and Texture Features
[2012 PAMI] A Multimedia Retrieval Framework Based on Semi-Supervised Ranking and Relevance Feedback
CBIR Chinese
fundament of cbir
17. Image Segmentation
圖像分割,非?;镜址浅ky的一個問題。建議看 Sonka 和岡薩雷斯的書。這里給出幾篇比較好的文章,再次看到了 J Malik。他們給
出了源代碼和測試集,有興趣的話可以試試。
[2004 IJCV] Efficient Graph-Based Image Segmentation
[2008 CVIU] Image segmentation evaluation A survey of unsupervised methods
[2011 PAMI] Contour Detection and Hierarchical Image Segmentation18. Level Set
大名鼎鼎的水平集,解決了 Snake 固有的缺點(diǎn)。Level set 的兩位提出者 Sethian 和 Osher 最后反目,實(shí)在讓人遺憾。個人以為,這種方法 除了迭代比較費(fèi)時(shí),在真實(shí)場景中的表現(xiàn)讓人生疑。不過,2008 年 ECCV 上的 PWP 方法在結(jié)果上很吸引人。在重初始化方面,Chunming Li 給出了比較好的解決方案
[1995 PAMI] Shape modeling with front propagation_ a level set approach
[2001 JCP] Level Set Methods_ An Overview and Some Recent Results
[2005 CVIU] Geodesic active regions and level set methods for motion estimation and tracking
[2007 IJCV] A Review of Statistical Approaches to Level Set Segmentation
[2008 ECCV] Robust Real-Time Visual Tracking using Pixel-Wise Posteriors
[2010 TIP] Distance Regularized Level Set Evolution and its Application to Image Segmentation
19. Pyramid
其實(shí)小波變換就是一種金字塔分解算法,而且具有無失真重構(gòu)和非冗余的優(yōu)點(diǎn)。Adelson 在 1983 年提出的 Pyramid 優(yōu)點(diǎn)是比較簡單,實(shí)
現(xiàn)起來比較方便。
[1983] The Laplacian Pyramid as a Compact Image Code
20. Radon Transform
Radon 變換也是一種很重要的變換,它構(gòu)成了圖像重建的基礎(chǔ)。關(guān)于圖像重建和 radon 變換,可以參考章毓晉老師的書,講的比較清楚。
[1993 PAMI] Image representation via a finite Radon transform
[1993 TIP] The fast discrete radon transform I theory
[2007 IVC] Generalised finite radon transform for N×N images
21. Scale Space
尺度空間濾波在現(xiàn)代不變特征中是一個非常重要的概念,有人說 SIFT 的提出者 Lowe 是不變特征之父,而 Linderburg 是不變特征之母。
雖然尺度空間濾波是 Witkin 最早提出的,但其理論體系的完善和應(yīng)用還是 Linderburg 的功勞。其在 1998 年 IJCV 上的兩篇文章值得一讀,不管是特征提取方面還是邊緣檢測方面。
[1987] Scale-space filtering
[1990 PAMI] Scale-Space for Discrete Signals
[1994] Scale-space theory A basic tool for analysing structures at different scales
[1998 IJCV] Edge Detection and Ridge Detection with Automatic Scale Selection
[1998 IJCV] Feature Detection with Automatic Scale Selection
22. Snake
活動輪廓模型,改變了傳統(tǒng)的圖像分割的方法,用能量收縮的方法得到一個統(tǒng)計(jì)意義上的能量最小(最大)的邊緣。
[1987 IJCV] Snakes Active Contour Models
[1996 ] deformable model in medical image A Survey
[1997 IJCV] geodesic active contour
[1998 TIP] Snakes, shapes, and gradient vector flow
[2000 PAMI] Geodesic active contours and level sets for the detection and tracking of moving objects
[2001 TIP] Active contours without edges
23. Super Resolution
超分辨率分析。對這個方向沒有研究,簡單列幾篇文章。其中 Yang Jianchao 的那篇在 IEEE 上的下載率一直居高不下。[2002] Example-Based Super-Resolution
[2009 ICCV] Super-Resolution from a Single Image
[2010 TIP] Image Super-Resolution Via Sparse Representation
24. Thresholding
閾值分割是一種簡單有效的圖像分割算法。這個 topic 在岡薩雷斯的書里面講的比較多。這里列出 OTSU 的原始文章以及一篇不錯的綜述。
[1979 IEEE] OTSU A threshold selection method from gray-level histograms
[2001 JISE] A Fast Algorithm for Multilevel Thresholding
[2004 JEI] Survey over image thresholding techniques and quantitative performance evaluation
25. Watershed
分水嶺算法是一種非常有效的圖像分割算法,它克服了傳統(tǒng)的閾值分割方法的缺點(diǎn),尤其是 Marker-Controlled Watershed,值得關(guān)注。
Watershed 在岡薩雷斯的書里面講的比較詳細(xì)。
[1991 PAMI] Watersheds in digital spaces an efficient algorithm based on immersion simulations
[2001]The Watershed Transform Definitions, Algorithms and Parallelizat on Strategies
五、 計(jì)算機(jī)視覺
這一章是計(jì)算機(jī)視覺部分,主要側(cè)重在底層特征提取,視頻分析,跟蹤,目標(biāo)檢測和識別方面等方面。對于自己不太熟悉的領(lǐng)域比如攝
像機(jī)標(biāo)定和立體視覺,僅僅列出上 google 上引用次數(shù)比較多的文獻(xiàn)。有一些剛剛出版的文章,個人非常喜歡,也列出來了。
1. Active Appearance Models
活動表觀模型和活動輪廓模型基本思想來源 Snake,現(xiàn)在在人臉三維建模方面得到了很成功的應(yīng)用,這里列出了三篇最早最經(jīng)典的文章。
對這個領(lǐng)域有興趣的可以從這三篇文章開始入手。
[1998 ECCV] Active Appearance Models
[2001 PAMI] Active Appearance Models
2. Active Shape Models
[1995 CVIU]Active Shape Models-Their Training and Application
3. Background modeling and subtraction
背景建模一直是視頻分析尤其是目標(biāo)檢測中的一項(xiàng)關(guān)鍵技術(shù)。雖然最近一直有一些新技術(shù)的產(chǎn)生,demo 效果也很好,比如基于 dynamical
texture 的方法。但最經(jīng)典的還是 Stauffer 等在 1999 年和 2000 年提出的 GMM 方法,他們最大的貢獻(xiàn)在于不用 EM 去做高斯擬合,而是采
用了一種迭代的算法,這樣就不需要保存很多幀的數(shù)據(jù),節(jié)省了 buffer。Zivkovic 在 2004 年的 ICPR 和 PAMI 上提出了動態(tài)確定高斯數(shù)目
的方法,把混合高斯模型做到了極致。這種方法效果也很好,而且易于實(shí)現(xiàn)。在 OpenCV 中有現(xiàn)成的函數(shù)可以調(diào)用。在背景建模大家族
里,無參數(shù)方法(2000 ECCV)和 Vibe 方法也值得關(guān)注。
[1997 PAMI] Pfinder Real-Time Tracking of the Human Body
[1999 CVPR] Adaptive background mixture models for real-time tracking
[1999 ICCV] Wallflower Principles and Practice of Background Maintenance
[2000 ECCV] Non-parametric Model for Background Subtraction
[2000 PAMI] Learning Patterns of Activity Using Real-Time Tracking
[2002 PIEEE] Background and foreground modeling using nonparametric
kernel density estimation for visual surveillance
[2004 ICPR] Improved adaptive Gaussian mixture model for background subtraction[2004 PAMI] Recursive unsupervised learning of finite mixture models
[2006 PRL] Efficient adaptive density estimation per image pixel for the task of background subtraction
[2011 TIP] ViBe A Universal Background Subtraction Algorithm for Video Sequences
4. Bag of Words
詞袋,在這方面暫時(shí)沒有什么研究。列出三篇引用率很高的文章,以后逐步解剖之。
[2003 ICCV] Video Google A Text Retrieval Approach to Object Matching in Videos
[2004 ECCV] Visual Categorization with Bags of Keypoints
[2006 CVPR] Beyond bags of features Spatial pyramid matching for recognizing natural scene categories
5. BRIEF
BRIEF 是 Binary Robust Independent Elementary Features 的簡稱,是近年來比較受關(guān)注的特征描述的方法。ORB 也是基于 BRIEF 的。
[2010 ECCV] BRIEF Binary Robust Independent Elementary Features
[2011 ICCV] ORB an efficient alternative to SIFT or SURF
[2012 PAMI] BRIEF Computing a Local Binary Descriptor Very Fast
6. Camera Calibration and Stereo Vision
非常不熟悉的領(lǐng)域。僅僅列出了十來篇重要的文獻(xiàn),供以后學(xué)習(xí)。
[1979 Marr] A Computational Theory of Human Stereo Vision
[1985] Computational vision and regularization theory
[1987 IEEE] A versatile camera calibration technique for
high-accuracy 3D machine vision metrology using off-the-shelf TV cameras and lenses
[1987] Probabilistic Solution of Ill-Posed Problems in Computational Vision
[1988 PIEEE] Ill-Posed Problems in Early Vision
[1989 IJCV] Kalman Filter-based Algorithms for Estimating Depth from Image Sequences
[1990 IJCV] Relative Orientation
[1990 IJCV] Using vanishing points for camera calibration
[1992 ECCV] Camera self-calibration Theory and experiments
[1992 IJCV] A theory of self-calibration of a moving camera
[1992 PAMI] Camera calibration with distortion models and accuracy evaluation
[1994 IJCV] The Fundamental Matrix Theory, Algorithms, and Stability Analysis
[1994 PAMI] a stereo matching algorithm with an adaptive window theory and experiment
[1999 ICCV] Flexible camera calibration by viewing a plane from unknown orientations
[1999 IWAR] Marker tracking and hmd calibration for a video-based augmented reality conferencing system
[2000 PAMI] A flexible new technique for camera calibration
7. Color and Histogram Feature
這里面主要來源于圖像檢索,早期的圖像檢測基本基于全局的特征,其中最顯著的就是顏色特征。這一部分可以和前面的 Color 知識放在
一起的。
[1995 SPIE] Similarity of color images
[1996 PR] IMAGE RETRIEVAL USING COLOR AND SHAPE
[1996] comparing images using color coherence vectors
[1997 ] Image Indexing Using Color Correlograms
[2001 TIP] An Efficient Color Representation for Image Retrieval[2009 CVIU] Performance evaluation of local colour invariants
8. Deformable Part Model
大紅大熱的 DPM,在 OpenCV 中有一個專門的 topic 講 DPM 和 latent svm
[2008 CVPR] A Discriminatively Trained, Multiscale, Deformable Part Model
[2010 CVPR] Cascade Object Detection with Deformable Part Models
[2010 PAMI] Object Detection with Discriminatively Trained Part-Based Models
9. Distance Transformations
距離變換,在 OpenCV 中也有實(shí)現(xiàn)。用來在二值圖像中尋找種子點(diǎn)非常方便。
[1986 CVGIP] Distance Transformations in Digital Images
[2008 ACM] 2D Euclidean Distance Transform Algorithms A Comparative Survey
10. Face Detection
最成熟最有名的當(dāng)屬 Haar+Adaboost
[1998 PAMI] Neural Network-Based Face Detection
[2002 PAMI] Detecting faces in images a survey
[2002 PAMI] Face Detection in Color Images
[2004 IJCV] Robust Real-Time Face Detection
11. Face Recognition
不熟悉,簡單羅列之。
[1991] Face Recognition Using Eigenfaces
[2000 PAMI] Automatic Analysis of Facial Expressions The State of the Art
[2000] Face Recognition A Literature Survey
[2006 PR] Face recognition from a single image per person A survey
[2009 PAMI] Robust Face Recognition via Sparse Representation
12. FAST
用機(jī)器學(xué)習(xí)的方法來提取角點(diǎn),號稱很快很好。
[2006 ECCV] Machine learning for high-speed corner detection
[2010 PAMI] Faster and Better A Machine Learning Approach to Corner Detection
13. Feature Extraction
這里的特征主要都是各種不變性特征,SIFT,Harris,MSER 等也屬于這一類。把它們單獨(dú)列出來是因?yàn)檫@些方法更流行一點(diǎn)。關(guān)于不變
性特征,王永明與王貴錦合著的《圖像局部不變性特征與描述》寫的還不錯。Mikolajczyk 在 2005 年的 PAMI 上的文章以及 2007 年的綜
述是不錯的學(xué)習(xí)材料。
[1989 PAMI] On the detection of dominant points on digital curves
[1997 IJCV] SUSAN—A New Approach to Low Level Image Processing
[2004 IJCV] Matching Widely Separated Views Based on Affine Invariant Regions
[2004 IJCV] Scale & Affine Invariant Interest Point Detectors
[2005 PAMI] A performance evaluation of local descriptors
[2006 IJCV] A Comparison of Affine Region Detectors
[2007 FAT] Local Invariant Feature Detectors - A Survey[2011 IJCV] Evaluation of Interest Point Detectors and Feature Descriptors
14. Feature Matching
Fua 課題組在今年 PAMI 上的一篇文章,感覺還不錯
[2012 PAMI] LDAHash Improved Matching with Smaller Descriptors
15. Harris
雖然過去了很多年,Harris 角點(diǎn)檢測仍然廣泛使用,而且基于它有很多變形。如果仔細(xì)看了這種方法,從直觀也可以感覺到這是一種很穩(wěn)
健的方法。
[1988 Harris] A combined corner and edge detector
16. Histograms of Oriented Gradients
HoG 方法也在 OpenCV 中實(shí)現(xiàn)了:HOGDescriptor。
[2005 CVPR] Histograms of Oriented Gradients for Human Detection
NavneetDalalThesis.pdf
17. Image Distance
[1993 PAMI] Comparing Images Using the Hausdorff Distance
18. Image Stitching
圖像拼接,另一個相關(guān)的詞是 Panoramic。在 Computer Vision: Algorithms and Applications 一書中,有專門一章是討論這個問題。這里的
兩面文章一篇是綜述,一篇是這方面很經(jīng)典的文章。
[2006 Fnd] Image Alignment and Stitching A Tutorial
[2007 IJCV] Automatic Panoramic Image Stitching using Invariant Features
19. KLT
KLT 跟蹤算法,基于 Lucas-Kanade 提出的配準(zhǔn)算法。除了三篇很經(jīng)典的文章,最后一篇給出了 OpenCV 實(shí)現(xiàn) KLT 的細(xì)節(jié)。
[1981] An Iterative Image Registration Technique with an Application to Stereo Vision full version
[1994 CVPR] Good Features to Track
[2004 IJCV] Lucas-Kanade 20 Years On A Unifying Framework
Pyramidal Implementation of the Lucas Kanade Feature Tracker OpenCV
20. Local Binary Pattern
LBP。OpenCV 的 Cascade 分類器也支持 LBP,用來取代 Haar 特征。
[2002 PAMI] Multiresolution gray-scale and rotation Invariant Texture Classification with Local Binary Patterns
[2004 ECCV] Face Recognition with Local Binary Patterns
[2006 PAMI] Face Description with Local Binary Patterns
[2011 TIP] Rotation-Invariant Image and Video Description With Local Binary Pattern Features
21. Low-Level Vision
關(guān)于 Low level vision 的兩篇很不錯的文章
[1998 TIP] A general framework for low level vision
[2000 IJCV] Learning Low-Level Vision
22. Mean Shift均值漂移算法,在跟蹤中非常流行的方法。Comaniciu 在這個方面做出了重要的貢獻(xiàn)。最后三篇,一篇是 CVIU 上的 top download 文章,
一篇是最新的 PAMI 上關(guān)于 Mean Shift 的文章,一篇是 OpenCV 實(shí)現(xiàn)的文章。
[1995 PAMI] Mean shift, mode seeking, and clustering
[2002 PAMI] Mean shift a robust approach toward feature space analysis
[2003 CVPR] Mean-shift blob tracking through scale space
[2009 CVIU] Object tracking using SIFT features and mean shift
[2012 PAMI] Mean Shift Trackers with Cross-Bin Metrics
OpenCV Computer Vision Face Tracking For Use in a Perceptual User Interface
23. MSER
這篇文章發(fā)表在 2002 年的 BMVC 上,后來直接錄用到 2004 年的 IVC 上,內(nèi)容差不多。MSER 在 Sonka 的書里面也有提到。
[2002 BMVC] Robust Wide Baseline Stereo from Maximally Stable Extremal Regions
[2003] MSER Author Presentation
[2004 IVC] Robust wide-baseline stereo from maximally stable extremal regions
[2011 PAMI] Are MSER Features Really Interesting
24. Object Detection
首先要說的是第一篇文章的作者,Kah-Kay Sung。他是 MIT 的博士,后來到新加坡國立任教,極具潛力的一個老師。不幸的是,他和他
的妻子都在 2000 年的新加坡空難中遇難,讓人唏噓不已。
http://en.wikipedia.org/wiki/Singapore_Airlines_Flight_006
最后一篇文章也是 Fua 課題組的,作者給出的 demo 效果相當(dāng)好。
[1998 PAMI] Example-based learning for view-based human face detection
[2003 IJCV] Learning the Statistics of People in Images and Video
[2011 PAMI] Learning to Detect a Salient Object
[2012 PAMI] A Real-Time Deformable Detector
25. Object Tracking
跟蹤也是計(jì)算機(jī)視覺中的經(jīng)典問題。粒子濾波,卡爾曼濾波,KLT,mean shift,光流都跟它有關(guān)系。這里列出的是傳統(tǒng)意義上的跟蹤,
尤其值得一看的是 2008 的 Survey 和 2003 年的 Kernel based tracking。
[2003 PAMI] Kernel-based object tracking
[2007 PAMI] Tracking People by Learning Their Appearance
[2008 ACM] Object Tracking A Survey
[2008 PAMI] Segmentation and Tracking of Multiple Humans in Crowded Environments
[2011 PAMI] Hough Forests for Object Detection, Tracking, and Action Recognition
[2011 PAMI] Robust Object Tracking with Online Multiple Instance Learning
[2012 IJCV] PWP3D Real-Time Segmentation and Tracking of 3D Objects
26. OCR
一個非常成熟的領(lǐng)域,已經(jīng)很好的商業(yè)化了。
[1992 IEEE] Historical review of OCR research and development
Video OCR A Survey and Practitioner's Guide
27. Optical Flow光流法,視頻分析所必需掌握的一種算法。
[1981 AI] Determine Optical Flow
[1994 IJCV] Performance of optical flow techniques
[1995 ACM] The Computation of Optical Flow
[2004 TR] Tutorial Computing 2D and 3D Optical Flow
[2005 BOOK] Optical Flow Estimation
[2008 ECCV] Learning Optical Flow
[2011 IJCV] A Database and Evaluation Methodology for Optical Flow
28. Particle Filter
粒子濾波,主要給出的是綜述以及 1998 IJCV 上的關(guān)于粒子濾波發(fā)展早期的經(jīng)典文章。
[1998 IJCV] CONDENSATION—Conditional Density Propagation for Visual Tracking
[2002 TSP] A tutorial on particle filters for online nonlinear non-Gaussian Bayesian tracking
[2002 TSP] Particle filters for positioning, navigation, and tracking
[2003 SPM] particle filter
29. Pedestrian and Human detection
仍然是綜述類,關(guān)于行人和人體的運(yùn)動檢測和動作識別。
[1999 CVIU] Visual analysis of human movement_ A survey
[2001 CVIU] A Survey of Computer Vision-Based Human Motion Capture
[2005 TIP] Image change detection algorithms a systematic survey
[2006 CVIU] a survey of avdances in vision based human motion capture
[2007 CVIU] Vision-based human motion analysis An overview
[2007 IJCV] Pedestrian Detection via Periodic Motion Analysis
[2007 PR] A survey of skin-color modeling and detection methods
[2010 IVC] A survey on vision-based human action recognition
[2012 PAMI] Pedestrian Detection An Evaluation of the State of the Art
30. Scene Classification
當(dāng)相機(jī)越來越傻瓜化的時(shí)候,自動場景識別就非常重要。這是比拼誰家的 Auto 功能做的比較好的時(shí)候了。
[2001 IJCV] Modeling the Shape of the Scene A Holistic Representation of the Spatial Envelope
[2001 PAMI] Visual Word Ambiguity
[2007 PAMI] A Thousand Words in a Scene
[2010 PAMI] Evaluating Color Descriptors for Object and Scene Recognition
[2011 PAMI] CENTRIST A Visual Descriptor for Scene Categorization
31. Shadow Detection
[2003 PAMI] Detecting moving shadows-- algorithms and evaluation
32. Shape
關(guān)于形狀,主要是兩個方面:形狀的表示和形狀的識別。形狀的表示主要是從邊緣或者區(qū)域當(dāng)中提取不變性特征,用來做檢索或者識別。
這方面 Sonka 的書講的比較系統(tǒng)。2008 年的那篇綜述在這方面也講的不錯。至于形狀識別,最牛的當(dāng)屬 J Malik 等提出的 Shape Context。
[1993 PR] IMPROVED MOMENT INVARIANTS FOR SHAPE DISCRIMINATION
[1993 PR] Pattern Recognition by Affine Moment Invariants[1996 PR] IMAGE RETRIEVAL USING COLOR AND SHAPE
[2001 SMI] Shape matching similarity measures and algorithms
[2002 PAMI] Shape matching and object recognition using shape contexts
[2004 PR] Review of shape representation and description techniques
[2006 PAMI] Integral Invariants for Shape Matching
[2008] A Survey of Shape Feature Extraction Techniques
33. SIFT
關(guān)于 SIFT,實(shí)在不需要介紹太多,一萬多次的引用已經(jīng)說明問題了。SURF 和 PCA-SIFT 也是屬于這個系列。后面列出了幾篇跟 SIFT 有
關(guān)的問題。
[1999 ICCV] Object recognition from local scale-invariant features
[2000 IJCV] Evaluation of Interest Point Detectors
[2003 CVIU] Speeded-Up Robust Features (SURF)
[2004 CVPR] PCA-SIFT A More Distinctive Representation for Local Image Descriptors
[2004 IJCV] Distinctive Image Features from Scale-Invariant Keypoints
[2010 IJCV] Improving Bag-of-Features for Large Scale Image Search
[2011 PAMI] SIFTflow Dense Correspondence across Scenes and its Applications
34. SLAM
Simultaneous Localization and Mapping, 同步定位與建圖。
SLAM 問題可以描述為: 機(jī)器人在未知環(huán)境中從一個未知位置開始移動,在移動過程中根據(jù)位置估計(jì)和地圖進(jìn)行自身定位,同時(shí)在自身定位
的基礎(chǔ)上建造增量式地圖,實(shí)現(xiàn)機(jī)器人的自主定位和導(dǎo)航。
[2002 PAMI] Simultaneous Localization and Map-Building Using Active Vision
[2007 PAMI] MonoSLAM Real-Time Single Camera SLAM
35. Texture Feature
紋理特征也是物體識別和檢索的一個重要特征集。
[1973] Textural features for image classification
[1979 ] Statistical and structural approaches to texture
[1996 PAMI] Texture features for browsing and retrieval of image data
[2002 PR] Brief review of invariant texture analysis methods
[2012 TIP] Color Local Texture Features for Color Face Recognition
36. TLD
Kadal 創(chuàng)立了 TLD,跟蹤學(xué)習(xí)檢測同步進(jìn)行,達(dá)到穩(wěn)健跟蹤的目的。他的兩個導(dǎo)師也是大名鼎鼎,一個是發(fā)明 MSER 的 Matas,一個是
Mikolajczyk。他還創(chuàng)立了一個公司 TLD Vision s.r.o. 這里給出了他的系列文章,最后一篇是剛出來的 PAMI。
[2009] Online learning of robust object detectors during unstable tracking
[2010 CVPR] P-N Learning Bootstrapping Binary Classifiers by Structural Constraints
[2010 ICIP] FACE-TLD TRACKING-LEARNING-DETECTION APPLIED TO FACES
[2012 PAMI] Tracking-Learning-Detection
37. Video Surveillance
前兩篇是兩個很有名的視頻監(jiān)控系統(tǒng),里面包含了很豐富的信息量,比如 CMU 的那個系統(tǒng)里面的背景建模算法也是相當(dāng)簡單有效的。最
后一篇是比較近的綜述。[2000 CMU TR] A System for Video Surveillance and Monitoring
[2000 PAMI] W4-- real-time surveillance of people and their activities
[2008 MVA] The evolution of video surveillance an overview
38. Viola-Jones
Haar+Adaboost 的弱弱聯(lián)手,組成了最強(qiáng)大的利器。在 OpenCV 里面有它的實(shí)現(xiàn),也可以選擇用 LBP 來代替 Haar 特征。
[2001 CVPR] Rapid object detection using a boosted cascade of simple features
[2004 IJCV] Robust Real-time Face Detection
六、 結(jié)束語
歷時(shí)一個多月,終于用業(yè)余時(shí)間把這些資料整理出來了,總算了卻了一塊心病,也不至于再看著一堆資料發(fā)愁了。以后可能會有些小修
小補(bǔ),但不會有太大的變化了。萬里長征走完了第一步,剩下的就是理解和消化了。借新浪 ishare 共享出來,希望能夠?qū)δ愕目蒲幸灿?/p>
一定的幫助。