作者所在班級1402012
作 者 姓 名符子龍
作 者 學 號14020120006
《基于深度學習的視網膜OCT圖像分類》的文獻綜述
內容摘要
通過翻閱這些參考資料和文獻,了解了深度學習技術在圖像處理和計算機視覺上的應用與發展,以及各種常用的模型算法。本題主要關注與視網膜OCT的圖像處理,通過查閱其他相關論文,了解今年來適用于醫學影像的圖像處理方法,特別是關于視網膜的圖像分割,圖像分類,圖像識別等經典算法。另外,通過閱讀醫學文獻了具體了解了視網膜的解剖學結構,以及圖像特點。
關鍵詞:深度學習視網膜結構圖像處理圖像分類
第1章 ?前言
外后視鏡外形輪廓不但影響到車身的外觀,也影響到車身尺寸,行業標準有轎車外后視鏡的安裝位置不得超出汽車最外側250毫米的規定。
1.1課題背景及意義
1.1.1.圖像分類
隨著互聯網、數碼相機及攝像機和數字存儲技術的發展,數字多媒體資源日益增多。
而從傳統互聯網到移動互聯網,在社交網絡中人們也不僅僅是用文字表達自己,而是傾向采用更直觀的圖像和視頻來進行交流。大量的信息隱藏在海量的圖像數據中。面對越來越大的數據處理量,僅憑人工顯然無法實現,迫切需要計算機能夠讀懂并且處理。而圖像分類和識別任務主要是對數字圖像的內容進行分析,獲取圖像中的關鍵信息,讓圖像“會說話”。許多應用領域對圖像的處理特別是圖像的分類識別提出了需求:
(1)基于內容的圖像檢索CBIR(Content-based image ?retrieval),這一概念于1992年由T.Kato[1]提出,一般根據圖像的視覺特征來查找與輸入的圖片具有相同或相似內容的其它圖片。SMEULDERSAW等‘21回顧了200篇相關文獻,認為在未來基于內容圖像的檢索有更廣闊的應用前景,而更準確的檢索結果不僅依賴于準確的理解圖像而更多的是良好的圖像分類。近年來,基于內容的圖像檢索成為研究的一個熱點領域,提出了許多新方法,例如Krizhevsky利用深度自動編碼器將小型彩色圖像映射成為短的二進制編碼用于檢索,Kauf利用GPU的并行執行能力實現了基于內容的圖像檢索,提高了效率。Liui51提出了一種基于內容檢索的新方法顏色差分直方圖:CDH(color differencehistograms)。
(2)對圖像/視頻自動標注,就是通過計算機自動給無標注的圖像和視頻加上能夠反映其內容的語義關鍵詞。自動標注主要用于多媒體信息的管理和檢索,在商業方面也有很好的應用前景,例如個人照片管理、廣告圖片投放等。對圖像和視頻進行標注的核心仍然是圖像語義理解。Carl ?Doerschl利用判別式聚類方法對地理信息進行標注,ArpitJai利用一種基于時空塊的新中間層表示方法用于對視頻進行標注。
[if !supportLists](3)[endif]醫學影像處理,醫學影像對于醫生診斷疾病提供了非常有價值的參考信息。
基于圖像分類和識別的方法可以通過影像數據積累發現一些疾病在影像里的特征和相
互聯系,提高影像對于疾病診斷的作用。Akgul[8]對基于內容檢索的方法在放射學上應用現狀和未來發展方向進行了綜述。Varghese[9]貝,U研究了在腦部磁共振圖像中的應用。
其它的應用領域還有如:視頻監控、自動機器人,交互式游戲等。有效
的圖像分類識別是上述應用領域重要的研究基石。圖像分類識別問題應用領域廣泛,是機器視覺中的重要問題之一,也是一個典型的模式識別與機器學習的問題。圖像分類技術的研究一直很火熱,分類準確率也在不斷提升,涌現了許多有效的智能分類方法。但有仍有不少問題有待進一步解決。如圖像的視覺信息轉換為人類理解的語義表達難題;對不同來源圖像用統一的視覺特征方法進行描述;解決因圖像質量、光照、拍攝視角差別等造成的分類識別困難;處理海量數據的高效、準確算法問題等。因此盡管發展迅速、方法眾多,圖像分類問題仍然是計算機視覺領域中非常值得研究的問題,也有很強的實際應用需求。在國際會議和刊物上每年都有
大量的相關文章發表,例如:CVPR、ICCV、ECCV、ICML、NIPS,InternationalJournal
ofCompeerVision(IJCV),IEEE,TransactionsonPatternAnalysisandMachine
Intelligence(PAMI)等。
1.1.2.深度學習應用于圖像分類
深度學習模型雖然在圖像分類領域取得令人矚目的分類效果,但一直無法用數學理論來證明其問題求解過程,這使得研究局限于通過實驗來調整模型結構和參數,從而設計出更為有效的模型。除了對模型本身的研究,深度學習與其它的機器學習方法的融合,引入其他方法的優點解決相應的問題也是研究的一個熱點。本文介紹了卷積神經網絡的應用與研究熱點,引入遷移學習、支持向量機、多尺度空間模型、模糊分類等方法與卷積神經網絡模型融合。
1.2.視網膜OCT圖像
1.2.1 什么是OCT
光學相干層析掃描儀(OCT):OCTJ,韭行視網膜斷層掃描的原理類似B超,不同的是OCT采用的是850rim波長的光掃描,而B超采用的是聲頻掃描。主要用于黃斑水腫、裂孔的測量及青光眼RNFL厚度的測量。
1.2.1 OCT的優點
各種成像技術,如x射線計算層析成像ⅨcT)、核磁共振成像、超聲波
成像等,在醫學上已經獲得廣泛應用,成為現代醫學診斷技術的一個顯著標志。每種技術由于其不同的工作原理,決定了其不同的分辨率和探測深度、不同的適用范圍、不同的檢測部位和功能特點。X射線計算層析成像探測深度深,分辨率也較高,但入射的高能量會使生物組織離化,頻繁使用會損害身體。超聲波成像分辨率較低。核磁共振雖有亞毫米級的分辨率,但所需的超導磁體價格昂貴。Huang等人首次把OCT技術用于人眼視網膜細微結構和冠狀動脈壁結構的成像,獲得了成功。Schmit等人將其用于生物組織光學特性參數的'鋇4量,也取得了很好的效果。鑒于它廣泛的應用前景,國際上在開展研究工作的同時,已經向產品化方向發展。國內也有一些科研小組開始進行有關的研究工作。當今醫學影像技術在現代醫院中的作用愈來愈重要,除了眾所周知的x光、超聲波診斷、核磁共振成像及各種內窺鏡檢查外,其他技術也層出不窮,可以解決許多以前影像檢查方法所不能解決的問題。但他們各自仍存在局限性:X光檢查不能準確探測出初期的腫塊,高能量照射時人體組織容易產生傷害:超聲檢查不具有探測尺寸小于幾毫米物體的分辨本領,和x光一樣不能提供任何組織化學成分信息;核磁共振成像雖有較好的空間分辨率,能探測特殊組織的化學物質,但費用極其昂貴,不利于常規應用;內窺鏡檢查可清晰地看到組織結構并能夾取活檢,但同樣不能實時地確定組織的成分。
OCT最初的應用是眼科學成像“61。目前,醫學仍然是OCT的主要應用領域。與其他的光學技術相比,OCT具有很多卓越的優點:
[if !supportLists](1)[endif]縱向分辨率和樣本入射光的數值孔徑相互獨立;
[if !supportLists](2)[endif]高縱向分辨率和橫向分辨率;
[if !supportLists](3)[endif]非接觸、非侵入式的操作;
[if !supportLists](4)[endif]可以增加與圖像對比度有關的功能。相關的對比技術是基于多普勒頻移,偏振和波長相關的后向散射。
現在,OCT作為一種非侵襲性的診斷工作,在臨床醫學中開始發揮其巨大作用,因為OCT圖像的軸向分辨率可達到10/2m,比現在任何一種臨床診斷設備的分辨率高達lO倍以上,且這種光纖式結構不僅便宜而且很容易進入導管,與內窺鏡進行相結合作業,在人體內部的組織器官檢查中得到很高的分辨率,特別是眼科學、心臟學、皮膚病等學科診斷中具有明顯的優勢。對于青光眼的診斷和處理目前在臨床是十分棘手的問題,眼內壓測量經常不能準確預測出青光眼的病情進展,只有在視網膜神經纖維缺少50%以上時,視野缺損和視神經乳頭凹陷這樣的后期臨床診狀才能檢測到。OCT對視網膜結構的高分辨率成像,對眼科臨床上診斷青光眼、斑變質和斑水腫十分
可靠。視網膜視神經纖維層是在青光眼中受影響的解剖結構,由于OCT的高分辨率可敏感地測量視網膜神經纖維層的厚度且觀測到視盤的外形變化,可以在OCT中明確的判別。相對于玻璃體和視網膜結構,視網膜神經纖維層是一個相對高散射的介質層,由于視神經纖維的圓柱形狀,視網膜神經纖維層的后散射信號強度依賴于入射光的角度,這種角度依賴型導致了神經纖維變成視神經的視盤邊緣的視網膜神經纖維層信號衰減。現在通過察看患者的視網膜神經纖維層厚度就可以估測出青光眼病情的進展,這在以前對青光眼的診斷上是沒有一個客觀標準的。對青光眼的診療上是一個突破而且OCT檢查幾乎不會給病人造成任何不適。
1.2.3 視網膜OCT研究
視網膜OCT圖像自動識別系統是涉及現代數學,模式識別、圖像處理、計算機視覺等多個領域,對完善OCT系統,增強其實用性有著重要的意義。近20多年來,醫學影像已成為醫學技術中發展最快的領域之一,其結果使臨床醫生對人體內部病變部位的觀察更直按、更清晰,確診率也更高。70年代初,X-CT的發明曾引發了醫學影像領域的一場革命,與此同時,核共振成像,超聲成像、數字射線照相術、發射型計算機成像和核素成像等也逐步發展。計算機和醫學圖像處理技術作為這些成像技術的發展基礎,帶動著現代醫學診斷正產生著深刻的變革。各種新的醫學成像方法的臨床應用,使醫學診斷和治療技術取得了很大的進展,同時將各種成像技術得到的信息進行互補,也為臨床診斷及生物醫學研究提供了有力的科學依據。因此,醫學圖像處理技術一直受到國內外有關專家的高度重視。
借助于現代計算機技術結合病理專家實踐經驗,采用圖像處理技術對醫學圖像進行處理,從而對視網膜OCT圖像進行識別,對于醫學科研與教學,以及臨床診斷方面有著現實的意義和非常廣闊的前景。
目前,數字圖像處理、模式識別和人工智能技術已經被廣泛的應用在生物醫學領域,并取得了一些成果[Is-191,但用模式識別對OCT視網膜層析圖進行病理診斷的系統報道并不多。本論文利用圖像處理技術結合醫學病理專家的知識經驗對視網膜OCT圖像進行分類識別的研究,應用模式識別對細胞圖像進行診斷分類,達到利用視網膜OCT圖像識別進行眼底病輔助診斷的目的。目前主流的工作首先是通過借用了大量的圖像處理技術和算法,如圖像濾波、圖像增強、邊緣檢測等對圖像進行了預處理。爾后利用K-L變換進行特征提取,最后采用最近鄰法、BP神經網絡等方法對OCT產生的視網膜層析圖進行分類并診斷,對OCT系統的推廣與完善具有重要意義。
[if !supportLists]第1章[endif]目前主要的圖像分類方法
(說明:主題是綜述主要內容的敘述部分。一般要敘述所選研究題目的國內外研究現狀;本研究至目前的主要他人研究成果;比較各種學術觀點,闡明本研究的發展趨勢;目前存在的問題。對當前工作的現狀,今后的發展趨勢應作重點、詳盡而具體地敘述。)
2.1 圖像分類步驟
不同圖像分類算法有各自的模型特點,但歸納起來圖像分類問題的一般過程為。首先對原始圖像做預處理,提高圖像的質量或者是需要改變圖像的大小獲得合適的輸入。然后利用特征學習算法對圖像進行特征提取,獲得圖像的特征表示。再采用分類算法構建相應的模型,就可以利用模型對圖像進行分類預測。這其中特征提取算法和分類算法是影響最終分類效果的關鍵,也是研究人員關注的焦點。本節將重點對這兩個關鍵環節的研究現狀和發展做一個闡述,為后續的研究奠定良好的理論急促。
2.1.1圖像特征提取和表示
圖像特征的提取和表示是圖像分類研究工作的基礎,圖像特征的選擇和表示很大程度上決定了圖像分類的效果。本文將圖像特征的提取和表示分為以下三個階段:基本的視覺特征表達階段、人工加工特征表達階段和特征的自我學習階段。基本的視覺特征表達階段,這類特征有直觀的基于底層的特征表示的方法,如顏色、紋理、形狀、空間關系等和局部特征算子。直觀特征最早使用的一類圖像特征,它簡單有效,但近年來隨著圖像處理的要求日益提高,目前研究較多的是多種直觀特征融合以及直觀特征與人工統計特征融合的方法。
局部特征是相對全局特征而言,顯然顏色直方圖等直觀性特征是從圖像全局考慮。
特征算子還有HOG(HistogramofOrientedGradient)梯度方向直方圖、SURF(Speeded Robust Features)、GLOH(Gradient location.orientation 對比了當時主流的三種局部特征描述符的表現,分析每個算子生成及匹配速度。并給出了相應的結論,可以看出整體表現上PCA.SIFT略勝一籌。局部特征算子具備如前所述遮擋、尺度不變等的優點,但是仍然還是有它的不足之處,主要體現在:(1)原始圖像的分辨率影響算子性能,因為分辨率實際上反映了原始圖像中信息量的多少。原始分辨率高意味著在特征提取的采樣過程中可以保存較多的原始信息,從而提取得到的更多關鍵點。反之,關鍵點就少,性能下降;(2)在提取特征向量過程中必須進行尺度空間的極值檢測,因此如果圖像時大片平滑區域時,由于不存在極值點而難以提取關鍵點;(3)對一些具有方向性和重復性的特征,例如紋理特征,提取到的關鍵點偏少,容易誤檢。
人工加工的特征表達階段,是指在基本特征提取的基礎上研究人員應用統計、代數
方法或者變換系數等方法描述特征。這類二次加工的特征表示中最經典的是詞袋模型
(BagofWords,Bow)。它首先通過SIFT等局部特征算子抽取圖像的基本特征,然后對這些特征采用K—means等聚類方法映射成關鍵詞集合,形成詞典(字典),然后
分別對每個原始特征描述按字典進行統計以形成最后的特征描述。詞袋模型最初主
要應用在文本領域,之后延伸到圖像處理領域,詞袋模型由于可以高速實現分類,效果良好,迅速成為最流行的分類方法。目前仍有許多基于詞袋模型的擴展算法研究,特別是在圖像內容檢索領域。含空間信息的詞袋模型,加快單個視覺詞匯的描述子分配,加強視覺詞匯的分布能力等都是基于詞袋模型的研究。
除了詞袋模型以外,代數特征方法也是常用的人工加工特征之一。代數特征方法主
要是通過代數理論如矩陣分解奇異值分解等計算或統計抽取特征,常用的方法可以主要有:主分量分析(PCA)、線性鑒別分析(LDA)和Fisher線性鑒別分析刪。這些方法在人臉識別中經常使用,其局限主要體現在兩個方面:一方面需要大的樣本集進行學習;另一個方面對視角、光照與物體非線性形變敏感。上述方法都屬于線性投影的方法,而非線性特征方法目標是將非線性問題轉為線性問題,例如使用“核技巧”。主要方法有:KPCA[65石71和SVM的一些擴展方法[68-701。該類方法的局限性也表現在兩個
方面:一方面在非線性轉換過程里的映射幾何意義不明確;另一方面使用“核技巧”缺乏選取標準的引導,多通過實驗調整和經驗選取。還有一類人工加工特征是對在其他特征提取方法對圖像進行各種濾波變換如K—L變換、傅里葉變換、小波變換、小波
包變換等。將濾波變換的系數作為圖像特征,這種方法是二次提取的特征稱為變換
系數特征。其優點是表示能力強、特征維數低。缺點是依賴于對分類識別圖像的某種變換、特征的語義不直觀。特征的自我學習階段,前兩個階段的特征抽取和表達無論是哪種,都離不開人工選擇,即使是多種特征結合的方式也需要事先根據問題領域人工確定。在問題沒有解決之前確定選取的特征更多要依靠經驗和運氣。能否讓圖像特征實現學習而不需要人工選擇?
人類的視覺系統給出了這樣的啟示:人的視覺系統信息處理是分級的,從低層特征到高層的特征,逐步抽象,越抽象越接近表現語義。在此基礎上,Hinton提出了深度學習的概念。深度學習繼承了神經網絡對復雜函數逼近的特點,提出的多層學習模型模擬了人腦的認知機制。Hinton提出了深度信念網(DeepBeliefNetworks,DBNs)[741,實現了深度學習的概念。DBNs用非監督貪婪算法進行逐層訓練解決原有深層結構帶來的易陷入局部最小和梯度擴散的難題。深度學習思想的核心有三點:第一,逐層訓練;第二,用無監督學習訓練每一層;第三,用無監督訓練來對所有層進行調整。深度學習不需要人工指定特征,可以將圖像這樣的研究對象直接作為輸入,因此非常適合處理圖像問題。深度學習的主要算法除了DBNS外,Fukushima提出的卷積神經網絡(ConvolutionalNeural Networks,CNN)[761是第一個真正多層網絡結構學習算法,也是近年在圖像處理領域研究最多的深度學習算法。除此之外深度學習還出現了許多其它結構,例如自動編碼器AutoEncoder,稀疏自動編碼器Sparse ?AutoEncoder,降噪自動編碼器DenoisingAutoEncoders,遞歸神經網絡RNN[801。Bengio研究了基于線性和非線性的自動編碼器。近年來深度結構在目標識別阮、語音識別、人臉識別網、運動姿勢估計方面也有很多應用。總而言之,隨著計算機硬件以及GPU技術的發展,深
度學習的結構可以更好的適應大型圖像數據庫的應用,不需要人工特征提取方法實現圖像分類識別任務,做到機器智能學習,并且有非常廣闊的應用領域。
2.1.2.分類學習算法
在特征提取之后,需要依靠分類學習算法得到最終的圖像分類結果,分類學習算法或者稱分類器也是研究人員研究的熱點。
(1)SVM(支持向量機):支持向量機是當前研究最熱門的分類算法之一,
支持向量機以統計學習理論為基礎,將線性不可分問題通過高維映射成為線性可分問題,采用線性分類進行劃分。以線性二分類為基礎,通過采用一對一、一對多等策略可以轉換為多分類問題的求解。在圖像分類任務中,SVM具有良好的泛化能力,不易陷入局部最優。但SVM構建過程中的核參數選擇還缺少標準,誤差懲罰參數選取也是SVM的一個難點。這2個重要的參數對SVM的分類效果有明顯的影響。很多研究圍繞著這2個關鍵點,例如:多核學習的概念的提出以及其在圖像和目標識別的應用。
在核選擇上問題上也有不少研究,Kotrooulos在醫學圖像分割領域證明采用RBF核的效果最佳,RBF核是目前大多數SVM的首選。Hillt941對幾種SVM方法進行了比較,并分析了各算法訓練速度優劣的原因。
(2)隨機森林:隨機森林是由多個決策樹通過隨機形式方式組成的分類器。隨機
森林適合于多分類任務,其表達直觀、訓練和預測速度快。Leo Breiman和Adele Cutler
發展出隨機森林的算法。隨機森林也是圖像分類常用的分類器之一,Kontschiedert在隨機森林的框架下融入了標注拓撲信息用于圖像語義標注。Schroff將圖像局部和全局多種特征融合在隨機森林的框架下提高了分類器的表現。隨機森林的缺點主要有兩點:第一,對噪音較大的問題容易出現過擬合;第二,由于分類結果取個別樹的眾數,對于分類問題中有不同級別屬性的,權值計算存在較大偏差,分類結果不可靠。
(3)貝葉斯方法:貝葉斯分類以計算類概率的方式得出樣本屬于某一類的概率,
將最大概率的類標簽賦予樣本。樸素的貝葉斯分類器(Naive Bayesian ?Classifier)因具有較高的準確性,在圖像分類問題,文本分類等應用較多,ZhangI蚓用它來解決多標注的特征學習問題。貝葉斯分類器的缺陷是:需要估計概率密度分布函數,這個在很多應用中都難以估計。另外,它的前提假設是各特征滿足獨立不相關,否則分類的準確度就會大大降低。
(4)神經網絡:神經網絡算法是由生物的神經網絡結構得到啟示,通過數學模型
模擬神經元以及神經元之間的相互連接而構成網絡模型。神經網絡對不同的神經元設置不同的權值參數,通過激活函數調整神經元節點之間的連接關系,實現對樣本的學習。
R ?Hecht-Nielson刪證明任何連續函數都可以n4--層的BP網絡實現任意精度近似。BP神經網絡在早期的圖像分類問題中也常使用,但因BP神經網絡容易陷入局部最小,訓練時間較長而相對其它分類方法并沒有明顯的優勢,近年來BP神經網絡的研究相對較少。深度學習實際上神經網絡的一種特殊擴展形式,它將特征提取和分類融合在一個結構中實現。
(5)集成學習:集成學習實際上并不是一種全新的分類方法,它的理論基礎是概
率近似準確(PAC,Probably Approximately Correct)。集成學習不同于上述分類方
法去努力提升單個分類器的分類精度,而是研究是否可以通過集成的方式,實現弱學習方法轉強。在1990年Schapirell021首先提出了集成學習的概念和Boosting算法,之后集成學習逐漸成為機器學習領域中的熱點。集成學習領域最著名的2個算法是:
AdaBoost算法,Bagging算法。AdaBoost通過提高錯誤樣本的權值改變樣本數據分布,將弱分類器組合提升為強分類器。Bagging通過訓練集的劃分,采用不同的子集訓練分類器,獲得不同分類器后再進行集成,提升分類性能。Bagging的訓練集是隨機的,各訓練集是獨立的,而Boosting訓練集的選擇不是獨立的,每一次選擇的訓練集都依賴于上一次學習的結果。Boosting算法的變種有很多:LPBoostll0、TotalBoost,
SoflBoost,ERLPBoostl等。這些Boosting算法主要是從最大化boosting算法的
間隔(Margin)或者軟間隔(SoftMargin)考慮來改進的。2001年周志華等人提出了“選擇性集成,,概念并設計了一種選擇性集成算法GASENll,用對弱分類器先選擇再集成
的方式提升了性能。集成學習算法存在兩個問題:第一,當要集成的弱分類器有較大相關性和冗余時,集成效果不好,這時增加分類器也得不到多大的提升。第二,Boosting
系列集成算法對弱分類器更新樣本權重,是基于全局的,這樣弱化了強分類器的作用。
我按照基于聚類、排序、選擇、優化個不同角度對選擇性集成算法進行綜述。
綜上所述,深度學習的方法與傳統的圖像分類方法相比較有以下幾點優勢:第一,
深度學習方法在同一結構中實現特征選擇和分類,無需人工選擇特征:第二,從現有的研究成果看,深度學習方法比傳統的圖像分類方法在一般圖像分類準確率上有顯著的提升:第三,深度學習方法的結構由于其網絡的深度和對并行計算的支持更適合于處理大批量的數據。
2.2 視網膜的生理結構
視網膜就像一架照相機里的感光底片,專門負責感光成像。當我們看東西時,物體的影像通過屈光系統,落在視網膜上。視網膜是一層透明薄膜,因脈絡膜和色素上皮細胞的關系,使眼底呈均勻的橘紅色。后界位于視乳頭周圍,前界位于鋸齒緣,其外面緊鄰脈絡膜,內面緊貼玻璃體。
視信息在視網膜上形成視覺神經沖動,沿視路將視信息傳遞到視中樞形成視覺,這樣在我們的頭腦中建立起圖像。
生物結構
組織學上視網膜分為10層,由外向內分別為:色素上皮層,視錐、視桿細胞層,外界膜,外顆粒層,外叢狀層,內顆粒層,內叢狀層,神經節細胞層,神經纖維層,內界膜。
視網膜內層為襯于血管膜內面的一層薄膜,有感光作用。后部鼻側有一視神經乳頭。
視網膜上的感覺層是由三個神經元組成。第一神經元是視細胞層,專司感光,它包括錐細胞和桿細人的視網膜上共約有1.1~1.3 億個桿細胞,有600~700萬個錐細胞。視桿細胞主要在離中心凹較遠的視網膜上,而視錐細胞則在中心凹處最多。第二層叫雙節細胞,約有10到數百個視細胞通過雙節細胞與一個神經節細胞相聯系,負責聯絡作用。第三層叫節細胞層,專管傳導。
視網膜是一層菲薄的但又非常復雜的結構,它貼于眼球的后壁部,傳遞來自視網膜感受器沖動的神經纖維跨越視網膜表面,經由視神經到達出口。視網膜的分辨力是不均勻的,在黃斑區,其分辨能力最強。視網膜的厚度相當于一張薄紙。從光學觀點出發,視網膜是眼光學系統的成像屏幕,它是一凹形的球面。組織結構層次為色素上皮細胞→光感受器細胞→雙極細胞→神經節細胞。
視網膜的凹形彎曲有兩個優點:
(1)眼光學系統形成的像有凹形彎曲,所以彎曲的視網膜作為像屏具有適應的效果;
(2)彎曲的視網膜具有更廣寬的視野。
視網膜后極部有一直徑約2mm的淺漏斗狀小凹陷區,稱為黃斑,這是由于該區含有豐富的葉黃素而得名。其中央有一小凹為黃斑中心凹,黃斑區無血管,但因色素上皮細胞中含有較多色素,因此在檢眼鏡下顏色較暗,中心凹處可見反光點,稱為中心凹反射,因此處只有大量的視錐細胞,故它是視網膜上視覺最敏銳的部位。
2.3 視網膜OCT圖像特點
OCT視網膜各層對應關系
1.神經纖維層:神經纖維,反光強——紅黃色帶。
2.神經節細胞層:節細胞體,反光弱——綠藍色帶。
3.內叢狀層:節細胞和雙極細胞樹突——神經纖維,反光強——黃色帶。
4.雙極細胞體層:細胞體,反光弱——藍色帶。
5.外叢狀層:視細胞和雙極細胞樹突——神經纖維,反光強——黃色帶。此層有中介膜存在,是真正的視網膜中分界所在。
6.視細胞體層:視細胞體,反光弱——藍色帶,而且較寬。
7.外界膜:反光略增強,很窄的綠黃色帶。為視細胞體與椎體、桿體(感受器)之間的分界處,外界膜的內側為視細胞體,其外側即為椎體和桿體。
8.視細胞光感受器內節帶:較外界膜反光略弱——很窄的綠色帶。
9.視細胞光感受器內外節連接處:反光明顯增強,很窄的黃色帶。在黃斑中心凹處,因該處的椎體外節長而稍遠離其下的色素上皮帶。
10.視細胞光感受器外節帶:反光略弱——非常窄的綠色帶。仔細觀察下是一條區分內外節連接處與其下色素上皮層的非常非常窄的綠色光帶,在黃斑中心凹處,因該處椎體外節長而增寬
11.色素上皮層:反光明顯增強、增寬的紅黃色帶。在黃斑中心凹處,因該處色素上皮增多,而略有增寬。
12.玻璃膜和脈絡膜毛細血管層:因色素上皮層的遮蔽作用,結構顯示不太清楚。
2.4 視網膜OCT圖像處理
OCT作為一種新型的成像技術具有很多技術上的優勢,利用OCT診斷眼底病已經得到了廣泛的應用。已閱的文獻主要從視網膜OCT圖像的預處理、特征提取和分類器設計幾個方面對視網膜OCT圖像識別這一課題進行了一定的研究和討論。
OCT圖像的預處理主要采用了兩種方法:二值化和圖像輪廓提取。主要討論了后一種方法。視網膜OCT圖像信息量較大,圖像背景復雜。單純的圖像處理方法不能得到連通的特征區域。在對圖像進行預處理時,有些學者采用了彩色分割、數學形態學運算以及邊緣檢測等方法相結合的辦法。在處理圖像過程中,膨脹以及閉運算操作會使預處理后的邊緣與實際的圖像邊緣產生偏離,所以,把握好預處理過程中的結構元素的大小十分關鍵,既要使圖像連通有要使基本形態特征保持不變。經過預處理后,視網膜OCT圖像輪廓清晰,特征區域明顯,為后續的圖像識別奠定了基礎。
通過對視網膜OCT圖像的分析,有部分學者采用二值化、輪廓提取技術對圖像進行了預處理,利用K.L變換提取了圖像的特征向量,最后分別用最近鄰法和BP神經網絡法進行了圖像識別。從實驗中可以看出,不同的方法保留的圖像信息是不同的,所以最后的結果就會有差異。通過比較,采用圖像二值化后直接用最近鄰法進行圖像識別的方案,識別率達到了100%。
2.5 圖像處理中主要的深度學習方法
AutoEncoder自動編碼器
最簡單的一種方法是利用人工神經網絡的特點,人工神經網絡(ANN)本身就是具有層次結構的系統,如果給定一個神經網絡,我們假設其輸出與輸入是相同的,然后訓練調整其參數,得到每一層中的權重,自然地,我們就得到了輸入I的兒種不同表示(每一層是輸入的一種表示),這些表示就是特征,在研究中可以發現,如果在原有的特征中加入這些自動學習得到的特t正可以大大提高精確度,甚至在分類問題中比}」前址好的分類算法效果還要好,這種方法稱為自動編碼(AutoEncoder )。
Sparse Coding稀疏編碼
如果我們把輸出必須和輸入相等的限制放松,同時利用線性代數中基的概念,即O=Wx B, +硯x B, +...+W,x B,, , B是基,W;是系數,我們可以得到這樣一個優化問題:Min 11一Olo
通過求解這個最優化式子,我們可以求得系數W和基B;,這些系數和基礎就是輸入的另外一種近似表達,因此,它們可以被當成特征來表達輸入I,這個過程也是自動學習得到的。如果我們在上述式子上加上L1的Regularity限制,得到: ?????????????????Min}I一O}+u*(IW卜}硯I+…+}W,})。(2. 1)
種方法被稱為Sparse Coding,它是一種對對象的簡潔表征的方法,這種方法可以自動地學習到隱藏在對象數據潛在的基函數。
Restricted Boltzmann Machine(RBM)限制波爾茲曼機
假設有一個二部圖,每一個相同層的節點之間沒有鏈接,一層是可視層,即輸入數據層(v),一層是隱層(h),如果假設所有的節點都是二值變量節點(只能取0或者1值),同時假設聯合概率分布p(v, h)滿足Boltzmann分布,我們稱這個模型是受限玻爾茲曼機(RBM)。下面我們來看看為什么它是Deep Learning方法。首先,這個模型因為是二部圖,所以在己知v的情況下,所有的隱藏節點之間是條件獨立的,即p(hIv卜p(h, I 1,) ... p(h? I v)。同理,在己知隱藏層h的情況下,所有的可視節點都是條件獨立的,同時又由于所有的v和h滿足Boltzmann分布,因此,當輸入v的時候,通過p(hlv)可以得到隱藏層h,而得到隱藏層h之后,通過p(vlh)又能重構可視層,通過調整參數,我們就是要使得從隱藏層得到的可視層VI與原來的可視層v如果一樣,那么得到的隱藏層就是可視層的另外一種表達,因此隱藏層可以作為可視層輸入數據的特征,所以它就是一種Dcep Learning方法。文獻X32]從理論一上證明,當隱層節點足夠多時,深度網絡就可以表示任意離散分布;文獻[33]指出受限玻爾茲曼機中的隱層節點與可視節點可以為任意的指數族單元(即給定隱單元(可見單元),可見單元(隱單元)的分布的形式一可以為任意的指數族分布),如高斯單元、softmax單元、泊松單元等等。
Deep BeliefNetworks深信度網絡
DBNs是一個概率生成模型,與傳統的判別模型的神經網絡相對,生成模型是建立一個觀察數據和標簽之間的聯合分布,對P(Observation|Label)和 P(Label|Observation)都做了評估,而判別模型僅僅而已評估了后者,也就是P(Label|Observation)。對于在深度神經網絡應用傳統的BP算法的時候,DBNs遇到了以下問題:
(1)需要為訓練提供一個有標簽的樣本集;
(2)學習過程較慢;
[if !supportLists](3)[endif]不適當的參數選擇會導致學習收斂于局部最優解。
目前,和DBNs有關的研究包括堆疊自動編碼器,它是通過用堆疊自動編碼器來替換傳統DBNs里面的RBMs。這就使得可以通過同樣的規則來訓練產生深度多層神經網絡架構,但它缺少層的參數化的嚴格要求。與DBNs不同,自動編碼器使用判別模型,這樣這個結構就很難采樣輸入采樣空間,這就使得網絡更難捕捉它的內部表達。但是,降噪自動編碼器卻能很好的避免這個問題,并且比傳統的DBNs更優。它通過在訓練過程添加隨機的污染并堆疊產生場泛化性能。訓練單一的降噪自動編碼器的過程和RBMs訓練生成模型的過程一樣。
Networks卷積神經網絡
卷積神經網絡是人工神經網絡的一種,已成為當前語音分析和圖像識別領域的研究熱點。它的權值共享網絡結構使之更類似于生物神經網絡,降低了網絡模型的復雜度,減少了權值的數量。該優點在網絡的輸入是多維圖像時表現的更為明顯,使圖像可以直接作為網絡的輸入,避免了傳統識別算法中復雜的特征提取和數據重建過程。卷積網絡是為識別二維形狀而特殊設計的一個多層感知器,這種網絡結構對平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。
CNNs是受早期的延時神經網絡(TDNN)的影響。延時神經網絡通過在時間維度上共享權值降低學習復雜度,適用于語音和時間序列信號的處理。
CNNs是第一個真正成功訓練多層網絡結構的學習算法。它利用空間關系減少需要學習的參數數目以提高一般前向BP算法的訓練性能。CNNs作為一個深度學習架構提出是為了最小化數據的預處理要求。在CNN中,圖像的一小部分(局部感受區域)作為層級結構的最低層的輸入,信息再依次傳輸到不同的層,每層通過一個數字濾波器去獲得觀測數據的最顯著的特征。這個方法能夠獲取對平移、縮放和旋轉不變的觀測數據的顯著特征,因為圖像的局部感受區域允許神經元或者處理單元可以訪問到最基礎的特征,例如定向邊緣或者角點。
[if !supportLists]第2章[endif]總結
深度學習是關于自動學習要建模的數據的潛在(隱含)分布的多層(復雜)表達的算法。換句話來說,深度學習算法自動的提取分類需要的低層次或者高層次特征。高層次特征,一是指該特征可以分級(層次)地依賴其他特征,例如:對于機器視覺,深度學習算法從原始圖像去學習得到它的一個低層次表達,例如邊緣檢測器,小波濾波器等,然后在這些低層次表達的基礎上再建立表達,例如這些低層次表達的線性或者非線性組合,然后重復這個過程,最后得到一個高層次的表達。
Deep learning能夠得到更好地表示數據的feature,同時由于模型的層次、參數很多,capacity足夠,因此,模型有能力表示大規模數據,所以對于圖像、語音這種特征不明顯(需要手工設計且很多沒有直觀物理含義)的問題,能夠在大規模訓練數據上取得更好的效果。此外,從模式識別特征和分類器的角度,deep learning框架將feature和分類器結合到一個框架中,用數據去學習feature,在使用中減少了手工設計feature的巨大工作量(這是目前工業界工程師付出努力最多的方面),因此,不僅僅效果可以更好,而且,使用起來也有很多方便之處,因此,是十分值得關注的一套框架,每個做ML的人都應該關注了解一下。
當然,deep learning本身也不是完美的,也不是解決世間任何ML問題的利器,不應該被放大到一個無所不能的程度。
2)Deep learning未來
深度學習目前仍有大量工作需要研究。目前的關注點還是從機器學習的領域借鑒一些可以在深度學習使用的方法,特別是降維領域。例如:目前一個工作就是稀疏編碼,通過壓縮感知理論對高維數據進行降維,使得非常少的元素的向量就可以精確的代表原來的高維信號。另一個例子就是半監督流行學習,通過測量訓練樣本的相似性,將高維數據的這種相似性投影到低維空間。另外一個比較鼓舞人心的方向就是evolutionary programming approaches(遺傳編程方法),它可以通過最小化工程能量去進行概念性自適應學習和改變核心架構。
Deep learning還有很多核心的問題需要解決:
(1)對于一個特定的框架,對于多少維的輸入它可以表現得較優(如果是圖像,可能是上百萬維)?
(2)對捕捉短時或者長時間的時間依賴,哪種架構才是有效的?
(3)如何對于一個給定的深度學習架構,融合多種感知的信息?
(4)有什么正確的機理可以去增強一個給定的深度學習架構,以改進其魯棒性和對扭曲和數據丟失的不變性?
(5)模型方面是否有其他更為有效且有理論依據的深度模型學習算法?
探索新的特征提取模型是值得深入研究的內容。此外有效的可并行訓練算法也是值得研究的一個方向。當前基于最小批處理的隨機梯度優化算法很難在多計算機中進行并行訓練。通常辦法是利用圖形處理單元加速學習過程。然而單個機器GPU對大規模數據識別或相似任務數據集并不適用。在深度學習應用拓展方面,如何合理充分利用深度學習在增強傳統學習算法的性能仍是目前各領域的研究重點。
本文還介紹了用于圖像分類的不同方法,目前主流的分類方法還是用卷積神經網絡。還了解了視網膜及其OCT圖像的具體結構和特征。