模式識別與機器學習的關系
https://blog.csdn.net/qq_33414271/article/details/78682239
模式識別:自己建立模型刻畫已有的特征,樣本是用于估計模型中的參數。模式識別的落腳點是感知
模式識別是70年代和80年代非常流行的一個術語。它強調的是如何讓一個計算機程序去做一些看起來很“智能”的事情,例如識別“3”這個數字。而且在融入了很多的智慧和直覺后,人們也的確構建了這樣的一個程序。例如,區分“3”和“B”或者“3”和“8”。早在以前,大家也不會去關心你是怎么實現的,只要這個機器不是由人躲在盒子里面偽裝的就好。不過,如果你的算法對圖像應用了一些像濾波器、邊緣檢測和形態學處理等等高大上的技術后,模式識別社區肯定就會對它感興趣。光學字符識別就是從這個社區誕生的。因此,把模式識別稱為70年代,80年代和90年代初的“智能”信號處理是合適的。決策樹、啟發式和二次判別分析等全部誕生于這個時代。而且,在這個時代,模式識別也成為了計算機科學領域的小伙伴搞的東西,而不是電子工程。
模式識別是根據已有的特征,通過參數或者非參數的方法給定模型中的參數,從而達到判別目的的;機器學習側重于在特征不明確的情況下,用某種具有普適性的算法給定分類規則
1 引言
人很容易認識自己的同類,能在人群中一眼認出熟人,能和別人交流,同時,人也能分辨不同的物體,具有記憶和學習能力,善于把握總結所見物體的特征或屬性。可以說,人和動物的識別能力是極其平常的,但是,識別能力對最初的機器來說卻是非常困難的。時代的推進需要機器具有甚至超過人或其他生物的識別能力,應用于人類社會各個不同領域,帶來可觀的效益。因此,模式識別應運而生。
2 模式識別的定義
什么是模式和模式識別呢?粗略地說,存在于外部世界中每一個需要識別的對象都可以稱作一個模式。實際上,外部世界的事物只有通過人的視覺、聽覺、嗅覺、觸覺器官的感知才能夠為人所認識,而模式則是指是通過對信號的采樣、量化和處理后得到的關于識別對象描述的一組屬性的集合,例如視覺識別對象的顏色、大小、形狀,聽覺識別對象的聲音在各個頻率上的能量分布等。而模式識別則是從工程的角度考慮,針對給定的任務和應用,研究如何使計算機具有識別能力的理論和方法。模式識別的目的是利用計算機對物理對象進行分類,在錯誤概率最小的條件下,使識別的結果盡量與客觀物體相符合。
3 模式識別的歷史
模式識別誕生于20世紀20年代,隨著40年代計算機的出現,50年代人工智能的興起,模式識別在60年代初迅速發展成一門學科。下面列舉了模式識別的大事件:
(1)1929年G.Tauschek發明閱讀機,能夠閱讀0~9的數字。
(2)20世紀30年代Fisher提出統計分類理論,奠定了統計模式識別的基礎。因此,在20世紀60~70年代,統計模式識別發展很快,被識別的模式越來越復雜,特征也越多,就出現“維數災難”,但由于計算機運算速度的迅猛發展,這個問題得到一定克服,統計模式識別仍是模式識別的主要理論。
(3)50年代Noam Chemsky提出形式語言理論,美籍華人付京孫提出句法結構模式識別。
(4)60年代L.A.Zadeh提出了模糊集理論。模糊模式識別理論得到了較廣泛的應用。
(5)1973年 IEEE發起了第一次關于模式識別的國際會議“ICPR”,成立了國際模式識別協會---“IAPR”,每兩年召開一次國際學術會議。
(6)1977年IEEE的計算機學會成立了模式分析與機器智能(PAMI)委員會,每兩年召開一次模式識別與圖像處理學術會議。
(7)80年代Hopfield提出神經元網絡模型理論。近些年人工神經元網絡在模式識別和人工智能上得到了較廣泛的應用。
(8)90年代小樣本學習理論。支持向量機也得到了很大重視。
4 模式識別系統組成
(1)數據采集與預處理
用計算機可以運算的符號來表示所研究的對象。預處理單元:去噪聲,提取有用信息,并對輸入測量儀器或其它因素所造成的退化現象進行復原。
(2)特征生成
經過數據采集得到的數據一般比較大,很難進行直接分類識別,需要對原始信息進行處理,找出描述不同類別對象之間差異的“特征”。
(3)特征提取與選擇
對原始數據進行變換,得到最能反映分類本質的特征。目的是要降低特征維數。
(4)分類決策
在特征空間中用模式識別方法把被識別對象歸為某一類別
5 模式識別的應用
模式識別是近30年來得到迅速發展的一門新興的邊緣科學,與它相關的學科有線性代數、統計學、概率論、機器學習、形式語言、圖像處理和計算機視覺等等。模式識別的應用幾乎遍及各個領域。
(1)科學應用
1)天文:天文望遠鏡圖像分析、分辨率改進和大氣損失去除。
2)地球和行星探測、大地測量與地圖繪制。
3)衛星數據分析。
(2)生命與行為科學
1)人類學、自動細胞學、遺傳研究。
2)考古學。
3)植物學、微生物學、昆蟲學。
4)心理學。
5)信息管理系統。
(3)經濟領域
1)股票交易預測。
2)企業行為分析。
(4)醫學應用
1)醫學圖像分析。
2)放射性同位素檢查。
3)藥物作用。
(5)工程應用
1)特征識別。
2)語音分析。
3)產品缺陷檢測。
4)污染分析。
(6)農業應用
1)收成分析。
2)土壤分析。
3)過程控制。
4)地球資源攝影。
(7)軍事用途
1)空中攝影與遙感。
2)雷達和聲納信號檢測和分類。
3)自動目標識別。
(8)安全領域
1)指紋識別。
2)人臉識別。
3)監視和警報系統。
《模式識別》Pattern Recognition 哈工大出版社 劉家鋒
從工程角度考慮,針對給定的任務和應用,研究如何使計算機具有識別能力的理論和方法。模式指計算機通過對信號的采樣、量化和處理之后得到的關于識別對象描述的一組屬性的集合。
計算機識別的分類器,使用“距離”度量樣本之間以及樣本與類別之間的相似程度。距離和相似性度量:
距離滿足:(1)非負性 d(x,y)>=0;(2)對稱性 d(x,y)=d(y,x);(3)自反性 d(x,y)=0當且僅當x=y;(4)三角不等式 d(x,y)+d(y,z)>=d(x,z)
常見距離:
(1)歐式距離(Euclidean Distance):m維空間中兩個點的真實距離。特征空間中x,y兩點之間的直線距離。
(2)街市距離(City Block Distance):又叫曼哈頓距離,直觀理解是城市街道上汽車行駛所走過的距離,國際象棋中車所走過的格數。
(3)切比雪夫距離(Chebyshev Distance):國王和王后所走過的兩點之間最少的格數。
(4)閔可夫斯基距離(Minkowski Distance)
分類器的性能評價——評價指標
(1)識別錯誤率 Pe =me/m 這個分類器錯誤判別的概率
(2)拒識率:對非常有把握的樣本判別它的類別屬性,而對沒有把握的樣本拒絕識別。
(3)敏感性、特異性和ROC曲線
(4)召回率和準確率