特征選擇與特征提取
模式識別的大致流程如下:
模式識別基本框架圖
從圖中我們可以知道,特征提取與選擇是在分類器設計之前完成,它主要的工作是針對數據原始特征的缺陷,降低特征維數,提高分類器的設計與性能。
原始特征
模式識別中把每個對象都量化為一組特征來描述,構建特征空間是解決模式識別問題的第一步,其中通過直接測量得到的特征稱為原始特征。如:
- 人體的各種生理指標(以描述健康狀況)
- 數字圖像中的每點的灰度值(以描述圖像內容)
原始特征的形成一般包含三大類:物理、結構和數學特征
- 物理和結構特征:易于為人的直覺感知,但是有時難以定量描述,因此不利于機器判別;
- 數學特征:易于用機器判別和分析,如統計特征。
原始特征是我們直接測量獲得的,但是往往不用于模式識別中,主要有以下幾個原因:
- 原始特征不能反映對象的本質特征;
- 高維的原始特征不利于分類器的設計;
- ** 計算量大*,如對于一幅1024768的灰度圖像,灰度級為256級,直接表示需要786432 bytes,進行訓練識別所需的空間、時間和計算量都無法接受;
- 冗余,原始特征空間中,大量的特征都是相關性強的冗余特征;
- 樣本分布十分稀疏,對于有限訓練樣本而言,在高維的原始特征空間中分布十分稀疏。
- 如果將數目過多的測量值不做分析,直接用于分類特征,不但耗時,而且會影響分類效果,產生“維數災難”等問題。
針對原始特征以上的特性和不足,為了設計出更好的分類器,通常需要對原始特征的測量值集合進行分析,經過選擇和變換處理,組成有效的識別特征。
處理方式主要有以下思路:
- 在保證一定分類精度的前提下,減少特征維數,進行“降維”處理,使分類器實現快速、準確、高效的分類;
- 去掉模棱兩可、不利于分類的特征,使得提供的特征具有更好的可分性,使分類器容易判別;
- 提供的特征不應重復,即去掉相關性強但是沒有增加更多分類信息的特征。
特征選擇
特征選擇(feature selection) 是指從原始特征中挑選出一組最有代表性、分類性能好的特征。
注意!注意!注意! 特征選擇是指從已有的特征集合中按某一分類準則選出一組子特征集和作為降維的分類特征使用。
特征選擇的方法大致分為兩類:
Filter 方法 和Wrapper 方法。