機器學習與模式識別系列之特征提取

特征選擇與特征提取

模式識別的大致流程如下:

模式識別基本框架圖

從圖中我們可以知道,特征提取與選擇是在分類器設計之前完成,它主要的工作是針對數據原始特征的缺陷,降低特征維數,提高分類器的設計與性能。

原始特征

模式識別中把每個對象都量化為一組特征來描述,構建特征空間是解決模式識別問題的第一步,其中通過直接測量得到的特征稱為原始特征。如:

  • 人體的各種生理指標(以描述健康狀況)
  • 數字圖像中的每點的灰度值(以描述圖像內容)

原始特征的形成一般包含三大類:物理、結構和數學特征

  • 物理和結構特征:易于為人的直覺感知,但是有時難以定量描述,因此不利于機器判別;
  • 數學特征:易于用機器判別和分析,如統計特征。

原始特征是我們直接測量獲得的,但是往往不用于模式識別中,主要有以下幾個原因:

  1. 原始特征不能反映對象的本質特征;
  2. 高維的原始特征不利于分類器的設計;
  • ** 計算量大*,如對于一幅1024768的灰度圖像,灰度級為256級,直接表示需要786432 bytes,進行訓練識別所需的空間、時間和計算量都無法接受;
  • 冗余,原始特征空間中,大量的特征都是相關性強的冗余特征;
  • 樣本分布十分稀疏,對于有限訓練樣本而言,在高維的原始特征空間中分布十分稀疏。
  1. 如果將數目過多的測量值不做分析,直接用于分類特征,不但耗時,而且會影響分類效果,產生“維數災難”等問題。

針對原始特征以上的特性和不足,為了設計出更好的分類器,通常需要對原始特征的測量值集合進行分析,經過選擇和變換處理,組成有效的識別特征。
處理方式主要有以下思路:

  • 在保證一定分類精度的前提下,減少特征維數,進行“降維”處理,使分類器實現快速、準確、高效的分類;
  • 去掉模棱兩可、不利于分類的特征,使得提供的特征具有更好的可分性,使分類器容易判別;
  • 提供的特征不應重復,即去掉相關性強但是沒有增加更多分類信息的特征。

特征選擇

特征選擇(feature selection) 是指從原始特征中挑選出一組最有代表性、分類性能好的特征。

注意!注意!注意! 特征選擇是指從已有的特征集合中按某一分類準則選出一組子特征集和作為降維的分類特征使用。

特征選擇的方法大致分為兩類:
Filter 方法 和Wrapper 方法。

未完待續。。。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 圖像識別意義: 圖像是指物體的描述信息,數字圖像是一個物體的數字表示。視覺是人類感知外部世界的最重要手段,據統計,...
    木木口丁閱讀 8,505評論 1 21
  • 這些年計算機視覺識別和搜索這個領域非常熱鬧,后期出現了很多的創業公司,大公司也在這方面也花了很多力氣在做。做視覺搜...
    方弟閱讀 6,571評論 6 24
  • Tutorial - 1 (a) 為什么e時代需要生物特征識別我們在信息時代面臨諸多問題,如病毒、黑客、計算機盜竊...
    ShellyWhen閱讀 2,332評論 0 4
  • 特征提取是計算機視覺和圖像處理中的一個概念。它指的是使用計算機提取圖像信息,決定每個圖像的點是否屬于一個圖像特征。...
    ChrisJO閱讀 2,449評論 1 10
  • 特征提取是計算機視覺和圖像處理中的一個概念。它指的是使用計算機提取圖像信息,決定每個圖像的點是否屬于一個圖像特征。...
    mogu醬閱讀 2,114評論 1 11