特征工程-怎么選擇特征?(一)

特征的選擇對(duì)于整個(gè)模型預(yù)測(cè)的準(zhǔn)確性有至關(guān)重要的作用,好的特征集對(duì)于一個(gè)機(jī)器學(xué)習(xí)模型的預(yù)測(cè)效果的邊際貢獻(xiàn)遠(yuǎn)遠(yuǎn)大于好的模型的貢獻(xiàn):

  • 不同的機(jī)器學(xué)習(xí)模型(SVM或RandomForest等)對(duì)于有效的特征集的訓(xùn)練效果,差別不會(huì)特別大;
  • 但是,如果特征集很爛,無論什么模型,都很難有較好的訓(xùn)練效果。

所以,還是那句話:

Garbage in, garbage out !

1. 什么是特征(Features)?

特征是任何機(jī)器學(xué)習(xí)模型的進(jìn)行訓(xùn)練的”原材料”,無論是監(jiān)督式模型(Supervised)還是無監(jiān)督式(Unsupervised)模型,都需要特征集作為輸入變量(Input variables)。當(dāng)然監(jiān)督式模型相比無監(jiān)督式模型還需要輸出變量(Output),我們稱之為目標(biāo)(target)。無論是特征還是目標(biāo),它們的類型無非以下幾種:

  • 二元制(Binary):如{漲,跌}, {對(duì), 錯(cuò)}, {男, 女};
  • 有限的離散集 (finite discrete): 如一周有七天(星期一、星期二...),或者一個(gè)城市的行政區(qū)(黃埔、靜安...)。這些數(shù)據(jù)可以是有序的,也可以是無序的。
  • 連續(xù)性數(shù)值:處于負(fù)無窮到正無窮所有數(shù)值,如股價(jià)、利率等

2. 特征怎么來?

特征是機(jī)器學(xué)習(xí)模型的“原材料”,那特征的“原材料”是什么?其實(shí)就是原始數(shù)據(jù),例如股票的行情數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)等;將這些原始數(shù)據(jù)經(jīng)過一系列的轉(zhuǎn)換加工得到特征,例如技術(shù)指標(biāo)(MACD、DMA等)。在這個(gè)轉(zhuǎn)換的過程中涉及到一系列的數(shù)據(jù)處理的流程,下面我們進(jìn)行詳細(xì)說明。

數(shù)據(jù)清洗及處理

做研究最怕什么?數(shù)據(jù)是錯(cuò)的,那一切無從談起,在盡可能的確保數(shù)據(jù)質(zhì)量的前提下,我們還是要對(duì)數(shù)據(jù)進(jìn)行規(guī)范性的清洗,無論是原始數(shù)據(jù)、還是經(jīng)轉(zhuǎn)換后的特征集都要經(jīng)過以下步驟進(jìn)行處理:

  • 缺失值處理:1. 直接刪除(常用); 2. 或者進(jìn)行插值處理(Interpolate);
  • 異常值處理:1. 直接刪除; 2. 極值處理到一個(gè)正常區(qū)間(推薦);
  • 標(biāo)準(zhǔn)化處理:1. 正態(tài)標(biāo)準(zhǔn)化(常用);2. 其他標(biāo)準(zhǔn)化(見文末);
  • 相關(guān)性指標(biāo)處理:有時(shí)候特征集當(dāng)中有些指標(biāo)的相關(guān)性特別高,對(duì)于一些模型,這種指標(biāo)間的高度相關(guān)可能會(huì)降低模型的預(yù)測(cè)效果,所以在訓(xùn)練模型之前,要找出相關(guān)性較高的幾對(duì)指標(biāo),并保留其中一個(gè)。
  • 線性相關(guān)指標(biāo)處理:除了上文提高一對(duì)高度相關(guān)的指標(biāo)的問題,同時(shí)也可能存在某幾個(gè)指標(biāo)與另一個(gè)指標(biāo)存在線性回歸的關(guān)系,這也會(huì)影響模型的預(yù)測(cè)效果。
    01
    01
  • 特征的轉(zhuǎn)換(可選):如PCA等方法

3. 怎么選擇特征(或指標(biāo))?

訓(xùn)練任何一個(gè)機(jī)器學(xué)習(xí)的模型時(shí),輸入的特征并不是越多越好,如果一股腦放入幾十上百個(gè)特征去訓(xùn)練,往往會(huì)適得其反。一個(gè)模型的好壞往往取決于幾個(gè)(三到五個(gè))核心的指標(biāo)。所以特征的選擇就極為重要。特征選擇主要由以下兩類方法:

  • 過濾法:該方法的特點(diǎn)是不需要機(jī)器學(xué)習(xí)模型的參與,直接測(cè)量特征與預(yù)測(cè)目標(biāo)(Target)的相關(guān)程度,只要通過某些選取標(biāo)準(zhǔn)的指標(biāo)才會(huì)被應(yīng)用到模型的訓(xùn)練中。

  • 封裝法:該方法與過濾法最大的區(qū)別是在選特征的時(shí)候運(yùn)用的相關(guān)的機(jī)器學(xué)習(xí)模型,直接通過篩選預(yù)測(cè)效果好的指標(biāo)作為特征集。

兩種方法各有優(yōu)缺點(diǎn),過濾法會(huì)刪除相關(guān)度較低的特征,缺點(diǎn)是某些特征可能本身與目標(biāo)相關(guān)度較低,但與其他特征結(jié)合起來可能會(huì)提高預(yù)測(cè)的效果,所以存在誤刪的情況。封裝法直接將特征輸入模型,通過各種迭代選出最適合某些模型的一組特征;缺點(diǎn)時(shí)運(yùn)算效率太慢,而且存在過度擬合的風(fēng)險(xiǎn)。最適合的解決辦法是,通過過濾法篩選出一批有潛力的特征,再通過封裝法精選特征,從而構(gòu)建一個(gè)預(yù)測(cè)效果良好的機(jī)器學(xué)習(xí)模型。

在這篇文章中,我們主要討論過濾法的實(shí)際運(yùn)用。通過各種不同的判斷特征重要性的方法與標(biāo)準(zhǔn)選則相應(yīng)的特征,無外乎以下幾種方法:

  • 選擇重要性最高的前N個(gè)特征;
  • 選擇重要性最高的前n%的特征;
  • 選擇重要性超過一定閾值s的特征。

無論是N、n還是s,都可以通過優(yōu)化的方法找到最優(yōu)值運(yùn)用到最后的模型中去。

3.1 重要性

現(xiàn)在主要的問題就是怎么評(píng)價(jià)一個(gè)特征對(duì)于所需預(yù)測(cè)的目標(biāo)的重要性,我們稱之為Variable Importance(VI)。結(jié)合各方面的文獻(xiàn),VI的評(píng)價(jià)方法主要有以下指標(biāo):

  • 信息熵(Mutual Information)
  • Cramer's V

(未完待續(xù))

總結(jié)

所有算法的學(xué)習(xí)都要了解該算法所針對(duì)的問題,以及這個(gè)問題是不是你當(dāng)前遇到的。不推薦窮舉式的嘗試去找出一個(gè)最優(yōu)的組合,這樣的做法

附錄

其他標(biāo)準(zhǔn)化方法

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,702評(píng)論 6 534
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,615評(píng)論 3 419
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,606評(píng)論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,044評(píng)論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,826評(píng)論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,227評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,307評(píng)論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,447評(píng)論 0 289
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,992評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,807評(píng)論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,001評(píng)論 1 370
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,550評(píng)論 5 361
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,243評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,667評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,930評(píng)論 1 287
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,709評(píng)論 3 393
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,996評(píng)論 2 374

推薦閱讀更多精彩內(nèi)容