PCA模型加先驗

本文最先發表在本人博客:http://www.gotoli.us/?p=1684

大清牛人曰:ML派坐落美利堅合眾山中,百年來武學奇才輩出,隱然成江湖第一大名門正派,門內有三套入門武功,曰:圖模型加圈,神經網加層,優化目標加正則。有童謠為證:熟練ML入門功,不會作文也會謅。今天就介紹一個PCA加先驗的工作。


主成分分析 (PCA)


PCA是常用的數據降唯模型。PCA處理的數據中心點為零點 (y_1+...,y_n)/n,如果數據中心點不是零點,需要預處理數據y_i = y_i- (y_1+...,y_n)/n使得中心點為零點。PCA降唯的思路:1)找到m個相互正交并且使得投影方差最大的方向(專業一點的說法是找到一組使得方差最大的基),2)將k維的數據投影到這m個方向上,得到m維數據。因為m會小于k,數據的維度下降了。這里最難理解的部分就是“使得投影方差最大”了。

什么是“使得投影方差最大”?數據y在c方向的投影(標投影)為yTc,其中方向為單位向量||c||2=1。一堆數據y_1,y_2,....,y_n在c方向的投影為一堆數:y_1Tc,y_2Tc,....,y_n^Tc。“使得投影方差最大”是使得這堆數的方差最大。當然啦,PCA是找到m個方向,因此“使得投影方差最大”應該是使得m堆數的方差之和最大。

為什么要“使得投影方差最大”呢?我們看下圖,如果要把圖中的數據壓縮到一維,我們是選擇右上方向還是左上方向呢?我們當然應該選右上方向! 因為右上方向上數據點散得比較開,壓縮之后不同的數據點也好區分;而左上方向上數據點比較密集,不同數據壓縮之后變相同的概率比較大。在中心點為零點的情況下,“散得開不開”可以用這個方向上的投影方差刻畫。方差比較大,“散得比較開”;方差比較少,“擠得密集”。因此我們需要“使得投影方差最大”。同時,這也是為什么PCA需要預處理數據使得中心點為零點。


讓Y表示預處理之后的數據,其中每一行代表一條k維度的數據;C表示PCA要找的方向,其中每一列代表一個方向。數據在不同方向的投影方差和等于||YC||_F2,也就是等于Tr(CT Y^T YC)。因此PCA需要求解如下優化問題。

上面的優化問題利用了Y^T Y。中心點為零點的情況下,Y^T Y為不同變量的協方差矩陣。PCA模型也可以基于協方差矩陣來解釋,這里就不介紹了,有興趣的同學可以看參考文獻一。求解上面的優化問題蠻簡單的,因為Y^T Y前m個特征向量就是答案!!!一旦求得C,立得壓縮之后的數據為YC。


海量多標記分類


介紹完PCA的基本知識,再來介紹一個PCA加先驗的工作。這個工作都應用在海量多標記分類任務上。在多標記分類問題,一個實例同時擁有多個類別(標記)。比如一篇關注全球變暖的新聞報道既屬于科學類別,也屬于環境類別。有些任務中標記數量特別巨大,我們稱之為海量多標記分類。比如多標記分類可以應用于標簽推薦任務中,標簽數量成千上萬。用Y表示已經去中心化之后的標記矩陣,其中每一行代表一個實例的標記情況;用X表示實例,其中每一行代表一個實例的特征。

我們自然會想著把標記向量降維到一個低維向量,然后學習一個從實例到低維向量的模型,最后從低維向量還原出標記來(媽蛋!!什么叫自然!!!09年才有人這么做好吧!!!)。作為最常用的數據降維方法,自然有人將PCA應用在這個問題上。但只用PCA是有缺陷的。PCA只會考慮怎么有效地將標記向量壓縮成低維向量,但低維向量是否適合學習就不管了。壓縮得到的低維向量和實例特征有可能沒有一點相關性,導致很難學習到一個從實例到低維向量的模型。這時候我們就應該往PCA模型加點“容易學習”的先驗了。

Chen et al (2012) 假設實例到低維向量的模型是線性模型W,這時“容易學習”的先驗知識可以表示為


根據最小二乘法,我們求得W


將這個“容易學習”的先驗加入PCA,我們能夠得到

求解上面的優化問題就可以將“容易學習”的先驗加入PCA,使之適用于海量多標記分類任務。


參考文獻


http://www.cse.psu.edu/~rtc12/CSE586Spring2010/lectures/pcaLectureShort_6pp.pdf

Chen, Yao-Nan, and Hsuan-Tien Lin. "Feature-aware label space dimension reduction for multi-label classification." Advances in Neural Information Processing Systems. 2012.

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,527評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,687評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,640評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,957評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,682評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,011評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,009評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,183評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,714評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,435評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,665評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,148評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,838評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,251評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,588評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,379評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,627評論 2 380

推薦閱讀更多精彩內容