回歸(二):再論線性回歸

機(jī)器學(xué)習(xí)中的“假設(shè)”問(wèn)題

機(jī)器學(xué)習(xí)的本質(zhì)是一個(gè)建模過(guò)程,所有理論都有出發(fā)點(diǎn),也就是“假設(shè)”,那么這些假設(shè)有哪些特點(diǎn)呢?

  • 內(nèi)涵性
    類似于宏觀經(jīng)濟(jì)理論強(qiáng)調(diào)的“微觀基礎(chǔ)”,假設(shè)依據(jù)常理也應(yīng)該是正確的。比如我們假設(shè)一個(gè)人的身高在[150cm,220cm]內(nèi),對(duì)于大多數(shù)情況該假設(shè)都是正確的。但要注意的一點(diǎn)是往往正確并不意味著永遠(yuǎn)正確

  • 簡(jiǎn)化性
    假設(shè)只要求接近真實(shí),并非完全模擬真實(shí),所以我們往往需要做若干簡(jiǎn)化。
    比如在數(shù)理統(tǒng)計(jì)中用泊松分布模擬站臺(tái)人流量,認(rèn)為每個(gè)人的滯留時(shí)間都是獨(dú)立同分布的,但真實(shí)世界并非如此,這很明顯就是一個(gè)簡(jiǎn)化。

  • 發(fā)散性
    我們?cè)谀撤N簡(jiǎn)化假設(shè)推導(dǎo)下得到的結(jié)論,不一定只有在假設(shè)成立時(shí)結(jié)論才成立。有時(shí)明顯不正確的假設(shè),但在實(shí)踐中是work的。

![][equtation3]
[equtation3]: http://latex.codecogs.com/svg.latex?\hat{x}=(A{T}A){-1}A^{T}\bm{b}
在實(shí)際工作中,若A^T*A不可逆或者防止過(guò)擬合,可以加入λ擾動(dòng)。
![][equtation4]
[equtation4]: http://latex.codecogs.com/svg.latex?\hat{x}=(A{T}A+{\lambda}I){-1}A^{T}\bm{b}

殘差分析

由上文可知,我們可知得到最小二乘解的矩陣形式是:
那么什么叫過(guò)擬合或者欠擬合呢?回到線性回歸方程,我們最后得到的結(jié)果為:
![][equtation5]
[equtation5]: http://latex.codecogs.com/svg.latex?b=A{\hat{x}}+\epsilon
以為是擬合是盡量還原樣本間的內(nèi)在邏輯,曲線并不會(huì)過(guò)每一個(gè)樣本,體現(xiàn)在這個(gè)等式中就是最后一項(xiàng),我們將之稱為殘差,圍繞這一項(xiàng)的工作,我們稱之為殘差分析

對(duì)于殘差項(xiàng)的分析,是分析模型合理性的重要指標(biāo)。根據(jù)中心極限定理,在線性回歸模型中,殘差應(yīng)滿足白噪聲假設(shè)(White Noise Condition):

  • 殘差獨(dú)立同分布(independent and identical distribution,iid),且無(wú)自相關(guān)性;
  • 殘差和自變量X不相關(guān);
  • 殘差的均值為0,方差為常數(shù)。

在統(tǒng)計(jì)學(xué)中,白噪聲隨機(jī)序列是指一組無(wú)自相關(guān)性,且有相同分布的隨機(jī)序列。理論上,白噪聲假設(shè)不要求隨機(jī)變量服從正態(tài)分布,而可以是任意分布。但基于中心極限定理,假設(shè)殘差服從正態(tài)分布是一個(gè)合理的近似。
基于以上白噪聲假設(shè)的第3條,當(dāng)殘差方差為常數(shù)時(shí),我們稱殘差具有同方差性(homoscedasticity);當(dāng)殘差方差不是常數(shù)時(shí),稱殘差具有異方差性(heteroscedasticity)。

可視化在殘差分析中的重要性

著名的安斯庫(kù)姆四重奏(Anscombe's quartet)展示了在線性回歸模型中具有相同的統(tǒng)計(jì)特征,但數(shù)據(jù)分布明顯不同的四個(gè)例子,用于說(shuō)明線性回歸建模前進(jìn)行數(shù)據(jù)可視化分析的重要性:



我們除了關(guān)注數(shù)據(jù)是否存在明顯的線性相關(guān)特征外,還需要觀察離群值的數(shù)量。離群值和殘差異方差性是緊密相關(guān)的概念。通常,如果一個(gè)數(shù)據(jù)點(diǎn)為離群值,同時(shí)也意味著它對(duì)應(yīng)的殘差具有較大的方差,因此數(shù)據(jù)中的離群值數(shù)量較多的話,殘差一般也會(huì)出現(xiàn)明顯的異方差性。

關(guān)于線性回歸的離群值的判斷,有兩個(gè)要點(diǎn):

  • 數(shù)據(jù)中存在少量的離群值是合理的。例如,當(dāng)我們產(chǎn)生1000個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)數(shù),以距離均值大于兩個(gè)標(biāo)準(zhǔn)差作為離群值判斷標(biāo)準(zhǔn),因?yàn)閿?shù)據(jù)落在兩個(gè)標(biāo)準(zhǔn)差之外的概率約為4.5%。此時(shí)如果我們?nèi)コ@45個(gè)離群值來(lái)估計(jì)分布的方差,將會(huì)得到小于1的結(jié)論。因此,在刪去離群值前應(yīng)慎重考慮,除了因?yàn)榇嬖谏倭侩x群值是合理的以外,離群值可能包含抽樣或者數(shù)據(jù)的特征或者存在的問(wèn)題。因此,如果數(shù)據(jù)中存在相當(dāng)數(shù)量的離群值,應(yīng)分析其成因,而非簡(jiǎn)單將其刪去。

  • 線性回歸離群值(regression outlier)是指對(duì)線性回歸模型參數(shù)估計(jì)有強(qiáng)影響力的離群值(influential outlier)。只有當(dāng)一個(gè)離群值具有高杠桿值(high leverage)且有明顯的偏差(significant discrepancy)時(shí),它才有可能是具有強(qiáng)影響力的。對(duì)于一元回歸而言,只有當(dāng)數(shù)據(jù)點(diǎn)出現(xiàn)在圖的右下方時(shí),它才有可能是有強(qiáng)影響力的。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,321評(píng)論 6 543
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,559評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 178,442評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 63,835評(píng)論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,581評(píng)論 6 412
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 55,922評(píng)論 1 328
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,931評(píng)論 3 447
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 43,096評(píng)論 0 290
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,639評(píng)論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,374評(píng)論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,591評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,104評(píng)論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,789評(píng)論 3 349
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 35,196評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 36,524評(píng)論 1 295
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,322評(píng)論 3 400
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,554評(píng)論 2 379

推薦閱讀更多精彩內(nèi)容