R語言高級方法進(jìn)行缺失數(shù)據(jù)多重插補(bǔ)案例演示

當(dāng)我們在數(shù)據(jù)集中缺少值時(shí),重要的是考慮為什么它們會丟失以及它們對分析的影響。有時(shí)忽略丟失的數(shù)據(jù)會降低功耗,但更重要的是,有時(shí)它會使答案有偏差,并有可能誤導(dǎo)錯(cuò)誤的結(jié)論。因此,重要的是要考慮丟失的數(shù)據(jù)機(jī)制是什么,以便對其進(jìn)行處理。 Rubin(1976)區(qū)分了三種類型的誤報(bào)機(jī)制:

  • 完全隨機(jī)缺失(MCAR)Missing completely at random:當(dāng)可以將缺少值的案件視為所有案件的隨機(jī)樣本時(shí);在實(shí)踐中很少發(fā)生MCAR
  • 隨機(jī)丟失(MAR)Missing at random :以我們擁有的所有數(shù)據(jù)為條件時(shí),任何剩余的丟失都是完全隨機(jī)的;也就是說,它不依賴于某些缺少的變量。因此,可以使用觀察到的數(shù)據(jù)對缺失進(jìn)行建模。然后,我們可以對可用數(shù)據(jù)使用專門的缺失數(shù)據(jù)分析方法,以糾正缺失的影響。
  • 非隨機(jī)丟失(MNAR)Missing not at random:當(dāng)數(shù)據(jù)既不是MCAR也不是MAR時(shí)。這種情況通常很難處理,因?yàn)樗鼘⑿枰獙θ笔J竭M(jìn)行強(qiáng)有力的假設(shè)。

缺失數(shù)據(jù)的常見處理方法

  • 人們嘗試處理丟失數(shù)據(jù)的一種常見方法是刪除所有缺少值的情況。這種方法稱為完整案例分析(CC:Complete cases)。但是,CC僅在數(shù)據(jù)為MCAR時(shí)有效。
  • 另一種方法是多重插補(bǔ)(MI:multiple imputation),這是一種 (monte carlo) 蒙特卡洛方法,它模擬多個(gè)值以插補(bǔ)(填充)每個(gè)缺失值,然后分別分析每個(gè)插補(bǔ)數(shù)據(jù)集,最后將結(jié)果匯總在一起。我們多次估算缺失的數(shù)據(jù),以解決我們對缺失數(shù)據(jù)的真實(shí)(未知)值的不確定性。
  • 在處理示例數(shù)據(jù)集時(shí),我們對多重插補(bǔ)更加滿意。從理論上講,多重插補(bǔ)可以處理所有三種類型的缺失。但是,執(zhí)行多重插補(bǔ)通常不適合MNAR情況。MNAR類型的數(shù)據(jù)的數(shù)據(jù)分析更加復(fù)雜,這里我們假設(shè)數(shù)據(jù)是屬于 MAR 數(shù)據(jù)。

實(shí)際數(shù)據(jù)操作

# required libraries
library(mice)
## Warning: package 'mice' was built under R version 3.6.3
## 
## Attaching package: 'mice'
## The following objects are masked from 'package:base':
## 
##     cbind, rbind
library(VIM)
## Warning: package 'VIM' was built under R version 3.6.3
## Loading required package: colorspace
## Loading required package: grid
## Loading required package: data.table
## VIM is ready to use. 
##  Since version 4.0.0 the GUI is in its own package VIMGUI.
## 
##           Please use the package to use the new (and old) GUI.
## Suggestions and bug-reports can be submitted at: https://github.com/alexkowa/VIM/issues
## 
## Attaching package: 'VIM'
## The following object is masked from 'package:datasets':
## 
##     sleep
library(lattice)

載入數(shù)據(jù)

  • 這是一個(gè)25行四列的數(shù)據(jù)
  • A data frame with 25 observations on the following 4 variables.
  • age:Age group (1=20-39, 2=40-59, 3=60+)
  • bmi:Body mass index (kg/m**2)
  • hyp:Hypertensive (1=no,2=yes)
  • chl:Total serum cholesterol (mg/dL)
# load data
data(nhanes2)
dim(nhanes2)
## [1] 25  4
head(nhanes2)
##     age  bmi  hyp chl
## 1 20-39   NA <NA>  NA
## 2 40-59 22.7   no 187
## 3 20-39   NA   no 187
## 4 60-99   NA <NA>  NA
## 5 20-39 20.4   no 113
## 6 60-99   NA <NA> 184

md.pattern可視化缺失模式

md.pattern(nhanes2) 
image.png
##    age hyp bmi chl   
## 13   1   1   1   1  0
## 3    1   1   1   0  1
## 1    1   1   0   1  1
## 1    1   0   0   1  2
## 7    1   0   0   0  3
##      0   8   9  10 27

VIM包對缺失數(shù)據(jù)可視化

  • aggr函數(shù)可視化
library(VIM)
nhanes2_aggr = aggr(nhanes2,
                    col=mdc(1:2), # 顏色設(shè)置
                    numbers=TRUE, 
                    sortVars=TRUE, 
                    labels=names(nhanes2), 
                    cex.axis=.7, gap=3, 
                    ylab=c("Proportion of missingness","Missingness Pattern"))
image.png
還有 71% 的精彩內(nèi)容
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
支付 ¥6.99 繼續(xù)閱讀
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,825評論 6 546
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,814評論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,980評論 0 384
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 64,064評論 1 319
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,779評論 6 414
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 56,109評論 1 330
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,099評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,287評論 0 291
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,799評論 1 338
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,515評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,750評論 1 375
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,221評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,933評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,327評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,667評論 1 296
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,492評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,703評論 2 380

推薦閱讀更多精彩內(nèi)容