一文掌握傾向性評(píng)分PSM進(jìn)行數(shù)據(jù)匹配

propensity score matching (PSM) 傾向性評(píng)分

文章內(nèi)容包括

  • PSM的基本背景知識(shí)
  • 運(yùn)用R包(2個(gè))實(shí)例演示進(jìn)行數(shù)據(jù)的1:1, 1:2匹配。只要數(shù)據(jù)調(diào)教運(yùn)行1:2匹配也是可以的。
  • 部分檢驗(yàn)協(xié)變量分布平衡的可視化
  • 運(yùn)用數(shù)據(jù)全部是R中的自帶數(shù)據(jù),參考資料是R包的文檔及相關(guān)網(wǎng)絡(luò)資源匯總放在最后
  • 請(qǐng)?zhí)貏e注意,如果有朋友付費(fèi),請(qǐng)謹(jǐn)慎考慮,學(xué)習(xí)是要付出時(shí)間的,沒(méi)有你想象中的看一下就會(huì)了發(fā)文章了;理性付費(fèi),不要付費(fèi)完覺(jué)得不值得,然后很自己很難受,覺(jué)得被欺騙了,這樣太不值得了。

基本背景與原理理解

  • 在觀察數(shù)據(jù)的統(tǒng)計(jì)分析中,傾向評(píng)分匹配(PSM)是一種統(tǒng)計(jì)匹配方法,旨在通過(guò)考慮治療組和對(duì)照組的協(xié)變量來(lái)嘗試估計(jì)治療,政策或其他干預(yù)措施的效果。Paul Rosenbaum 和 Donald Rubin 在1983年介紹了該方法。
  • 在觀測(cè)性研究中,暴露組與非暴露組(treat 和 control)通常無(wú)法進(jìn)行等同于隨機(jī)分組 ,協(xié)變量在組間不均衡,影響分析結(jié)果,而傾向性評(píng)分法PSM則可以幫助控制混雜因素不均衡的問(wèn)題。PSM試圖減少由于混淆變量而造成的偏差。
  • 在隨機(jī)實(shí)驗(yàn)中(RCT),隨機(jī)化可以無(wú)偏估計(jì)治療效果。對(duì)于每個(gè)協(xié)變量治療組與對(duì)照組將平均保持平衡。不幸的是,對(duì)于觀察性研究,對(duì)研究對(duì)象的治療分配通常不是隨機(jī)的。通過(guò)匹配分組變量,使協(xié)變量在分組變量均衡來(lái)模擬RCT的隨機(jī)化的方法來(lái)減小誤差就是PSM的目的。
  • 例如,我們對(duì)吸煙進(jìn)行的觀察性研究,我們不可能把人隨機(jī)分配到“吸煙”治療。僅將吸煙者與不吸煙者進(jìn)行比較而得出的治療效果可能會(huì)受到任何預(yù)測(cè)吸煙的因素(例如性別和年齡)的影響。PSM試圖通過(guò)使暴露和非暴露的組在控制變量方面具有可比性來(lái)控制這些偏差。

傾向性評(píng)分R操作演示

MatchIt包

  • 1:1匹配
### 傾向性評(píng)分 PSM 
library(MatchIt)
data("lalonde")
head(lalonde)
##      treat age educ black hispan married nodegree re74 re75       re78
## NSW1     1  37   11     1      0       1        1    0    0  9930.0460
## NSW2     1  22    9     0      1       0        1    0    0  3595.8940
## NSW3     1  30   12     1      0       0        0    0    0 24909.4500
## NSW4     1  27   11     1      0       0        1    0    0  7506.1460
## NSW5     1  33    8     1      0       0        1    0    0   289.7899
## NSW6     1  22    9     1      0       0        1    0    0  4056.4940
dim(lalonde)
## [1] 614  10

PSM評(píng)分匹配matchit

  • 默認(rèn)是method = “nearest”算法,這些就是你選擇什么方法來(lái)進(jìn)行匹配,大概了解下即可。
  • method=“exact”,精確匹配最簡(jiǎn)單的匹配版本是精確的。這種方法將每個(gè)處理單元與所有協(xié)變量上具有完全相同值的所有可能的控制單元匹配,形成子類,使每個(gè)子類中的所有單元(處理和對(duì)照)具有相同的協(xié)變量值。
  • method = “subclass”當(dāng)有許多協(xié)變量(或一些協(xié)變量可以取大量值)時(shí),往往不可能找到足夠的精確匹配。子分類的目的是形成子類,這樣在每個(gè)子類中,處理組和對(duì)照組的協(xié)變量的分布(而不是確切的值)盡可能相似
  • method = “optimal”,“最優(yōu)”匹配發(fā)現(xiàn)匹配的樣本在所有匹配對(duì)之間的平均絕對(duì)距離最小
  • method = “full”.完全匹配的樣本由匹配的集合組成,其中每個(gè)匹配的集合包含一個(gè)處理單元和一個(gè)或多個(gè)控件(或一個(gè)控制單元和一個(gè)或多個(gè)處理單元)。
  • method = “genetic”,其思想是使用genetic搜索算法為每個(gè)協(xié)變量找到一組權(quán)重,以便在匹配后達(dá)到最優(yōu)平衡的版本
  • method = “cem” 這意味著處理組和對(duì)照組之間的平衡是由用戶事先選擇的,而不是通過(guò)通常的事后檢查和反復(fù)重新估計(jì)的費(fèi)力過(guò)程來(lái)發(fā)現(xiàn)的,因此調(diào)整一個(gè)變量上的不平衡對(duì)任何其他變量的最大不平衡都沒(méi)有影響
還有 94% 的精彩內(nèi)容
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
支付 ¥59.90 繼續(xù)閱讀
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,363評(píng)論 6 532
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,497評(píng)論 3 416
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 176,305評(píng)論 0 374
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 62,962評(píng)論 1 311
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,727評(píng)論 6 410
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 55,193評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,257評(píng)論 3 441
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 42,411評(píng)論 0 288
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,945評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,777評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,978評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,519評(píng)論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,216評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 34,642評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 35,878評(píng)論 1 286
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,657評(píng)論 3 391
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,960評(píng)論 2 373

推薦閱讀更多精彩內(nèi)容