propensity score matching (PSM) 傾向性評(píng)分
文章內(nèi)容包括
- PSM的基本背景知識(shí)
- 運(yùn)用R包(2個(gè))實(shí)例演示進(jìn)行數(shù)據(jù)的1:1, 1:2匹配。只要數(shù)據(jù)調(diào)教運(yùn)行1:2匹配也是可以的。
- 部分檢驗(yàn)協(xié)變量分布平衡的可視化
- 運(yùn)用數(shù)據(jù)全部是R中的自帶數(shù)據(jù),參考資料是R包的文檔及相關(guān)網(wǎng)絡(luò)資源匯總放在最后
- 請(qǐng)?zhí)貏e注意,如果有朋友付費(fèi),請(qǐng)謹(jǐn)慎考慮,學(xué)習(xí)是要付出時(shí)間的,沒(méi)有你想象中的看一下就會(huì)了發(fā)文章了;理性付費(fèi),不要付費(fèi)完覺(jué)得不值得,然后很自己很難受,覺(jué)得被欺騙了,這樣太不值得了。
基本背景與原理理解
- 在觀察數(shù)據(jù)的統(tǒng)計(jì)分析中,傾向評(píng)分匹配(PSM)是一種統(tǒng)計(jì)匹配方法,旨在通過(guò)考慮治療組和對(duì)照組的協(xié)變量來(lái)嘗試估計(jì)治療,政策或其他干預(yù)措施的效果。Paul Rosenbaum 和 Donald Rubin 在1983年介紹了該方法。
- 在觀測(cè)性研究中,暴露組與非暴露組(treat 和 control)通常無(wú)法進(jìn)行等同于隨機(jī)分組 ,協(xié)變量在組間不均衡,影響分析結(jié)果,而傾向性評(píng)分法PSM則可以幫助控制混雜因素不均衡的問(wèn)題。PSM試圖減少由于混淆變量而造成的偏差。
- 在隨機(jī)實(shí)驗(yàn)中(RCT),隨機(jī)化可以無(wú)偏估計(jì)治療效果。對(duì)于每個(gè)協(xié)變量治療組與對(duì)照組將平均保持平衡。不幸的是,對(duì)于觀察性研究,對(duì)研究對(duì)象的治療分配通常不是隨機(jī)的。通過(guò)匹配分組變量,使協(xié)變量在分組變量均衡來(lái)模擬RCT的隨機(jī)化的方法來(lái)減小誤差就是PSM的目的。
- 例如,我們對(duì)吸煙進(jìn)行的觀察性研究,我們不可能把人隨機(jī)分配到“吸煙”治療。僅將吸煙者與不吸煙者進(jìn)行比較而得出的治療效果可能會(huì)受到任何預(yù)測(cè)吸煙的因素(例如性別和年齡)的影響。PSM試圖通過(guò)使暴露和非暴露的組在控制變量方面具有可比性來(lái)控制這些偏差。
傾向性評(píng)分R操作演示
MatchIt包
### 傾向性評(píng)分 PSM
library(MatchIt)
data("lalonde")
head(lalonde)
## treat age educ black hispan married nodegree re74 re75 re78
## NSW1 1 37 11 1 0 1 1 0 0 9930.0460
## NSW2 1 22 9 0 1 0 1 0 0 3595.8940
## NSW3 1 30 12 1 0 0 0 0 0 24909.4500
## NSW4 1 27 11 1 0 0 1 0 0 7506.1460
## NSW5 1 33 8 1 0 0 1 0 0 289.7899
## NSW6 1 22 9 1 0 0 1 0 0 4056.4940
dim(lalonde)
## [1] 614 10
PSM評(píng)分匹配matchit
- 默認(rèn)是method = “nearest”算法,這些就是你選擇什么方法來(lái)進(jìn)行匹配,大概了解下即可。
- method=“exact”,精確匹配最簡(jiǎn)單的匹配版本是精確的。這種方法將每個(gè)處理單元與所有協(xié)變量上具有完全相同值的所有可能的控制單元匹配,形成子類,使每個(gè)子類中的所有單元(處理和對(duì)照)具有相同的協(xié)變量值。
- method = “subclass”當(dāng)有許多協(xié)變量(或一些協(xié)變量可以取大量值)時(shí),往往不可能找到足夠的精確匹配。子分類的目的是形成子類,這樣在每個(gè)子類中,處理組和對(duì)照組的協(xié)變量的分布(而不是確切的值)盡可能相似
- method = “optimal”,“最優(yōu)”匹配發(fā)現(xiàn)匹配的樣本在所有匹配對(duì)之間的平均絕對(duì)距離最小
- method = “full”.完全匹配的樣本由匹配的集合組成,其中每個(gè)匹配的集合包含一個(gè)處理單元和一個(gè)或多個(gè)控件(或一個(gè)控制單元和一個(gè)或多個(gè)處理單元)。
- method = “genetic”,其思想是使用genetic搜索算法為每個(gè)協(xié)變量找到一組權(quán)重,以便在匹配后達(dá)到最優(yōu)平衡的版本
- method = “cem” 這意味著處理組和對(duì)照組之間的平衡是由用戶事先選擇的,而不是通過(guò)通常的事后檢查和反復(fù)重新估計(jì)的費(fèi)力過(guò)程來(lái)發(fā)現(xiàn)的,因此調(diào)整一個(gè)變量上的不平衡對(duì)任何其他變量的最大不平衡都沒(méi)有影響