背景
詳細(xì)請看微信公眾號(醫(yī)咖會)內(nèi)容。
很多回顧性分析,因?yàn)闆]有參與先前的分組設(shè)計(jì),所以很多混雜因素會影響我們對結(jié)果的推斷。我們必須平衡預(yù)處理協(xié)變量,使從觀測數(shù)據(jù)得到的因果關(guān)系推斷盡可能可靠。比如說研究一種藥物對疾病的影響,在臨床實(shí)驗(yàn)中,treat組和control組除了使用藥物(安慰劑)不同外,其他的臨床特征(如年齡、體重等)都應(yīng)該基本是相似的,這樣treat和control組才有可比性,進(jìn)而才能驗(yàn)證藥物的有效性。常用的一些方法有:
PSA (Propensity Score Analysis)
其基本原理是將多個混雜因素的影響用一個綜合的傾向性評分來表示,從而降低了協(xié)變量的緯度,減少了自變量的個數(shù),有效的克服了分層分析和多因素調(diào)整分析中要求自變量個數(shù)不能太多的短板。常用的方法有:
- 傾向性評分匹配法 (Propensity Score Matching)
- 傾向性評分分層法
- 傾向性評分校正法
- 傾向性評分加權(quán)法 (Propensity Score Weighting)
PSM (Propensity Score Matching)
PSM 是傾向性分析(PSA)中應(yīng)用最為廣泛的一種方法。
關(guān)鍵步驟有二:
- 估計(jì)傾向性評分(Estimate the propensity scores)
方法有判別分析(discriminant analysis)、邏輯回歸(logistic regression)和隨機(jī)森林(random forests)。最好的方法有待討論,但比較流行的方法之一是邏輯回歸。 - 匹配
匹配算法也有多種,例如精確匹配(Optimal matching),遺傳迭代匹配(Genetic matching)
工具(PSM)
R package MatchIt
MatchIt 默認(rèn)使用的傾向性評分方法是邏輯回歸,參數(shù)設(shè)置為 distance = "logit"
。還有其他模型:
- "mahalanobis": the Mahalanobis distance measure.
- binomial generalized linear models with one of the following link functions:
- "logit": logistic link
- "linear.logit": logistic link with linear propensity score1
- "probit": probit link
- "linear.probit": probit link with linear propensity score
- ...
- Choose one of the following generalized additive models (see help(gam) for more
options).
- "GAMlogit": logistic link
- "GAMlinear.logit": logistic link with linear propensity score
- "GAMprobit": probit link
- ...
- "nnet": neural network model. See help(nnet) for more options.
- "rpart": classification trees. See help(rpart) for more options.
匹配方法有 "exact" (exact matching), "full" (full matching), "genetic" (genetic matching), "nearest" (nearest neighbor matching), "optimal" (optimal matching), and "subclass" (subclassification) 。
具體使用方法可以參考官方文檔和此鏈接文章
還有一個PSW (Propensity Score Weighting)可用的R package PSW,但是我還沒研究,先mark下。
參考
Propensity Score Matching: Definition & Overview
Propensity score method: a non-parametric technique to reduce model dependence
MatchIt: Nonparametric Preprocessing for Parametric Causal Inference
JAMA. 2017 Feb 21;317(7):748-759