网易首页 > 网易号 > 正文 申请入驻

PSM倾向匹配Stata操作详细步骤和代码,干货十足

0
分享至

欢迎投稿(荐稿)计量经济圈,计量相关都行

箱:econometrics666@sina.cn

编辑:计量经济圈;上半部分作者,周支瑞,复旦大学附属肿瘤医院放射治疗在读博士;下半部分作者:计量经济圈 Inno.静;转载请注明出处。

试验设计中,匹配的目的在于确保干预效应估计是建立在可比个体之间的不同结果的基础上。最简单的匹配方式是将干预组和对照组中协变量值相同的两个个体进行配对分析。但是,如果协变量并不是某一个变量,而是一组变量时,这种简单的匹配方式也就不再适用,而是采用倾向得分匹配方式进行匹配。倾向性匹配得分(PSM)分析,主流统计学软件SAS、Stata、SPSS(22.0以上版本)、R语言均可实现。但SAS难度较高,不推荐;SPSS虽然操作简便,但是仅能实现1:1匹配,如无特殊需求可以尝试。笔者重点推荐使用Stata或者R语言完成PSM分析。下面笔者将以实例演示的形式讲解Stata软件在倾向性匹配得分中的应用。

1.安装psmatch2统计包。

命令如下:

.ssc install psmatch2

需要在联网状态下键入上述命令,然后软件自动搜索对应的程序包进行安装,成功安装后会有以下提示:

checking psmatch2 consistency and verifying not already installed...

installing into .\ado\plus\...

installation complete.(出现此提示表示安装完成)

为了验证是否成功安装以及查看psmatch2命令的帮助菜单,可在命令窗口键入

.help psmatch2

如果能顺利弹出帮助文件,表示安装成功,可正常使用。

2.数据准备

数据如下图所示,共有10个变量,614个观测,试验组185例,对照组429例。treat变量即为分组变量,“1”=试验组,“0”=对照组。age, educ, black, hispan, married, nodegree, re74, re75为协变量, re78为结局变量。事实上,倾向性匹配得分分析是要建立一个以分组变量(treat)为因变量,各个协变量(age, educ, black, hispan, married, nodegree, re74, re75)为自变量的回归方程。而结局变量(re78)在PSM过程中几乎不参与建模。

图1. 数据整理

3.数据分析及命令解读

命令窗口键入如下命令:

.gen tmp = runiform()

.sort tmp (以上两步对所有观测值进行随机排序)

.psmatch2 treat age educ black hispan married nodegree re74 re75, out(re78) logit neighbor(1) common caliper(.05) ties

.pstest, both

.psgraph

命令解读:

以下是帮助菜单中psmatch2语法格式,

psmatch2 depvar [indepvars] [if exp] [in range] [, outcome(varlist) pscore(varname) neighbor(integer) radius caliper(real) mahalanobis(varlist) ai(integer) population altvariance kernel llr kerneltype(type) bwidth(real) spline nknots(integer) common trim(real) noreplacement descending odds index logit ties quietly w(matrix) ate]

简单说就是:psmatch2 因变量 协变量,[选择项]。重点解读命令语句中选择项的含义。本例中选择“nearest neighbor matching within caliper”匹配方法。out(re78)指明结局变量。logit指定使用logit模型进行拟合,默认的是probit模型。neighbor(1)指定按照1:1进行匹配,如果要按照1:3进行匹配,则设定为neighbor(3),本例中因对照组样本量有限,仅适合1:1进行匹配。common强制排除试验组中倾向值大于对照组最大倾向值或低于对照组最小倾向值。caliper(.05)试验组与匹配对照所允许的最大距离为0.05。ties强制当试验组观测有不止一个最优匹配时同时记录。

pstest, both做匹配后均衡性检验,理论上说此处只能对连续变量做均衡性检验,对分类变量的均衡性检验应该重新整理数据后运用χ2检验或者秩和检验。但此处对于分类变量也有一定的参考价值。

psgraph对匹配的结果进行图示。

4.结果解读

4.1模型拟合结果,此处无太多实际意义。

图2. 回归结果

4.2试验组可匹配的观测概览,按照命令中设定的匹配规则,试验组有8例患者未能匹配到合适对照。

图3. 匹配情况概览

4.3结果解读的重点应该是对stata新生成的中间变量的解读。打开数据编辑窗口,会发现软件自动生成了几个新变量:其中_pscore是每个观测值对应的倾向值;_id是自动生成的每一个观测对象唯一的ID(事实上这列变量即是对_pscore排序);_treated表示某个对象是否试验组;_n1表示的是他被匹配到的对照对象的_id(如果是1:3匹配,还会生成_n2, _n3);_pdif表示一组匹配了的观察对象他们概率值的差。为了观察方便可以按照id变量进行排序,排序后结果如下图所示:

图4. 匹配后的数据

匹配后数据整理进行统计分析即可。

4.4均衡性检验结果

图5. 均衡性检验结果

由均衡性检验结果可知,(1)各变量匹配后在试验组和对照组间是均衡的。(2)只有educ这个变量匹配前后试验组较对照组p值无变化,匹配前该变量试验组和对照组就无差别,匹配后不太可能出现差异,因此在建模的时候也可以考虑把educ这个变量排除,事实证明排除这个变量后匹配结果更为理想,读者可自行尝试。需要再次强调的是,此处理论上说只能对连续变量做均衡性检验,对分类变量的均衡性检验应该重新整理数据后运用χ2检验或者秩和检验等方法。

4.5匹配结果的图示化

5.Stata命令汇总

.ssc install psmatch2 #安装程序包

.use "F:\lalonde.dta" #调用F盘存储数据

.gen tmp = runiform()

.sort tmp #对所有观测随机排序

.psmatch2 treat age educ black hispan married nodegree re74 re75, out(re78) logit neighbor(1) common caliper(.05) ties #PSM分析

.pstest, both #均衡性检验

.psgraph #图示匹配结果

最后留下两个问题给大家思考:

问题1:倾向性匹配得分分析这么牛,是不是可以替代设计良好的随机对照试验?

问题2:PSM既然可以很好的均衡基线特征,统计分析时继续运用多元回归是否还有必要?

题目

凡事有利必有弊!PSM肯定不是完美无缺的(废话,如果PSM完美无缺,那还要随机对照试验干什么?)。大家觉得PSM这种方法有何缺陷呢?当然,也可以顺便谈谈PSM的优点。

计量经济圈资深圈友:Inno·静,贡献倾向得分匹配分析代码

第一种:
教程: 倾向匹配分析深度(Propsensity matching analysis)

安装系统包:ssc install psmatch2

统计缺失值:misstable sum smoke2_new qa1age employ2014 cfps2010edu_best qe1_best urban qq301 qg307siops feduc meduc

建模:probit smoke2_new qa1age employ2014 cfps2010edu_best qe1_best urban qq301 qg307siops feduc meduc

计算得分:predict pscore, p

匹配:psmatch2 smoke2_new, pscore(pscore) noreplacement
attnd med_per fasmoke3_why $xlist, pscore(myscore) comsup boot reps($breps) dots

第二种:
psmatch2 smoke2_new qa1age employ2014 cfps2010edu_best qe1_best urban qq301 feduc meduc, out(income) logit neighbor(1) common caliper(.05) ties

pstest, both

psgraph

简单说就是:psmatch2 因变量 协变量,[选择项]。重点解读命令语句中选择项的含义。本例中选择“nearest neighbor matching within caliper”匹配方法。out(re78)指明结局变量。logit指定使用logit模型进行拟合,默认的是probit模型。neighbor(1)指定按照1:1进行匹配,如果要按照1:3进行匹配,则设定为neighbor(3),本例中因对照组样本量有限,仅适合1:1进行匹配。

common强制排除试验组中倾向值大于对照组最大倾向值或低于对照组最小倾向值。caliper(.05)试验组与匹配对照所允许的最大距离为0.05。ties强制当试验组观测有不止一个最优匹配时同时记录。

pstest, both做匹配后均衡性检验,理论上说此处只能对连续变量做均衡性检验,对分类变量的均衡性检验应该重新整理数据后运用χ2检验或者秩和检验。但此处对于分类变量也有一定的参考价值。

psgraph对匹配的结果进行图示。

第三种:
global ylist logmed_per5

global treat fasmoke1_why

global xlist falcohol3_why fasmokenum2_why smoke_longth logindinc

global xlist falcohol3_why logindinc

pscore $treat $xlist, pscore(mypscore) blockid(myblock) detail,if household_hsy==1

psgraph, treated($treat)pscore(mypscore)

gen logitpscore = log(mypscore/(1-mypscore))

sum logitpscore

qui psmatch2 $treat, outcome($ylist) pscore(mypscore) caliper(.01138) neighbor(1)

pstest $xlist, treated($treat) both graph, if household_hsy==1

drop mypscore myblock

写在后面:各位圈友,咱们的计量经济圈社群里面资料和计量咨询都很多,希望大家能够积极加入咱们这个大家庭戳这里)。之后我们会逐步邀请社群里的圈友再直接建立微信群与圈圈对话,进去之后一定要看“群公告”,不然接收不了群息。


帮点一下下面的小广告,表示感谢!!!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
韩媒:中国网友幸灾乐祸观看韩国队世界杯历史最差表现

韩媒:中国网友幸灾乐祸观看韩国队世界杯历史最差表现

懂球帝
2026-06-25 14:21:08
俄罗斯GDP,1993年是中国的97%,2009年是中国的23.5%,2025年呢

俄罗斯GDP,1993年是中国的97%,2009年是中国的23.5%,2025年呢

混沌录
2026-06-24 22:25:07
“张钧甯原名更难认了”上热搜,多名艺人真名公布!

“张钧甯原名更难认了”上热搜,多名艺人真名公布!

中国日报
2026-06-25 17:03:44
背叛中国、出卖孟晚舟凶手现形后,如今遭到了哪些报应?

背叛中国、出卖孟晚舟凶手现形后,如今遭到了哪些报应?

素衣读史
2026-06-25 21:29:56
理想汽车回应电池争议:无论谁生产 责任由理想兜底

理想汽车回应电池争议:无论谁生产 责任由理想兜底

CNMO科技
2026-06-24 22:23:03
世界杯A组全剧终:13队出线 韩国晋级渺茫 最大黑马产生

世界杯A组全剧终:13队出线 韩国晋级渺茫 最大黑马产生

体育哲人
2026-06-25 12:28:44
家暴丈夫,被指藏匿1400万元

家暴丈夫,被指藏匿1400万元

中国新闻周刊
2026-06-25 22:39:13
百万网红黄一鸣账号被封禁,作品全部清空,此前嚣张网暴女素人

百万网红黄一鸣账号被封禁,作品全部清空,此前嚣张网暴女素人

四斤
2026-06-25 10:08:29
大清已亡,陕甘总督还在率领大军攻城,差点为溥仪打下一片江山

大清已亡,陕甘总督还在率领大军攻城,差点为溥仪打下一片江山

云居历史
2026-06-25 21:08:49
蒋勤勤做梦也没想到,才19岁的大儿子,如今开始为全家人长脸了

蒋勤勤做梦也没想到,才19岁的大儿子,如今开始为全家人长脸了

胡一舸南游y
2026-06-25 23:24:27
6月25日47股成交额超过百亿,包括中际旭创、新易盛、兆易创新、京东方A、天孚通信等

6月25日47股成交额超过百亿,包括中际旭创、新易盛、兆易创新、京东方A、天孚通信等

金融界
2026-06-25 15:57:48
近70万海归挤回国,海归硕士求职被一句“我们不承认”给堵了回去

近70万海归挤回国,海归硕士求职被一句“我们不承认”给堵了回去

小叨娱乐
2026-06-04 11:26:37
用豆包专业版干活后,我承认之前是我说话太大声了。。

用豆包专业版干活后,我承认之前是我说话太大声了。。

差评XPIN
2026-06-25 03:05:53
霍家态度大变,霍启山三亚迎娶妲己娜然,霍启刚这次麻烦大了?

霍家态度大变,霍启山三亚迎娶妲己娜然,霍启刚这次麻烦大了?

不似少年游
2026-06-24 19:40:29
你捡个最大的漏是什么?看网友讲述,真是实名羡慕。

你捡个最大的漏是什么?看网友讲述,真是实名羡慕。

侃神评故事
2026-06-25 09:34:40
立陶宛新任总理现身,上来就对台当局喊话,又一个狠角色登上台面

立陶宛新任总理现身,上来就对台当局喊话,又一个狠角色登上台面

云上乌托邦
2026-06-24 22:17:53
内马尔妻子产后颜值仍高,被赞气质胜C罗女友

内马尔妻子产后颜值仍高,被赞气质胜C罗女友

铁锤妹妹是只猫
2026-06-17 11:32:44
面试了个985博士,要价月薪10万,总裁问他:“水浒108将必须裁员一半,你会留下谁?”他的回答让全场沉默

面试了个985博士,要价月薪10万,总裁问他:“水浒108将必须裁员一半,你会留下谁?”他的回答让全场沉默

起飞做故事
2026-06-24 17:45:30
互联网大厂开始清退组内的印度人,网友说看到印度人简历直接扔掉

互联网大厂开始清退组内的印度人,网友说看到印度人简历直接扔掉

灯锦年
2026-06-25 22:23:36
他是导致台湾难以收复的关键人物,若不是他,台湾或许早就解放了

他是导致台湾难以收复的关键人物,若不是他,台湾或许早就解放了

兵卒史
2026-06-10 04:40:13
2026-06-26 00:04:49
计量经济圈
计量经济圈
经济、金融等相关问题
338文章数 155关注度
往期回顾 全部

头条要闻

男子徒手抓蛇被咬还淡定合影 结果历经4次抢救两进ICU

头条要闻

男子徒手抓蛇被咬还淡定合影 结果历经4次抢救两进ICU

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

科技要闻

存储成本压力山大!苹果罕见全球提价

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

教育
亲子
家居
本地
公开课

教育要闻

暑假不补课,补“学习力”——为什么说暑假是ADHD孩子能力提升的最佳窗口?

亲子要闻

这10句保命原则一定要让孩子背下来!

家居要闻

绿意盎然 自然之境

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版