从零掌握DID双重差分法原理、模型与案例实操(附案例数据) 在因果推断广泛应用的背景下双重差分法已成为社会科学研究的必备核心工具。本篇文章将带你全面了解DID的原理、模型与核心假设最后结合SPSSAU的操作案例让你可以直接上手分析数据。一、双重差分法是什么在计量经济学与社会科学研究中研究者经常面临一个根本性的难题如何证明某种政策或干预确实产生了因果效应而非仅仅反映了政策实施前后的自然趋势变化双重差分法Difference-in-Differences简称DID正是为解决这一难题而生的经典方法。‍1、概念双重差分法是一种用于评估干预/政策效果的准自然实验方法。它通过构造处理组实验组与对照组控制组对比两组在政策实施 “前” 与 “后” 的差异剔除时间效应与个体固定效应最终得到政策的净效应。简单来说DID 处理组后 - 处理组前-对照组后 - 对照组前通过两次差分剔除掉与政策无关的影响因素从而更干净地识别出政策本身带来的因果效应。‍2、DID适用场景DID 适用于满足以下条件的研究场景存在明确的干预事件 / 政策实施且有具体实施时间点存在受政策影响的处理组与不受影响的对照组拥有政策实施前、后两期或多期面板数据研究目标是估计政策的平均处理效应ATT。二、DID核心原理‍1、DID核心思想DID的核心思想是比较政策实施前后处理组与对照组的差异变化。处理组受政策或干预影响的群体。对照组未受政策或干预影响的群体。前后时间点通常至少需要干预前和干预后的两个时间点的数据。第一次差分时间差分处理组后 - 处理组前 政策效应 时间效应对照组后 - 对照组前 时间效应第二次差分组间差分处理组后 - 处理组前-对照组后 - 对照组前 纯政策净效应这就是 “双重差分” 名称的来源。通过 “差异的差异”剔除共同的时间趋势最终得到的差值即为政策的真实因果效应。用图形可以更清晰理解两条线在政策前趋势基本平行政策后出现明显缺口这个缺口就是 DID 估计出的政策效应。2、DID模型DID方法的数学模型直观而优雅其标准形式可用以下模型表示Yᵢₜ β₀ β₁·Timeₜ β₂·Treatᵢ β₃·(Treatᵢ × Timeₜ) εᵢₜ参数解读如下Yᵢₜ 个体 i 在时间 t 的结果变量如就业率、企业产出、健康状况等Treatᵢ 分组虚拟变量实验组取1控制组取0Timeₜ 时间虚拟变量政策实施后取1实施前取0Treatᵢ × Timeₜ 交互项DID的核心效应指标β₃双重差分效应量度量政策实施的真正净效应3、DID核心假设使用双重差分法需要满足3个重要假设否则估计可能存在偏差。1无溢出效应假设对照组没有受到政策的间接影响处理组也不会干扰对照组。2无预期效应假设个体不会在政策正式实施前提前改变行为从而提前产生效果。3平行趋势假设最最最重要在没有政策干预的情况下实验组和控制组的结果变量应具有相同的发展趋势。平行趋势检验可使用以下方法进行检验后续会依次介绍说明下面我们通过一个双重差分法的案例进行分析演示。三、DID案例分析案例背景B地区立法将最低工资从4.25美元/小时调高至5.05美元/小时相邻的A地区维持原状作为控制组。研究目的收集两地政策前后的就业人数利用DID双重差分法探讨“提高最低工资”对“促进民众就业”的实际净效应。‍1、数据格式双重差分法的数据格式如下图所示treated1表示实验组treated0表示控制组time1表示政策实施后time0表示政策实施前。‍2、SPSSAU软件操作上传数据至SPSSAU系统在【计量经济研究】模块选择【DID差分】将指标分别拖拽到左侧对应分析框中操作如下图点击开始分析按钮即可得到DID分析结果。3、分析结果解读SPSSAU共输出5类表格分别是DID模型描述统计DID模型结果汇总t 检验(Before)t 检验(After)OLS回归分析结果。下面分别进行说明1DID模型描述统计上表格展示实验组、控制组以及实验前后的样本分布情况。从上表可知本案例实验组共有155个样本控制组共有646个样本。双重差分法共4种组合即实验组实验前、实验组实验后、控制组实验前、控制组实验后每种组合一定要有数据才可以。2DID模型结果汇总上表格展示DID模型最终结果。分别包括实验前Before和实验后After时控制组或实验组的效应值水平。效应值是一种量化指标并非被解释变量从业人数的平均值但通常接近于平均值数学原理上其为ols回归的回归系数值。表格解读①实验前Before状态时实验组和控制组的差分效应量对应的t检验的p0.5560.05没有呈现出显著性差异即说明实验前实验组和控制组的效应水平结果没有明显的差异性即说明样本满足 ‘平行趋势假设 ’。②实验后After状态时实验组和控制组的差分效应量对应t检验的p0.0240.05呈现出显著性差异即说明在实验后实验组的效应值明显高于控制组效应值。③Diff-in-Diff即最终的双重差分值上表格时双重差分效应值为2.935且对应t检验的p0.0450.05呈现出显著性差异即说明双重差分效应显著说明 “ 高新区的设立 ” 有助于 “ 地区经济增长 ”提高的平均效应水平为2.935。3t检验Before平行趋势检验上表格展示t检验法进行“平行趋势检验”针对实验前数据进行t检验可以看出实验组和控制组并没有呈现出显著性差异p0.9780.05说明在实验前实验组和控制组的GDP并没有明显的差异性即样本满足平行趋势假设通常仅关注被解释变量Y的差异性。补充平行趋势检验的其他方法交互项显著性检验法① 将时间项做哑变量处理 【生成变量-虚拟(哑)变量】② 将时间_实验前与地区作交互项得到Product_2项 【生成变量-乘积(交互项)】③ 交互项与被解释变量Y做线性回归判断交互项显著性。从上表可以看出交互项Product_2项对应p0.9570.05没有呈现出显著性说明样本数据满足平行趋势假设。F检验法与交互项显著性检验法检验过程一样最后查看F统计量显著性。从上表可以看出F统计量对应p0.9570.1一般以p0.1作为标准没有呈现出显著性说明样本数据满足平行趋势假设。图示法使用SPSSAU簇状图完成横坐标为time和treated纵坐标为从业人数从上图可以看出实验前实验组和控制组的从业人数基本一致因此样本数据满足平行趋势假设。4t检验After上表格展示实验后状态时控制组和实验组两类别下被解释变量或控制变量的差异情况。通常仅关注被解释变量的差异性即可从上表格可知控制组和实验组在从业人数上呈现出显著性差异p 0.043 0.05即说明实验后控制组和实验组的 “从业人数” 呈现出明显的差异性实验组 (19.949) 明显高于控制组17.065。同时各控制变量在两组间的差异均不显著说明两组在这些变量上仍保持均衡。5OLS回归分析结果上表格展示OLS回归分析结果其为双重差分模型的数学原理。如上表格中 “ treated*time ” 这一交互项的回归系数值2.935即为 “ DID模型结果汇总 ”表格中的Diff-in-Diff效应值。综上所述DID 分析结果表明将最低工资由 4.25 美元 / 小时上调至 5.05 美元 / 小时对促进民众就业存在显著正向净效应实验组就业人数较控制组净增加 2.935 人结果在 5% 水平上统计显著。案例数据可点击下载DID双重差分法案例数据多期面板数据DID分析时可点击查看下方帮助手册多期数据DID操作