从观测数据中识别因果效应的图准则

2026-03-03

989

在观测数据的因果推断中，图准则是连接因果假设与统计分析的核心工具，其核心载体是结构因果图（Structural Causal Graph, SCG），尤其是有向无环图（Directed Acyclic Graph, DAG）。不同于随机对照实验可通过随机分配消除混杂，观测数据中变量间的关联常包含虚假关联（由混杂因素或反向因果导致），而图准则通过明确变量间的因果结构（以节点表示变量、有向边表示直接因果关系），为判断因果效应是否可识别、如何校正混杂提供可操作的判断标准。目前最核心、应用最广泛的图准则包括后门准则、前门准则，此外工具变量准则也可通过图形化方式界定，三者互补覆盖多数观测数据因果识别场景。

一、核心基础：结构因果图（DAG）与关键概念

图准则的应用前提是构建合理的结构因果图，它是对变量间因果关系的可视化与形式化表达，核心特征与关键概念如下：

•节点与有向边：节点代表研究中的所有变量（处理变量X、结果变量Y、混杂变量U、中介变量M等）；有向边由原因变量指向结果变量（如X→Y表示X对Y存在直接因果效应），体现因果关系的方向。

•有向无环性：DAG中不存在循环因果（无法从某一节点出发，沿有向边回到该节点），这是避免逻辑悖论的基础，也是多数图准则的适用前提。

•关键路径类型：

\t￮因果路径：从处理变量X指向结果变量Y的路径（如X→M→Y），是传递X对Y因果效应的路径；

\t￮后门路径：连接X与Y、但包含指向X的有向边的路径（如X←U→Y），这类路径会产生虚假关联，干扰因果效应识别，是图准则需重点处理的对象；

\t￮碰撞路径：路径中存在“两个箭头同时指向同一节点”的碰撞变量（如X→C←Y），这类路径天然阻断，无需额外控制，但控制碰撞变量会打开路径，引入新的混杂偏差。

•d-分离：判断变量间条件独立性的核心工具，指通过控制某些变量（调整集），阻断变量间的所有非因果路径，使变量间的关联仅由因果路径传递，是图准则的核心逻辑基础。

需注意：DAG本身是基于领域知识或理论提出的因果假设，无法自动证明因果关系，但其能清晰呈现因果信念，为后续因果识别提供明确的分析框架。

二、核心图准则一：后门准则（Backdoor Criterion）

（一）核心定义与适用场景

后门准则由朱迪·珀尔（Judea Pearl）提出，是观测数据中最常用的因果识别准则，适用于混杂变量可观测的场景——即当X与Y之间存在后门路径（混杂路径），且可通过控制一组可观测变量阻断所有后门路径时，可通过该准则识别X对Y的因果效应。

其核心思想是：找到一组调整集Z，通过控制Z，阻断X与Y之间所有的后门路径（虚假关联），同时不阻断X到Y的因果路径，此时可通过对Z的统计校正，从观测数据中分离出X对Y的真实因果效应。

（二）严格条件

给定处理变量X、结果变量Y，若变量集合Z满足以下两个条件，则Z符合后门准则，可用于识别X对Y的因果效应：

1.Z中不包含X的任何后代节点（避免因控制X的后代而阻断X到Y的因果路径，导致因果效应被低估或扭曲）；

2.Z能够阻断X与Y之间的所有后门路径（包括直接的混杂路径和间接的伪路径），即控制Z后，X与Y之间仅存在因果路径，无任何虚假关联。

（三）数学表达与实操逻辑

若Z满足后门准则，X对Y的平均因果效应（ATE）可通过对Z的校正得到，核心公式为：

P(Y=y|do(X=x)) = ∑zP(Y=y|X=x, Z=z)P(Z=z)

其中，do(X=x)表示对X进行干预（模拟随机对照实验的干预效果），通过对调整集Z的概率求和，消除Z带来的混杂偏差，还原X对Y的真实因果效应。

实操逻辑可概括为：绘制DAG→识别X与Y之间的所有后门路径→筛选满足后门准则的调整集Z→通过回归、分层等方法控制Z，估计因果效应。

（四）实操案例

研究问题：分析“运动（X，1=运动，0=不运动）”对“体重指数（Y，BMI）”的因果效应，已知存在可观测混杂变量Z（饮食结构，1=健康饮食，0=不健康饮食），Z同时影响运动行为（X）和体重指数（Y），即存在后门路径X←Z→Y。

验证后门准则条件：

•条件1：Z（饮食结构）不是X（运动）的后代节点，满足要求；

•条件2：控制Z后，后门路径X←Z→Y被阻断，X与Y之间仅存在因果路径（运动→BMI），满足要求。

实操步骤：收集观测数据（X、Y、Z），通过多元回归控制Z，估计X对Y的回归系数，该系数即为运动对BMI的真实因果效应，剥离了饮食结构的混杂干扰。

三、核心图准则二：前门准则（Front-Door Criterion）

（一）核心定义与适用场景

前门准则同样由朱迪·珀尔提出，是后门准则的补充，适用于混杂变量不可观测的场景——即X与Y之间存在不可观测的混杂变量U（如遗传因素、个体偏好），无法通过后门准则校正，此时若存在一组中介变量M，可通过“拆分因果路径”的方式，间接识别X对Y的因果效应，无需控制不可观测混杂变量。

其核心思想是：若M完全处于X到Y的因果路径上（X→M→Y），则X对Y的因果效应可分解为“X对M的效应”与“M对Y的效应”的乘积，通过分别估计这两个可识别的效应，间接得到X对Y的真实因果效应。

（二）严格条件

给定处理变量X、结果变量Y，以及中介变量集合M，若M满足以下三个条件，则M符合前门准则，可用于间接识别X对Y的因果效应：

1.M切断了X到Y的所有直接因果路径，即X对Y的影响只能通过M传递，不存在X→Y的直接路径；

2.X到M之间不存在后门路径，即X对M的影响无混杂，可直接通过观测数据估计二者的因果效应；

3.M到Y之间的所有后门路径，均能被X阻断，即控制X后，M与Y的混杂被消除，可准确估计M对Y的效应。

补充说明：前门准则的关键是“中介变量M的独立性”——M不受X与Y之间不可观测混杂变量U的影响，且能完整传递X的因果效应，这是其区别于后门准则的核心特征。

（三）数学表达与实操逻辑（三步估计法）

若M满足前门准则，X对Y的平均因果效应（ATE）可通过以下三步估计得到，本质是拆分路径、合并效应：

1.估计X对M的因果效应（γ̂）：因X到M无后门路径，可直接通过观测数据（X、M），采用回归等方法估计二者的关联，得到γ̂；

2.估计M对Y的因果效应（δ̂）：控制X后，M到Y无后门路径，通过控制X的回归，估计M对Y的关联，得到δ̂；

3.合并效应：X对Y的ATE = γ̂ × δ̂，即通过中介变量M的传递效应，间接得到X对Y的真实因果效应。

（四）经典实操案例

研究问题：识别“吸烟（X，1=吸烟，0=不吸烟）”对“肺癌（Y，1=患病，0=未患病）”的因果效应，已知存在不可观测混杂变量U（遗传因素，无法直接测量），U同时影响吸烟行为（X）和肺癌患病（Y），即存在后门路径X←U→Y，无法用后门准则校正。

步骤1：绘制DAG：明确X（吸烟）、Y（肺癌）、U（遗传因素）、M（肺部焦油积累）的因果关系，即X←U→Y、X→M→Y（M为吸烟到肺癌的中介变量，且M不受U影响）；

步骤2：验证M的前门条件：

•条件1：M切断X到Y的所有直接路径（吸烟只能通过焦油积累影响肺癌，无直接因果路径）；

•条件2：X到M无后门路径（遗传因素U不影响肺部焦油积累M，仅影响吸烟X）；

•条件3：控制X后，M到Y无后门路径（控制吸烟状态后，焦油积累M与肺癌Y的关联无混杂）。

步骤3：三步估计因果效应：

•步骤1：估计X对M的效应（γ̂）：收集X（吸烟状态）和M（肺部焦油积累量）的数据，回归估计得γ̂=0.6，说明吸烟人群的肺部焦油积累量平均比不吸烟人群高60%；

•步骤2：估计M对Y的效应（δ̂）：控制X（吸烟状态），回归估计M对Y的系数，得δ̂=0.3，说明肺部焦油积累量每增加1单位，肺癌患病风险提升30%；

•步骤3：合并效应：ATE=0.6×0.3=0.18，即吸烟对肺癌的真实因果效应为18%，剥离了不可观测遗传因素的混杂干扰。

四、补充图准则：工具变量准则（Instrumental Variable Criterion）

（一）核心定义与适用场景

工具变量准则适用于后门路径无法通过控制可观测变量阻断、且无合适中介变量满足前门准则的场景（如存在不可观测混杂且无中介），其核心是找到一个工具变量Z，通过Z与X的关联、Z与Y的间接关联，间接识别X对Y的因果效应，本质是利用Z的“外生性”打破X与混杂变量的关联。

工具变量Z需通过图形化条件界定，其核心特征是“仅通过X影响Y，不直接影响Y，也不与X、Y的混杂变量相关”。

（二）严格条件（图形化表述）

在DAG中，工具变量Z需满足以下三个条件（图形化特征）：

1.相关性：Z与X之间存在直接因果路径（Z→X），即Z与X存在显著关联，这是工具变量发挥作用的基础；

2.外生性：Z与X、Y之间的所有混杂变量U均无关联（无Z→U或U→Z的路径），即Z不受混杂变量影响；

3.排他性：Z与Y之间无直接因果路径（无Z→Y），且Z对Y的所有影响均通过X传递，即Z仅作为X的“工具”，不直接作用于结果变量。

（三）实操案例

研究问题：分析“接受某药物治疗（X，1=接受，0=未接受）”对“病情恢复（Y，1=恢复，0=未恢复）”的因果效应，存在不可观测混杂变量U（患者体质，无法测量），U同时影响是否接受治疗（X）和病情恢复（Y），且无合适中介变量。

选择工具变量Z（医生推荐与否，1=推荐，0=不推荐），验证图形化条件：

•相关性：Z→X（医生推荐会显著影响患者是否接受治疗），满足；

•外生性：Z与U（患者体质）无关联（医生推荐仅基于病情标准，与患者体质无关），满足；

•排他性：Z与Y无直接路径（医生推荐不直接影响病情恢复，仅通过患者是否接受治疗间接影响），满足。

实操逻辑：通过Z与X的关联（估计Z对X的效应）、Z与Y的关联（估计Z对Y的效应），利用工具变量估计方法（如两阶段最小二乘法），间接得到X对Y的真实因果效应，剥离不可观测混杂的干扰。

五、图准则的共性注意事项

1.DAG的合理性是前提：图准则的应用依赖于DAG的准确性，而DAG是基于领域知识构建的因果假设，若DAG遗漏关键变量（如未识别出隐藏的混杂变量）或错误设定因果方向，会导致准则应用失效，最终得到错误的因果效应估计结果。

2.准则的适用边界需明确：后门准则依赖可观测混杂，前门准则依赖合适的中介变量，工具变量准则依赖满足条件的工具变量，无万能准则，需根据数据特征和因果结构选择合适的准则。

3.避免控制错误变量：控制碰撞变量会打开原本阻断的虚假路径，引入新的混杂偏差；控制X的后代变量会阻断X到Y的因果路径，导致因果效应估计失真，需严格遵循各准则的条件筛选调整集或工具变量。

4.图准则与统计方法结合：图准则仅解决“因果效应是否可识别”的问题，识别后需结合回归、分层、工具变量估计等统计方法，才能从观测数据中量化因果效应的大小。

六、总结

从观测数据中识别因果效应的图准则，本质是通过结构因果图（DAG）明确变量间的因果结构，利用后门准则、前门准则、工具变量准则等判断因果效应的可识别性，并提供校正混杂的具体思路。其中，后门准则适用于可观测混杂场景，前门准则适用于不可观测混杂且存在中介变量的场景，工具变量准则适用于不可观测混杂且无中介的场景。三者相互补充，为观测数据的因果推断提供了系统化、可操作的框架，是连接因果假设与统计分析的核心桥梁，广泛应用于公共卫生、教育、经济学等多个领域的实证研究中。

点赞数：2