在观测数据的因果推断中,图准则是连接因果假设与统计分析的核心工具,其核心载体是结构因果图(Structural Causal Graph, SCG),尤其是有向无环图(Directed Acyclic Graph, DAG)。不同于随机对照实验可通过随机分配消除混杂,观测数据中变量间的关联常包含虚假关联(由混杂因素或反向因果导致),而图准则通过明确变量间的因果结构(以节点表示变量、有向边表示直接因果关系),为判断因果效应是否可识别、如何校正混杂提供可操作的判断标准。目前最核心、应用最广泛的图准则包括后门准则、前门准则,此外工具变量准则也可通过图形化方式界定,三者互补覆盖多数观测数据因果识别场景。
一、核心基础:结构因果图(DAG)与关键概念
图准则的应用前提是构建合理的结构因果图,它是对变量间因果关系的可视化与形式化表达,核心特征与关键概念如下:
•节点与有向边:节点代表研究中的所有变量(处理变量X、结果变量Y、混杂变量U、中介变量M等);有向边由原因变量指向结果变量(如X→Y表示X对Y存在直接因果效应),体现因果关系的方向。
•有向无环性:DAG中不存在循环因果(无法从某一节点出发,沿有向边回到该节点),这是避免逻辑悖论的基础,也是多数图准则的适用前提。
•关键路径类型:
\t○因果路径:从处理变量X指向结果变量Y的路径(如X→M→Y),是传递X对Y因果效应的路径;
\t○后门路径:连接X与Y、但包含指向X的有向边的路径(如X←U→Y),这类路径会产生虚假关联,干扰因果效应识别,是图准则需重点处理的对象;
\t○碰撞路径:路径中存在“两个箭头同时指向同一节点”的碰撞变量(如X→C←Y),这类路径天然阻断,无需额外控制,但控制碰撞变量会打开路径,引入新的混杂偏差。
•d-分离:判断变量间条件独立性的核心工具,指通过控制某些变量(调整集),阻断变量间的所有非因果路径,使变量间的关联仅由因果路径传递,是图准则的核心逻辑基础。
需注意:DAG本身是基于领域知识或理论提出的因果假设,无法自动证明因果关系,但其能清晰呈现因果信念,为后续因果识别提供明确的分析框架。
二、核心图准则一:后门准则(Backdoor Criterion)
(一)核心定义与适用场景
后门准则由朱迪·珀尔(Judea Pearl)提出,是观测数据中最常用的因果识别准则,适用于混杂变量可观测的场景——即当X与Y之间存在后门路径(混杂路径),且可通过控制一组可观测变量阻断所有后门路径时,可通过该准则识别X对Y的因果效应。
其核心思想是:找到一组调整集Z,通过控制Z,阻断X与Y之间所有的后门路径(虚假关联),同时不阻断X到Y的因果路径,此时可通过对Z的统计校正,从观测数据中分离出X对Y的真实因果效应。
(二)严格条件
给定处理变量X、结果变量Y,若变量集合Z满足以下两个条件,则Z符合后门准则,可用于识别X对Y的因果效应:
1.Z中不包含X的任何后代节点(避免因控制X的后代而阻断X到Y的因果路径,导致因果效应被低估或扭曲);
2.Z能够阻断X与Y之间的所有后门路径(包括直接的混杂路径和间接的伪路径),即控制Z后,X与Y之间仅存在因果路径,无任何虚假关联。
(三)数学表达与实操逻辑
若Z满足后门准则,X对Y的平均因果效应(ATE)可通过对Z的校正得到,核心公式为:
P(Y=y|do(X=x)) = ∑zP(Y=y|X=x, Z=z)P(Z=z)
其中,do(X=x)表示对X进行干预(模拟随机对照实验的干预效果),通过对调整集Z的概率求和,消除Z带来的混杂偏差,还原X对Y的真实因果效应。
实操逻辑可概括为:绘制DAG→识别X与Y之间的所有后门路径→筛选满足后门准则的调整集Z→通过回归、分层等方法控制Z,估计因果效应。
(四)实操案例
研究问题:分析“运动(X,1=运动,0=不运动)”对“体重指数(Y,BMI)”的因果效应,已知存在可观测混杂变量Z(饮食结构,1=健康饮食,0=不健康饮食),Z同时影响运动行为(X)和体重指数(Y),即存在后门路径X←Z→Y。
验证后门准则条件:
•条件1:Z(饮食结构)不是X(运动)的后代节点,满足要求;
•条件2:控制Z后,后门路径X←Z→Y被阻断,X与Y之间仅存在因果路径(运动→BMI),满足要求。
实操步骤:收集观测数据(X、Y、Z),通过多元回归控制Z,估计X对Y的回归系数,该系数即为运动对BMI的真实因果效应,剥离了饮食结构的混杂干扰。
三、核心图准则二:前门准则(Front-Door Criterion)
(一)核心定义与适用场景
前门准则同样由朱迪·珀尔提出,是后门准则的补充,适用于混杂变量不可观测的场景——即X与Y之间存在不可观测的混杂变量U(如遗传因素、个体偏好),无法通过后门准则校正,此时若存在一组中介变量M,可通过“拆分因果路径”的方式,间接识别X对Y的因果效应,无需控制不可观测混杂变量。
其核心思想是:若M完全处于X到Y的因果路径上(X→M→Y),则X对Y的因果效应可分解为“X对M的效应”与“M对Y的效应”的乘积,通过分别估计这两个可识别的效应,间接得到X对Y的真实因果效应。
(二)严格条件
给定处理变量X、结果变量Y,以及中介变量集合M,若M满足以下三个条件,则M符合前门准则,可用于间接识别X对Y的因果效应:
1.M切断了X到Y的所有直接因果路径,即X对Y的影响只能通过M传递,不存在X→Y的直接路径;
2.X到M之间不存在后门路径,即X对M的影响无混杂,可直接通过观测数据估计二者的因果效应;
3.M到Y之间的所有后门路径,均能被X阻断,即控制X后,M与Y的混杂被消除,可准确估计M对Y的效应。
补充说明:前门准则的关键是“中介变量M的独立性”——M不受X与Y之间不可观测混杂变量U的影响,且能完整传递X的因果效应,这是其区别于后门准则的核心特征。
(三)数学表达与实操逻辑(三步估计法)
若M满足前门准则,X对Y的平均因果效应(ATE)可通过以下三步估计得到,本质是拆分路径、合并效应:
1.估计X对M的因果效应(γ̂):因X到M无后门路径,可直接通过观测数据(X、M),采用回归等方法估计二者的关联,得到γ̂;
2.估计M对Y的因果效应(δ̂):控制X后,M到Y无后门路径,通过控制X的回归,估计M对Y的关联,得到δ̂;
3.合并效应:X对Y的ATE = γ̂ × δ̂,即通过中介变量M的传递效应,间接得到X对Y的真实因果效应。
(四)经典实操案例
研究问题:识别“吸烟(X,1=吸烟,0=不吸烟)”对“肺癌(Y,1=患病,0=未患病)”的因果效应,已知存在不可观测混杂变量U(遗传因素,无法直接测量),U同时影响吸烟行为(X)和肺癌患病(Y),即存在后门路径X←U→Y,无法用后门准则校正。
步骤1:绘制DAG:明确X(吸烟)、Y(肺癌)、U(遗传因素)、M(肺部焦油积累)的因果关系,即X←U→Y、X→M→Y(M为吸烟到肺癌的中介变量,且M不受U影响);
步骤2:验证M的前门条件:
•条件1:M切断X到Y的所有直接路径(吸烟只能通过焦油积累影响肺癌,无直接因果路径);
•条件2:X到M无后门路径(遗传因素U不影响肺部焦油积累M,仅影响吸烟X);
•条件3:控制X后,M到Y无后门路径(控制吸烟状态后,焦油积累M与肺癌Y的关联无混杂)。
步骤3:三步估计因果效应:
•步骤1:估计X对M的效应(γ̂):收集X(吸烟状态)和M(肺部焦油积累量)的数据,回归估计得γ̂=0.6,说明吸烟人群的肺部焦油积累量平均比不吸烟人群高60%;
•步骤2:估计M对Y的效应(δ̂):控制X(吸烟状态),回归估计M对Y的系数,得δ̂=0.3,说明肺部焦油积累量每增加1单位,肺癌患病风险提升30%;
•步骤3:合并效应:ATE=0.6×0.3=0.18,即吸烟对肺癌的真实因果效应为18%,剥离了不可观测遗传因素的混杂干扰。
四、补充图准则:工具变量准则(Instrumental Variable Criterion)
(一)核心定义与适用场景
工具变量准则适用于后门路径无法通过控制可观测变量阻断、且无合适中介变量满足前门准则的场景(如存在不可观测混杂且无中介),其核心是找到一个工具变量Z,通过Z与X的关联、Z与Y的间接关联,间接识别X对Y的因果效应,本质是利用Z的“外生性”打破X与混杂变量的关联。
工具变量Z需通过图形化条件界定,其核心特征是“仅通过X影响Y,不直接影响Y,也不与X、Y的混杂变量相关”。
(二)严格条件(图形化表述)
在DAG中,工具变量Z需满足以下三个条件(图形化特征):
1.相关性:Z与X之间存在直接因果路径(Z→X),即Z与X存在显著关联,这是工具变量发挥作用的基础;
2.外生性:Z与X、Y之间的所有混杂变量U均无关联(无Z→U或U→Z的路径),即Z不受混杂变量影响;
3.排他性:Z与Y之间无直接因果路径(无Z→Y),且Z对Y的所有影响均通过X传递,即Z仅作为X的“工具”,不直接作用于结果变量。
(三)实操案例
研究问题:分析“接受某药物治疗(X,1=接受,0=未接受)”对“病情恢复(Y,1=恢复,0=未恢复)”的因果效应,存在不可观测混杂变量U(患者体质,无法测量),U同时影响是否接受治疗(X)和病情恢复(Y),且无合适中介变量。
选择工具变量Z(医生推荐与否,1=推荐,0=不推荐),验证图形化条件:
•相关性:Z→X(医生推荐会显著影响患者是否接受治疗),满足;
•外生性:Z与U(患者体质)无关联(医生推荐仅基于病情标准,与患者体质无关),满足;
•排他性:Z与Y无直接路径(医生推荐不直接影响病情恢复,仅通过患者是否接受治疗间接影响),满足。
实操逻辑:通过Z与X的关联(估计Z对X的效应)、Z与Y的关联(估计Z对Y的效应),利用工具变量估计方法(如两阶段最小二乘法),间接得到X对Y的真实因果效应,剥离不可观测混杂的干扰。
五、图准则的共性注意事项
1.DAG的合理性是前提:图准则的应用依赖于DAG的准确性,而DAG是基于领域知识构建的因果假设,若DAG遗漏关键变量(如未识别出隐藏的混杂变量)或错误设定因果方向,会导致准则应用失效,最终得到错误的因果效应估计结果。
2.准则的适用边界需明确:后门准则依赖可观测混杂,前门准则依赖合适的中介变量,工具变量准则依赖满足条件的工具变量,无万能准则,需根据数据特征和因果结构选择合适的准则。
3.避免控制错误变量:控制碰撞变量会打开原本阻断的虚假路径,引入新的混杂偏差;控制X的后代变量会阻断X到Y的因果路径,导致因果效应估计失真,需严格遵循各准则的条件筛选调整集或工具变量。
4.图准则与统计方法结合:图准则仅解决“因果效应是否可识别”的问题,识别后需结合回归、分层、工具变量估计等统计方法,才能从观测数据中量化因果效应的大小。
六、总结
从观测数据中识别因果效应的图准则,本质是通过结构因果图(DAG)明确变量间的因果结构,利用后门准则、前门准则、工具变量准则等判断因果效应的可识别性,并提供校正混杂的具体思路。其中,后门准则适用于可观测混杂场景,前门准则适用于不可观测混杂且存在中介变量的场景,工具变量准则适用于不可观测混杂且无中介的场景。三者相互补充,为观测数据的因果推断提供了系统化、可操作的框架,是连接因果假设与统计分析的核心桥梁,广泛应用于公共卫生、教育、经济学等多个领域的实证研究中。