Do-演算是由计算机科学家朱迪亚·珀尔(Judea Pearl)于1995年提出的一套数学规则体系,核心用途是在因果图(尤其是有向无环图DAG)编码的假设下,判断能否从观测数据中识别干预带来的因果效应,其本质是通过代数操作将含干预算子(do-operator)的表达式转化为仅含观测概率的表达式,为因果关系的量化分析提供系统方法。
一、核心基础:干预与因果图
在因果推断中,干预(记为do(X=x))表示主动将变量X固定为特定值x,以排除其他因素对X的影响,从而精准分析X对目标变量Y的因果效应,对应的干预分布为P(Y|do(X))。而因果图(DAG)是Do-演算的核心工具,通过节点表示变量、有向边表示因果关系,结合d-分离原理判断变量间的条件独立性,为Do-演算规则提供图形化判断依据。
d-分离原理:若变量集Z能阻断变量X与Y之间的所有路径(链结构和叉结构需控制Z中的节点,对撞结构需不控制或控制其后代),则X与Y在给定Z时d-分离,即满足条件独立性P(X|Y,Z)=P(X|Z)。
二、Do-演算的三条核心规则
所有规则均基于因果图G和马尔可夫条件(变量值仅依赖其父节点),通过修改因果图的边结构判断独立性,进而实现表达式转化。
规则1:观测变量的插入/删除
公式:P(Y|do(X), Z, W) = P(Y|do(X), W),若在移除所有指向X的边后的图形Gₓ̄中,Y与Z被X∪W d-分离。
解读:当变量Z与结果Y在干预X的前提下,通过控制X和W即可阻断所有关联路径时,Z为无关观测变量,可自由插入或删除,不影响因果效应计算。
规则2:干预与观测的交换
公式:P(Y|do(X), do(Z), W) = P(Y|do(X), Z, W),若在移除指向X的边和从Z出发的边后的图形Gₓ̄,Ẑ中,Y与Z被X∪W d-分离。
解读:当干预Z对Y的影响可通过直接观测Z替代时,可将干预算子do(Z)转化为普通观测变量Z,这一规则常用于简化含多重干预的表达式。
规则3:干预变量的插入/删除
公式:P(Y|do(X), do(Z), W) = P(Y|do(X), W),若在移除指向X的边,且移除Z中非W祖先节点指向边后的图形Gₓ̄,Z(W)̄中,Y与Z被X∪W d-分离。
解读:当干预Z对Y无直接或间接因果影响时,可删除无关干预do(Z),进一步简化表达式。
三、完整性与理论价值
黄和瓦尔托拉(Huang & Valtorta, 2006)、什皮策和珀尔(Shpitser & Pearl, 2006)分别独立证明了Do-演算的完整性——即所有可通过观测数据识别的干预分布,都能通过这三条规则转化得到。这一性质使其成为因果推断的核心工具,弥补了传统关联分析(如相关性)无法区分因果与混杂的缺陷。
四、应用场景与关联方法
Do-演算常与因果图中的后门准则、前门准则配合使用:后门准则通过控制混杂变量阻断虚假关联,前门准则通过中介变量传递因果效应,而Do-演算为这两种准则提供了严格的数学推导支撑。其应用广泛覆盖:
•医学研究:评估药物对疾病的真实疗效,排除基因、生活习惯等混杂因素影响;
•社会科学:分析政策干预(如教育补贴)对收入的因果效应;
•工程领域:复杂系统故障分析,识别干预某一组件对系统整体的影响。
五、总结
Do-演算的核心价值的是搭建了“观测数据”与“干预效应”之间的桥梁,通过严谨的数学规则和图形化判断,将抽象的因果问题转化为可计算的概率表达式,为因果推断从理论走向实践提供了关键工具。