因果发现工具对比（PC算法、LiNGAM、NOTEARS）

2026-02-22

1135

因果发现是从观测数据中挖掘变量间因果关系、构建因果图（通常为有向无环图DAG）的核心技术，其工具的选择直接决定因果推断的准确性、效率及适用范围。PC算法、LiNGAM、NOTEARS作为三类主流因果发现工具，分别代表了“基于约束”“基于线性非高斯”“基于连续优化”的核心思路。

一、核心原理对比

三类工具的核心差异源于因果结构学习的底层逻辑，分别对应不同的假设前提和求解思路，具体如下：

1.PC算法（Peter-Clark Algorithm）

PC算法是基于约束型因果发现的经典代表，核心思路是“先假设后排除”，通过一系列条件独立性检验剔除虚假关联，逐步还原因果骨架并确定因果方向，完全遵循因果马尔可夫条件和忠实性假设。其核心流程分为两步：一是骨架构建，初始假设所有变量间均存在连接（全连接无向图），通过相关性检验、条件独立性检验（如卡方检验、互信息检验），逐步剪断无关联或间接关联的边，得到变量间的无向骨架；二是方向定向，利用V-结构（对撞点）等逻辑规则，对无向边进行定向，最终输出部分有向无环图（PDAG）或完全有向无环图（DAG），例如若存在X-Z-Y结构，且X与Y独立、控制Z后X与Y相关，则定向为X→Z←Y。

2.LiNGAM（Linear Non-Gaussian Acyclic Model）

LiNGAM是基于线性非高斯假设的因果发现工具，核心思路是利用数据的非高斯性打破因果对称性，无需条件独立性检验即可确定因果方向。其核心假设包括：变量间因果关系为线性；扰动项（噪声）服从非高斯分布且相互独立；因果图为DAG。该算法利用“因果方向与非高斯性的不对称性”——若X是Y的原因（X→Y），则Y对X的回归残差服从非高斯分布，而X对Y的回归残差不服从非高斯分布，通过独立成分分析（ICA）等方法估计因果系数，最终输出完整的DAG及因果强度。

3.NOTEARS（Nonlinear Structural Equations with Alternative Regularization and Sparsity）

NOTEARS是基于连续优化的因果发现工具，核心思路是将DAG约束转化为连续可微分的优化问题，通过数值优化求解因果结构，打破了传统约束型或得分型算法的离散搜索局限。其核心创新在于引入矩阵指数约束：用邻接矩阵W表示因果图，通过Hadamard积（逐元素乘法）构建约束函数h(W)=tr(e^(W∘W))-d（d为变量数），当h(W)=0时，邻接矩阵W对应的图即为DAG。算法通过最小化“重构损失+稀疏性约束”的目标函数，在满足DAG约束的前提下，求解最优邻接矩阵，进而得到因果图，可灵活扩展至线性和非线性场景。

二、关键特性对比

关键特性直接决定工具的使用门槛、输出效果及适配场景，具体对比如下表所示：

在核心假设方面，PC算法遵循因果马尔可夫条件和忠实性假设，无数据分布约束，可灵活处理高斯与非高斯数据；LiNGAM则严格要求变量间为线性因果关系、扰动项非高斯且相互独立，同时限定因果图为DAG结构；NOTEARS仅需满足DAG结构假设，可支持线性与非线性因果关系，对数据分布无严格限制。在因果方向确定上，PC算法依赖V-结构等逻辑规则，部分无向边无法定向，最终输出PDAG；LiNGAM利用数据非高斯性直接确定因果方向，可输出完整DAG及因果系数；NOTEARS通过优化求解邻接矩阵，直接输出完整DAG，因果方向由矩阵元素的符号或大小体现。

可处理关系类型上，PC算法仅依赖条件独立性检验，与因果关系形式无关，同时支持线性和非线性关系；LiNGAM受核心假设限定，仅能处理线性因果关系；NOTEARS灵活性较强，通过MLP等扩展方式，可处理线性与非线性两种因果关系，适配更复杂的场景。输入数据要求方面，三类工具均仅需观测数据即可，其中PC算法需足够样本量保证检验可靠性，支持离散与连续两种数据类型；LiNGAM严格要求扰动项非高斯，且仅支持连续数据；NOTEARS对数据分布无严格要求，主要支持连续数据，部分变体可处理混合变量。

输出结果上，PC算法可输出因果骨架和PDAG（部分定向），但无法量化因果强度；LiNGAM能输出完整DAG，并通过因果系数量化因果强度；NOTEARS输出完整DAG，借助邻接矩阵可间接量化因果强度。计算复杂度方面，PC算法复杂度为O(n^k)（n为变量数，k为最大条件集大小），在稀疏图中效率较高，但高维数据处理开销较大；LiNGAM复杂度中等，依赖ICA求解，变量数增多时复杂度呈线性上升；NOTEARS复杂度中等偏高，依赖连续优化求解，可通过稀疏约束优化效率，能够支持大规模数据处理。超参数敏感性上，PC算法敏感性低，主要受条件独立性检验的显著性水平（如α值）影响；LiNGAM敏感性中等，对ICA的分解参数、噪声分布假设的契合度较为敏感；NOTEARS敏感性高，正则化参数λ、优化器参数等的调整，会显著影响结果的准确性。

三、优缺点对比

三类工具各有优劣，其优势与局限均与核心原理、关键特性高度相关，具体如下：

1.PC算法

优点：

① 通用性强，无数据分布、因果关系类型（线性/非线性）的严格限制，可处理离散、连续多种数据类型，适用场景广泛；

② 逻辑直观，贴合人类科学推理思路，结果易解释，无需复杂的数学推导基础即可理解；

③ 对超参数依赖度低，仅需调整条件独立性检验的显著性水平，调参成本低；

④ 可有效剔除虚假相关，例如在城市热环境研究中，能识别出路网密度与温度的虚假关联，找到真正的致热因素（不透水面比例）。

缺点：

① 因果方向确定能力有限，部分无向边无法定向，需结合领域知识补充判断；

② 对样本量和数据质量敏感，小样本或数据存在噪声时，条件独立性检验易出错，导致骨架构建偏差；

③ 高维数据处理效率低，变量数增多时，条件集组合爆炸，计算开销急剧上升；

④ 无法量化因果强度，仅能提供因果关系的存在性，无法判断影响大小；

⑤ 忽略空间自相关等特殊特性，经典版本假设样本独立，不适用于空间数据等场景。

2.LiNGAM

优点：

① 因果方向识别准确，利用非高斯性打破因果对称性，无需依赖逻辑规则，可直接输出完整DAG；

② 能量化因果强度（输出因果系数），不仅能判断“是否有因果关系”，还能判断“影响有多大”；

③ 计算效率高于PC算法，变量数增多时复杂度线性上升，适用于中等维度数据；

④ 原理简洁，基于线性假设和非高斯噪声，结果易复现、易解释，例如在基因调控网络分析中，可清晰推断变量间的线性调控关系及强度。

缺点：

① 适用范围较窄，严格依赖“线性因果关系”和“非高斯噪声”假设，实际数据中若因果关系为非线性、噪声为高斯分布，会导致推断结果严重偏差；

② 对异常值敏感，异常值会破坏噪声的非高斯分布特性，影响ICA分解效果；

③ 无法处理离散数据，仅适用于连续数据；

④ 存在隐藏变量时，推断准确性大幅下降，无法识别隐藏变量带来的间接因果关联。

3.NOTEARS

优点：

① 灵活性强，可支持线性、非线性因果关系，通过MLP扩展即可处理复杂的非线性结构方程，适配更多实际场景；

② 直接输出完整DAG，无需额外的方向定向步骤，解决了PC算法部分边无法定向的问题；

③ 高维数据处理能力优于PC算法，通过稀疏性约束可优化计算效率，支持大规模数据场景；

④ 理论基础扎实，将DAG约束转化为连续优化问题，可融入先验知识（如节点层次关系），提升结果鲁棒性，适用于基因调控网络、经济系统等复杂场景的因果挖掘。

缺点：

① 超参数敏感性高，正则化参数、优化器参数等的调整对结果影响较大，调参成本高；

② 对噪声敏感，数据噪声较大时，重构损失计算偏差，易导致因果图误判；

③ 非线性场景下，模型复杂度高，计算开销上升，且结果解释性下降（不如线性场景直观）；

④ 仅适用于无隐变量的情况，存在隐藏混杂因素时，推断准确性降低；⑤ 可能陷入局部最优解，影响因果图的准确性。

四、适用场景对比

结合上述对比，三类工具的适用场景需根据数据特性、研究需求（是否需要量化因果强度、是否为非线性关系等）进行选择，具体适配场景如下：

1.PC算法适用场景

① 数据类型复杂（离散+连续）、因果关系类型未知（可能为非线性），且无明确的分布假设；

② 研究目标仅为挖掘变量间的因果关联（存在性），无需量化因果强度，例如城市热环境中多变量因果框架构建、社会学研究中变量间因果关系筛选等；

③ 数据样本量充足、噪声较少，且变量维度适中（非高维）；

④ 需剔除虚假相关，明确变量间的直接/间接因果路径，例如厘清建筑高度对地表温度的双重影响路径（降温/升温）。

不适用于：高维数据、小样本数据、需要量化因果强度的场景，以及存在空间自相关的特殊数据场景。

2.LiNGAM适用场景

① 数据为连续型，且扰动项（噪声）服从非高斯分布（如金融数据、部分生物医学数据）；

② 因果关系为线性，研究目标不仅需要识别因果关系，还需要量化因果强度，例如基因调控网络中线性调控关系的挖掘、经济变量间线性因果强度的测算；

③ 变量维度中等，无需处理高维数据；

④ 数据质量较好，异常值较少，无明显隐藏变量。

不适用于：非线性因果关系、高斯噪声数据、离散数据、高维数据、存在隐藏变量或异常值较多的场景。

3.NOTEARS适用场景

① 因果关系为非线性，或无法确定因果关系类型（线性/非线性），例如复杂工程系统、生物医学中非线性因果关联的挖掘；

② 研究目标需要输出完整DAG，且变量维度较高（大规模数据），例如大规模基因调控网络、复杂经济系统的因果结构学习；

③ 可投入一定调参成本，且具备基础的优化知识，能调整正则化参数、优化器参数等；

④ 需融入先验知识，提升因果推断的鲁棒性，避免出现违背物理常识的结果。

不适用于：小样本数据、噪声较多的数据、对结果解释性要求极高（非线性场景）、存在隐藏变量的场景，以及调参资源有限的情况。

五、总结与选型建议

三类工具代表了因果发现的三大主流思路，无绝对优劣，核心在于“适配性”：

1.若数据类型复杂、因果关系未知、仅需识别因果关联（无需量化强度），且变量维度适中，优先选择PC算法，其通用性和低调参成本是核心优势，尤其适合多领域探索性因果研究。

2.若数据为连续型、噪声非高斯、因果关系为线性，且需要量化因果强度，优先选择LiNGAM，其因果方向识别准确性和结果解释性优于其他两类工具，适合线性场景下的精准因果推断。

3.若因果关系为非线性、变量维度较高，且需要输出完整DAG，可投入调参成本，优先选择NOTEARS，其灵活性和高维处理能力是核心优势，适合复杂系统的因果结构学习。

点赞数：12