倾向性得分（Propensity Score）

2026-03-01

731

倾向性得分（Propensity Score，简称PS）是因果推断中用于解决观察性研究混杂偏倚的核心统计学工具，由Paul Rosenbaum和Donald Rubin于1983年正式提出，其核心价值在于将多维混杂变量压缩为一维得分，简化混杂校正过程，使观察性研究结果更接近随机对照试验（RCT）的可靠性。

一、核心定义

倾向性得分的严格定义为：在给定一组观测到的预处理协变量的条件下，某个个体接受特定治疗（或暴露）的条件概率，数学表达式为：

e(X) = pr(Z=1 | X) = E(Z | X)

其中，为治疗指示变量（表示接受治疗，表示接受对照），为个预处理协变量的集合（如人口学特征、疾病基线状态、病史等），的取值范围为[0,1]，本质是对个体“倾向于”接受治疗的概率总结。

二、关键性质

倾向性得分的核心价值源于其两个关键性质，这也是其用于混杂校正的理论基础：

1.平衡性性质

倾向性得分是一种平衡得分，即给定倾向性得分e(X)的条件下，治疗分配Z与协变量X条件独立，数学表达式为Z ⊥ X | e(X)。这意味着，在倾向得分相同（或相近）的个体中，无论其是否接受治疗，所有用于计算倾向得分的协变量分布均趋于一致，从而模拟RCT中随机分组的效果，消除协变量带来的系统性差异。

进一步而言，Rosenbaum和Rubin（1983）证明，倾向性得分是“最粗的平衡得分”——所有其他平衡得分都是倾向性得分的函数，即任何能实现协变量平衡的得分，都可以由倾向性得分推导得出，这也决定了其在平衡协变量中的核心地位。

2.无混杂性性质

若给定协变量X时治疗分配具有无混杂性（即处理分配与潜在结果独立，{Yᵢ(1), Yᵢ(0)} ⊥ Zᵢ | Xᵢ），则给定倾向性得分e(X)时，治疗分配同样具有无混杂性，即{Yᵢ(1), Yᵢ(0)} ⊥ Zᵢ | e(Xᵢ)。这一性质表明，通过调整倾向性得分，可去除所有与协变量相关的混杂偏倚，无需直接处理多维协变量，大幅简化了混杂校正流程。

三、倾向性得分的估计方法

在实际研究中，倾向性得分通常是未知的，需要通过统计模型基于观测数据进行估计，常用方法主要包括：

1.逻辑回归（最常用）

由于倾向性得分是“接受治疗的概率”，符合二分类因变量的建模需求，逻辑回归是最经典、最常用的估计方法。其核心思路是将治疗指示变量作为因变量，所有预处理协变量作为自变量，构建逻辑回归模型，通过最大似然估计求解参数，最终得到每个个体的倾向性得分估计值，模型表达式为：

ê(Xᵢ; β̂) = 1 / [1 + exp(-Xᵢᵀβ̂)]

其中β̂为逻辑回归模型的参数估计值。应用举例：在一项回顾性临床研究中，分析新型降糖药（治疗组，Z=1）与传统降糖药（对照组，Z=0）的疗效差异，预处理协变量X包括年龄、性别、空腹血糖、糖化血红蛋白、高血压病史等，通过逻辑回归将这些协变量纳入模型，计算每个患者的倾向性得分，用于后续混杂校正，这是临床研究中最常用的倾向得分估计方式。

2.其他机器学习方法

当协变量与治疗分配的关系较为复杂（如存在非线性、交互效应）时，可采用机器学习方法提高估计精度，常用方法包括随机森林、梯度提升树、支持向量机等。这类方法无需预设协变量与治疗分配的关系形式，能更好地捕捉复杂关联，但需注意模型校准，避免过度拟合。应用举例：在流行病学研究中，分析长期吸烟（暴露组，Z=1）与肺癌发病的关联，协变量包括年龄、吸烟年限、饮酒量、家族肿瘤史、职业暴露等，这些协变量与吸烟行为的关联存在明显非线性（如吸烟年限与吸烟行为的关联并非线性增长），此时采用随机森林估计倾向性得分，可更精准捕捉协变量与暴露分配的复杂关系，减少估计偏差。

四、核心应用方式

倾向性得分本身并非独立的分析方法，而是用于构建可比样本或调整模型的工具，其主要应用方式有4种，可根据研究问题、样本量和数据结构选择：

1.倾向性得分匹配（PS Matching）

为治疗组的每个个体，在对照组中寻找1个或多个倾向性得分最接近的个体进行配对，形成基线特征相似的配对样本，无法匹配的个体通常被排除。该方法直观易懂，能直接构建可比的治疗组和对照组，后续可采用配对分析（如条件逻辑回归）估计治疗效应，但可能损失样本量，匹配质量是关键（需确保配对后协变量平衡）。应用举例：一项分析手术治疗与保守治疗对腰椎间盘突出症疗效的回顾性研究，治疗组（手术）500例，对照组（保守治疗）800例，基线时年龄、病程、疼痛评分存在显著差异，采用1:1最近邻匹配，为每个手术患者匹配1名倾向得分最接近的保守治疗患者，最终得到420对匹配样本，配对后所有协变量标准化差异均<10%，再通过配对t检验比较两组患者术后6个月的疼痛缓解率和功能恢复评分。

2.倾向性得分分层（Stratification）

将所有研究对象按倾向性得分的高低分为若干层（常用5层或10层），同一层内治疗组与对照组的倾向得分分布相近，协变量趋于平衡。随后在各层内分别分析治疗与结局的关系，最终汇总得到整体治疗效应估计。该方法能保留全部样本，操作简便，但要求层内样本量充足，且需验证层内协变量平衡性。应用举例：在一项公共卫生研究中，分析社区健康干预（治疗组）与常规管理（对照组）对居民血压控制率的影响，共纳入1200名研究对象，按倾向性得分分为5层，每层内干预组与对照组样本量比例约为1:1.2，验证每层内年龄、血压基线值、饮食习惯等协变量均平衡后，分别计算每层内干预组与对照组的血压控制率，再通过加权平均（以每层样本量为权重）得到整体干预效应。

3.倾向性得分校正（Covariate Adjustment）

在分析结局的回归模型（如线性回归、逻辑回归、Cox回归）中，将倾向性得分作为连续协变量与治疗变量一同纳入模型，直接校正混杂偏倚。该方法简单直接，保留所有样本，但需假设倾向性得分与结局之间存在正确的关系形式（通常假设为线性），否则可能存在残差混杂。应用举例：分析某抗肿瘤药物对患者生存期的影响，治疗组（用药）300例，对照组（不用药）500例，协变量包括肿瘤分期、年龄、体力状态评分等，采用逻辑回归估计倾向性得分后，构建Cox比例风险回归模型，将治疗状态（Z）、倾向性得分作为自变量，生存期作为因变量，校正混杂后，估计药物对患者生存期的风险比（HR），明确药物的生存获益。

4.逆概率处理加权（IPTW）

为每个个体分配一个权重：治疗组个体的权重为1/ê(X)，对照组个体的权重为1/(1-ê(X))。加权后可构建一个“伪总体”，其中治疗分配与所有预处理协变量无关，再基于加权样本估计治疗效应。该方法能利用全部样本，可估计边际效应（类似RCT的意向性治疗分析），但极端倾向得分（接近0或1）会导致权重过大，需进行权重裁剪以保证估计稳定性。应用举例：在一项心血管疾病研究中，分析他汀类药物（治疗组）与心血管事件发生率的关联，纳入800名患者，其中治疗组350例，对照组450例，部分患者因合并其他疾病（如严重肝肾功能不全）几乎不倾向于使用他汀类药物（倾向得分接近0），部分患者因极高危因素几乎必然使用他汀类药物（倾向得分接近1），采用IPTW方法，为治疗组患者赋予1/ê(X)权重，对照组赋予1/(1-ê(X))权重，对权重进行99%分位数裁剪后，采用加权逻辑回归估计他汀类药物对心血管事件的保护效应（OR值）。

五、重要假设与局限性

1.核心假设

倾向性得分方法的有效性依赖两个关键假设，缺一不可：

•条件独立假设（可忽略性假设）：控制所有观测协变量后，治疗分配与潜在结果独立，即不存在未观测到的混杂变量影响治疗分配和结局；

•共同支持假设：对于所有个体，倾向性得分的取值严格介于0和1之间，即每个治疗组个体都能找到倾向得分相近的对照组个体，反之亦然，确保两组样本有足够的重叠区域。

2.局限性

倾向性得分并非“万能工具”，存在以下固有局限，需在研究中重点关注：

•仅能平衡已观测混杂变量：无法处理未观测到的混杂变量（如患者治疗意愿、疾病微妙严重程度等），若存在重要未观测混杂，仍会导致偏倚，无法消除观察性研究的根本弱点；

•依赖模型与数据质量：“垃圾进，垃圾出”，倾向得分的估计质量依赖于协变量的选择（需纳入所有与治疗分配和结局相关的协变量），模型设定不当会导致校正失败；

•无法完全替代随机对照试验：仅能减少混杂偏倚，提高结果的可信度，但不能像RCT那样确立确凿的因果关系，其结果仅为治疗效应的近似估计；

•存在偏倚-方差权衡：倾向得分模型的复杂度与估计精度之间存在权衡，过度复杂的模型可能导致过拟合，降低估计稳定性。

六、应用注意事项

在实际应用倾向性得分时，需注意以下要点，以保证分析的可靠性：

•协变量选择：应纳入所有与治疗分配和结局相关的预处理协变量，避免纳入治疗后变量（避免“坏控制”问题），可适当纳入仅与治疗分配相关的变量以提高倾向得分估计精度；

•平衡性验证：无论采用何种应用方式，均需验证协变量平衡情况，推荐使用标准化差异（经验法则：标准化差异<0.1，即10%，认为组间差异可忽略），而非仅依赖P值；

•异常值与缺失值处理：需识别并处理极端倾向得分和协变量异常值，采用多重插补等方法处理缺失数据，避免简单删除导致的选择偏差；

•效应估计明确：需明确研究目标是估计总体平均治疗效应（ATE）还是治疗组平均治疗效应（ATT），不同应用方法对应的效应估计类型不同，需结合研究问题选择。

七、适用场景

倾向性得分主要适用于观察性研究（如临床回顾性研究、流行病学研究、社会科学研究等），尤其适用于以下情况：

•治疗分配非随机，导致治疗组与对照组基线协变量不平衡；

•协变量维度较高（多维混杂），传统分层、匹配方法难以实施；

•无法开展RCT（如伦理限制、成本过高、可行性不足），需通过统计学方法提高结果可信度，典型应用包括药物疗效评价、公共卫生干预效果分析等。

点赞数：12