梯度提升机（GBM）

2025-07-15

796

Gradient Boosting Machine（GBM，梯度提升机）是集成学习（Ensemble Learning）中Boosting 框架下的经典算法，核心思想是通过串行训练多个弱学习器（通常为决策树），逐步纠正前序模型的预测误差，最终构建一个强学习器。它凭借优异的预测性能，在分类、回归、排序等任务中被广泛应用，也是数据科学竞赛中的常用工具。

1999年，Jerome Friedman推广了提升算法——梯度提升（机器），简称GBM，为采用提升优化这个一般方法的许多算法提供了统计学基础。GBM通过迭代优化损失函数来提升模型性能，它融合了Bagging与Boosting的思想，可以接受各类弱评估器作为输入，后来弱评估器基本被定义为决策树，此时GBM也常被称作梯度提升树（GBDT）。GBM从提出到成为数据科学工具箱的必备组件花了十多年。它被扩展用于不同统计学问题，如GBM模型加强版GLMboost、GAMboost，用于存活曲线的CoxBoost，用于排序的RankBoost和LambdaMART等。同时，梯度提升大量用于搜索排序，AltaVista是第一个在搜索排序中引入梯度提升的公司之一，随后Yahoo、Yandex、Bing等也纷纷采用。此外，ML竞赛特别是Kaggle，也在梯度提升的流行中起到了主要作用，自2011年以来，Kaggle冠军的访谈中大多提到使用了梯度提升。

2014年，Tianqi Chen提出XGBoost，它是GBM的优化版本，通过加入一些启发式算法，使其更适合大规模数据和分布式计算，XGBoost出现后迅速流行开来。2017年，微软推出LightGBM，Yandex提出CatBoost，它们进一步优化了GBM的性能和速度。LightGBM引入了基于梯度的单侧采样（GOSS）和独占特征捆绑（EFB）等技术，能更高效地处理大规模数据和高维特征，CatBoost则在处理类别特征等方面有出色表现。

一、核心概念

1.集成学习与 Boosting

集成学习通过组合多个 “弱学习器”（Weak Learner，性能略优于随机猜测的模型）的预测结果，形成 “强学习器”（Strong Learner，性能更优的模型）。

Boosting 是集成学习的一种核心思想，其特点是串行训练弱学习器：每个新的弱学习器会 “聚焦” 于前序模型预测错误的样本（即更关注难预测的样本），通过不断修正错误来提升整体性能。

2.弱学习器的选择

GBM 中最常用的弱学习器是决策树（尤其是深度较浅的 “stump” 或 “浅树”），此时 GBM 也常被称为 “梯度提升树（Gradient Boosting Decision Tree，GBDT）”。决策树的优势在于能自动捕捉特征间的非线性关系和交互作用，且对数据分布不敏感，适合作为 “修正错误” 的基础模型。

3.梯度下降的融合

GBM 的核心创新是将 “Boosting” 与 “梯度下降” 结合：用梯度下降法优化损失函数，通过迭代计算损失函数的负梯度作为 “修正目标”，指导新弱学习器的训练。这一思路为 Boosting 提供了坚实的统计学理论基础，使其能适配各种损失函数（不限于特定场景）。

二、工作流程

梯度提升机（GBM）的工作流程核心是“串行迭代修正错误”，通过逐步优化弱学习器的组合来提升模型性能。

（一）准备阶段：明确任务与数据

1.确定任务类型：明确是回归（预测连续值）、分类（预测类别）还是排序任务，这将影响后续损失函数的选择。

2.数据预处理：处理缺失值、异常值，对特征进行编码（如类别特征转数值）或归一化（非必需，但可能提升效率），划分训练集和验证集。

（二）初始化模型：建立基准预测

GBM从一个最简单的“基准模型”开始，作为初始预测的起点：

对于回归任务，初始模型通常直接预测所有训练样本的均值（这是让初始损失最小的简单选择）。

对于分类任务，初始模型可能预测类别概率的平均水平（如二分类中预测正负样本的比例均值）。

（三）迭代训练弱学习器：聚焦错误，逐步修正

GBM通过多轮迭代训练弱学习器（通常是浅决策树），每一轮都“针对性修正前序模型的错误”，具体步骤如下（假设共迭代 M 轮）：

第1轮至第M轮：每轮训练一个新弱学习器

1.计算“错误方向”（伪残差）

针对每个样本，计算当前模型（前序所有弱学习器的组合）的预测结果与真实值之间的“错误方向”——即损失函数在当前预测上的“负梯度”，称为“伪残差”。

简单理解：伪残差告诉模型“哪里预测错了、错了多少”，比如回归任务中，伪残差就是真实值与当前预测值的差值（直接反映误差大小）；分类任务中，伪残差是预测概率与真实标签的差距。

2.用弱学习器拟合错误方向

训练一个新的弱学习器（通常是深度较浅的决策树，如3-10层），目标是“学习如何修正上一步的错误”，即让这个弱学习器的预测结果尽可能接近伪残差。

这一步的本质是：让新弱学习器专注于前序模型没学好的样本（难预测的样本），比如前序模型总是低估某类样本，新弱学习器就会重点学习如何“拔高”这类样本的预测。

3.缓慢更新模型：加入新弱学习器

为避免模型过度依赖单个弱学习器（防止过拟合），新弱学习器的贡献会被“打折”——通过一个小于1的“学习率”（如0.01~0.1）控制其权重，然后将其加入到当前模型中。

学习率的作用：每次只修正一部分错误，迫使模型通过更多轮迭代逐步优化，提升泛化能力（即对新数据的预测稳定性）。

（四）迭代终止：控制模型复杂度

当迭代达到预设的轮次（如100-1000轮），或验证集上的性能不再提升时，停止训练。此时，所有弱学习器的加权组合（初始模型 + 所有带学习率的弱学习器）就构成了最终的强学习器。

（五）预测阶段：组合所有弱学习器的结果

对新样本进行预测时，将样本输入到所有弱学习器中，按训练时的权重（初始模型 + 各弱学习器×学习率）累加所有预测结果，得到最终输出：

回归任务：直接输出累加后的连续值。

分类任务：将累加结果通过激活函数（如sigmoid、softmax）转换为类别概率，再确定预测类别。

（六）关键优化：防止过拟合的策略

在整个流程中，需通过正则化策略控制模型复杂度，避免过度拟合训练数据：

1.限制弱学习器复杂度：比如控制决策树的最大深度、叶子节点数量，避免单棵树过于复杂。

2.子采样：每轮迭代随机抽取部分样本或部分特征训练弱学习器，引入随机性以减少过拟合。

3.早停：通过验证集监控性能，当模型在验证集上的误差不再下降时提前停止迭代。

三、关键组件与参数

GBM 的性能高度依赖参数调优，核心组件和参数如下：

| 组件/参数 | 作用说明 |

|-------------------|--------------------------------------------------------------------------|

| 弱学习器 | 通常为决策树（如 CART 树），需限制深度（`max_depth`）或叶子数（`max_leaves`），避免过拟合（常用深度 3-8）。 |

| 损失函数 | 回归：均方误差（MSE）、绝对误差（MAE）、Huber 损失（抗异常值）；分类：对数损失（Log Loss）、指数损失（Exponential Loss）等。 |

| 学习率（$\\eta$） | 控制每个弱学习器的贡献（如 0.01-0.1），值越小需更多迭代，但泛化更好。 |

| 迭代次数（$M$） | 弱学习器总数（如 100-1000），过多易过拟合，需结合早停法调整。 |

| 正则化 | - 树结构正则：`max_depth`、`min_samples_split`（分裂最小样本数）；
- 采样正则：`subsample`（样本采样率）、`colsample_bytree`（特征采样率）；
- 权重正则：L1/L2 正则化叶子权重。 |

四、优缺点分析

1.优点

预测性能强：在分类、回归、排序等任务中表现优异，常作为基准模型。

灵活性高：可适配任意可微损失函数，支持数值/类别特征，能捕捉非线性关系和特征交互。

可解释性：通过特征重要性（Feature Importance）评估变量贡献，辅助业务分析。

2.缺点

训练效率低：串行训练导致耗时，数据量大时需优化（如 XGBoost/LightGBM 的并行加速）。

参数敏感：学习率、树深度、迭代次数等参数需精细调优，否则易过拟合。

对异常值敏感：使用 MSE 等损失函数时，异常值会显著影响残差拟合，需预处理或改用抗异常值损失（如 Huber 损失）。

五、应用场景与扩展

1.应用领域

金融：信用评分、风险预测（如贷款违约率）；

电商：用户点击率（CTR）、转化率（CVR）预测；

医疗：疾病风险预测、患者预后分析；

推荐系统：用户偏好建模、商品排序。

2.经典实现与优化版本

GBM 的基础实现见于 `scikit-learn` 的 `GradientBoostingClassifier/Regressor`，但工业界更常用优化后的高效版本：

XGBoost：加入正则化、并行树构建、稀疏感知优化，速度快且抗过拟合；

LightGBM：采用直方图算法和叶子生长策略，训练效率更高，适合大数据；

CatBoost：自动处理类别特征，减少人工预处理，对噪声数据更稳健。

六、总结

GBM 是通过梯度下降优化损失函数的 Boosting 算法，核心是“串行训练弱学习器、逐步纠正误差”。它凭借强预测能力成为工业界和学术界的常用工具，但需注意参数调优和计算效率问题。实际应用中，建议结合 XGBoost、LightGBM 等优化库，并通过交叉验证和早停法平衡性能与过拟合风险。

点赞数：5