谷歌把 Gradient Boosting 藏了20年|算法|梯度|拟合|新论文|知名企业|gradient

谷歌把 Gradient Boosting 藏了20年

分享至

1999年，Jerome Friedman 发表那篇论文时，机器学习圈还没几个人能跑通他的代码。25年后，这个叫 Gradient Boosting（梯度提升）的算法成了 Kaggle 竞赛的默认答案——但多数人只调过参数，没搞懂它为什么能把一堆"弱鸡"模型拧成一股绳。

它不是随机种一片森林，而是让模型互相纠错。

Random Forest（随机森林）的思路是民主投票：几百棵树各自独立生长，最后少数服从多数。Gradient Boosting 走的是另一条路—— sequential learning（序列学习）。第一棵树随便猜个大概，第二棵树专门盯着第一棵的残差（residual errors，预测误差）打补丁，第三棵树继续补第二棵的漏洞。像老匠人修家具，每一刀都对着上一刀的偏差下。

Friedman 的原话被引用最多的一句是：「任何足够弱的 learner（学习器），通过梯度提升都能逼近任意复杂函数。」换句话说，它把"弱"变成了可迭代的资产。

梯度下降怎么变成"纠错游戏"

具体操作上，Gradient Boosting 把损失函数（loss function）的负梯度当成新的目标值。第一棵树拟合原始数据 y，算出残差 r₁ = y - ŷ₁；第二棵树不碰 y，直接去拟合 r₁；第三棵树拟合 r₂ = r₁ - ŷ₂，以此类推。每棵新树都在做梯度下降的方向修正。

这里有个反直觉的点：单棵树可以很浅——甚至只有 1-3 层。深度 1 的决策树叫 decision stump（决策桩），只能做一个二分类判断。但 100 个 stumps 串起来，效果能碾压一棵深达 20 层的孤树。

XGBoost 和 LightGBM 后来能火，核心优化就两条：把梯度计算做得更快，把树的生长策略改得更聪明。但骨架还是 Friedman 那套。

调参地狱：为什么你的模型要么过拟合要么欠拟合

Gradient Boosting 对超参数（hyperparameters）的敏感度，在业内是出了名的难搞。learning rate（学习率）和 n_estimators（树的数量）是一对死对头：学习率设 0.3，模型三步并作两步跑，残差还没看清就拟合完了，过拟合风险飙升；降到 0.01，又要堆 500 棵树才能收敛，训练时间指数级上涨。

max_depth（最大深度）是另一个陷阱。设成 3，模型太保守，高阶特征交互捕捉不到；设成 10，单棵树自己就强到能单独出街，boosting 的"纠错"机制被架空。Kaggle 上流传的经验公式：learning rate × n_estimators ≈ 常数，调一个就得动另一个。

早期停止（early stopping）能救命——监控验证集损失，连续 10 轮不改善就掐断。但这也带来新问题：停止时机不同，随机种子不同，结果波动能差 2-3 个百分点。

从竞赛神器到工业落地：它到底值不值得折腾

2015 年之前，Gradient Boosting 还是小众玩具。XGBoost 开源后，Higgs Boson 机器学习挑战赛被它屠榜，工业界才开始认真看。现在 tabular data（表格数据）场景里，它依然是神经网络之外的最强 baseline。

但代价很明显：训练慢、难并行、对缺失值和类别特征需要预处理。LightGBM 用直方图算法（histogram-based algorithm）和 leaf-wise 生长策略把速度拉上去，CatBoost 自动处理类别变量，都是在填 Friedman 原版留下的坑。

一个冷知识：YouTube 的推荐系统早期用过 Gradient Boosting 做排序，后来才切到深度模型。不是它不够准，是特征工程的人力成本扛不住。

你现在用的 XGBoost 或 LightGBM，默认参数大概率不是最优解。有人做过实验：在 50 个公开数据集上，随机搜索调参比默认参数平均提升 8.7% 的 AUC——但耗时要翻 20 倍。这个 trade-off（权衡），你准备怎么选？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.