谷歌TPU团队复盘：2025年成了RL训练「军备竞赛」元年|算法|rl|tpu|知名企业

谷歌TPU团队复盘：2025年成了RL训练「军备竞赛」元年

2026-04-01 08:50:19　来源: 固件更新中

北京举报

分享至

2025年还没过半，AI圈已经烧掉了相当于一个小国家GDP的算力。DeepSeek-R1开源、xAI把20万张GPU扔进强化学习、Gemini 3改叫"思考模型"——这些事的共同点是：它们都在赌同一个技术方向。

谷歌TPU训练团队的产品经理Kyle Meggs最近在一档播客里，把这场集体转向的底牌摊开了。他的判断很直接：今年就是RL（强化学习，Reinforcement Learning）的爆发年。但比判断更有趣的，是他解释"为什么是现在"的方式——用一本化学课本的比喻，把预训练、监督微调、强化学习的关系说透了。

预训练是读课本，RL是闭卷考试

Meggs借用了Andrej Karpathy的框架。预训练阶段，模型像学生读化学课本，吸收的是"知识"——元素周期表怎么排、反应方程式怎么写。监督微调（SFT，Supervised Fine-Tuning）则是看课本里已经解好的例题，模仿解题步骤。

强化学习完全不同：它把学生扔进考场，发一张没做过的卷子，考完才能翻答案对分数。

这个"先做题后看分"的机制，决定了RL能教给模型SFT永远给不了的东西。比如安全边界——SFT只能示范"什么是好回答"，RL可以直接惩罚危险输出；比如工具使用——模型得自己试错几百次，才能学会什么时候该调用搜索、什么时候该停手；再比如数学和代码这类"可验证任务"，RL能奖励完整的思考链条，而不只是最终答案。

Meggs的原话是：「SFT是关于模仿，RL是关于评分。」

2025年的RL军备竞赛时间线

播客里列出的行业节点，密度高得像在报菜名：

1月，DeepSeek-R1开源，把GRPO（Group Relative Policy Optimization，组相对策略优化）这个算法摊在桌上给所有人看。夏天，xAI的Grok 4据传动用了20万张GPU做RL训练，规模"达到了预训练级别"。10月，Google、Meta、TML（Together AI、MosaicML等缩写合称）扎堆发布工具链。11月，Gemini 3上线，官方定位从"对话模型"改成"思考模型"。最近，谷歌又扔了MaxText 2.0出来，专门优化TPU上的微调工作流。

半年内，从算法开源、算力军备、工具链到产品 rebranding，全凑齐了。

这种同步不是巧合。基础模型的通用能力已经摸到天花板，各家都在找"后预训练时代"的增量。提示工程（Prompt Engineering）能解决80%的需求，但剩下20%的高价值场景——医疗诊断、金融合规、工业控制——需要模型真正"理解"领域规则，而不是背诵模板。RL成了唯一的规模化路径。

为什么RL这么难搞？

Meggs花了很大篇幅解释RL的工程地狱。它把训练和推理塞进同一个流程：模型一边生成答案（推理），一边拿奖励信号更新参数（训练）。这意味着你要同时优化两套基础设施，任何一边卡住，另一边就空转。

他总结了三个具体卡点：

第一，规模平衡。RL需要"生成-评分-更新"的循环跑起来，但生成端和训练端的算力需求完全不同。GPU/TPU分配错了，要么推理排队等到天荒地老，要么训练芯片空烧电费。

第二，算法选择。PPO（Proximal Policy Optimization，近端策略优化）、GRPO、DPO（Direct Preference Optimization，直接偏好优化）……每个变种对内存、通信、收敛速度的要求都不一样。选错了，模型可能学歪，或者直接不收敛。

第三，奖励设计。这是RL的"暗物质"——你怎么定义"好回答"？用人工标注太贵，用规则写死太僵，用另一个模型当裁判又可能引入偏见。Meggs提到，Google内部有大量团队在专门优化奖励模型（Reward Model），但细节没展开。

TPU在这里的角色，是试图把上述复杂度封装成"默认就能跑"的基础设施。

MaxText 2.0的卖点就是这个：用户不用自己调GPU集群的拓扑和通信库，上传数据、选算法、点训练。这对企业客户很关键——不是每个公司都能养一个专门做RL infra的团队。

什么时候该微调？

播客开头抛了一个问题：Gemini已经很强了，提示工程也够用，什么情况下必须自己训模型？

Meggs的答案很产品经理：两种场景。一是数据独特且敏感，比如医院有自己的病历库，不能往外传，只能本地部署。二是任务太专，通用模型根本没见过这类输入——比如某种罕见病的诊断流程，或者特定工厂的传感器数据模式。

他没说的是第三种可能：竞争壁垒。当所有人都能调用同一个API，微调就成了少数人能玩的差异化游戏。2025年的RL热潮，本质上是一场"谁能把私有数据炼成模型专属能力"的竞赛。

播客结尾，主持人问了一个没得到直接回答的问题：如果RL继续吃算力，TPU的产能跟得上吗？Meggs笑了笑，说"我们在努力"。

这个回答本身，可能比任何技术细节都更值得细品。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.