![]()
2025年还没过半,AI圈已经烧掉了相当于一个小国家GDP的算力。DeepSeek-R1开源、xAI把20万张GPU扔进强化学习、Gemini 3改叫"思考模型"——这些事的共同点是:它们都在赌同一个技术方向。
谷歌TPU训练团队的产品经理Kyle Meggs最近在一档播客里,把这场集体转向的底牌摊开了。他的判断很直接:今年就是RL(强化学习,Reinforcement Learning)的爆发年。但比判断更有趣的,是他解释"为什么是现在"的方式——用一本化学课本的比喻,把预训练、监督微调、强化学习的关系说透了。
预训练是读课本,RL是闭卷考试
Meggs借用了Andrej Karpathy的框架。预训练阶段,模型像学生读化学课本,吸收的是"知识"——元素周期表怎么排、反应方程式怎么写。监督微调(SFT,Supervised Fine-Tuning)则是看课本里已经解好的例题,模仿解题步骤。
强化学习完全不同:它把学生扔进考场,发一张没做过的卷子,考完才能翻答案对分数。
这个"先做题后看分"的机制,决定了RL能教给模型SFT永远给不了的东西。比如安全边界——SFT只能示范"什么是好回答",RL可以直接惩罚危险输出;比如工具使用——模型得自己试错几百次,才能学会什么时候该调用搜索、什么时候该停手;再比如数学和代码这类"可验证任务",RL能奖励完整的思考链条,而不只是最终答案。
Meggs的原话是:「SFT是关于模仿,RL是关于评分。」
2025年的RL军备竞赛时间线
![]()
播客里列出的行业节点,密度高得像在报菜名:
1月,DeepSeek-R1开源,把GRPO(Group Relative Policy Optimization,组相对策略优化)这个算法摊在桌上给所有人看。夏天,xAI的Grok 4据传动用了20万张GPU做RL训练,规模"达到了预训练级别"。10月,Google、Meta、TML(Together AI、MosaicML等缩写合称)扎堆发布工具链。11月,Gemini 3上线,官方定位从"对话模型"改成"思考模型"。最近,谷歌又扔了MaxText 2.0出来,专门优化TPU上的微调工作流。
半年内,从算法开源、算力军备、工具链到产品 rebranding,全凑齐了。
这种同步不是巧合。基础模型的通用能力已经摸到天花板,各家都在找"后预训练时代"的增量。提示工程(Prompt Engineering)能解决80%的需求,但剩下20%的高价值场景——医疗诊断、金融合规、工业控制——需要模型真正"理解"领域规则,而不是背诵模板。RL成了唯一的规模化路径。
为什么RL这么难搞?
Meggs花了很大篇幅解释RL的工程地狱。它把训练和推理塞进同一个流程:模型一边生成答案(推理),一边拿奖励信号更新参数(训练)。这意味着你要同时优化两套基础设施,任何一边卡住,另一边就空转。
他总结了三个具体卡点:
第一,规模平衡。RL需要"生成-评分-更新"的循环跑起来,但生成端和训练端的算力需求完全不同。GPU/TPU分配错了,要么推理排队等到天荒地老,要么训练芯片空烧电费。
![]()
第二,算法选择。PPO(Proximal Policy Optimization,近端策略优化)、GRPO、DPO(Direct Preference Optimization,直接偏好优化)……每个变种对内存、通信、收敛速度的要求都不一样。选错了,模型可能学歪,或者直接不收敛。
第三,奖励设计。这是RL的"暗物质"——你怎么定义"好回答"?用人工标注太贵,用规则写死太僵,用另一个模型当裁判又可能引入偏见。Meggs提到,Google内部有大量团队在专门优化奖励模型(Reward Model),但细节没展开。
TPU在这里的角色,是试图把上述复杂度封装成"默认就能跑"的基础设施。
MaxText 2.0的卖点就是这个:用户不用自己调GPU集群的拓扑和通信库,上传数据、选算法、点训练。这对企业客户很关键——不是每个公司都能养一个专门做RL infra的团队。
什么时候该微调?
播客开头抛了一个问题:Gemini已经很强了,提示工程也够用,什么情况下必须自己训模型?
Meggs的答案很产品经理:两种场景。一是数据独特且敏感,比如医院有自己的病历库,不能往外传,只能本地部署。二是任务太专,通用模型根本没见过这类输入——比如某种罕见病的诊断流程,或者特定工厂的传感器数据模式。
他没说的是第三种可能:竞争壁垒。当所有人都能调用同一个API,微调就成了少数人能玩的差异化游戏。2025年的RL热潮,本质上是一场"谁能把私有数据炼成模型专属能力"的竞赛。
播客结尾,主持人问了一个没得到直接回答的问题:如果RL继续吃算力,TPU的产能跟得上吗?Meggs笑了笑,说"我们在努力"。
这个回答本身,可能比任何技术细节都更值得细品。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.