网易首页 > 网易号 > 正文 申请入驻

谷歌TPU团队复盘:2025年成了RL训练「军备竞赛」元年

0
分享至


2025年还没过半,AI圈已经烧掉了相当于一个小国家GDP的算力。DeepSeek-R1开源、xAI把20万张GPU扔进强化学习、Gemini 3改叫"思考模型"——这些事的共同点是:它们都在赌同一个技术方向。

谷歌TPU训练团队的产品经理Kyle Meggs最近在一档播客里,把这场集体转向的底牌摊开了。他的判断很直接:今年就是RL(强化学习,Reinforcement Learning)的爆发年。但比判断更有趣的,是他解释"为什么是现在"的方式——用一本化学课本的比喻,把预训练、监督微调、强化学习的关系说透了。

预训练是读课本,RL是闭卷考试

Meggs借用了Andrej Karpathy的框架。预训练阶段,模型像学生读化学课本,吸收的是"知识"——元素周期表怎么排、反应方程式怎么写。监督微调(SFT,Supervised Fine-Tuning)则是看课本里已经解好的例题,模仿解题步骤。

强化学习完全不同:它把学生扔进考场,发一张没做过的卷子,考完才能翻答案对分数。

这个"先做题后看分"的机制,决定了RL能教给模型SFT永远给不了的东西。比如安全边界——SFT只能示范"什么是好回答",RL可以直接惩罚危险输出;比如工具使用——模型得自己试错几百次,才能学会什么时候该调用搜索、什么时候该停手;再比如数学和代码这类"可验证任务",RL能奖励完整的思考链条,而不只是最终答案。

Meggs的原话是:「SFT是关于模仿,RL是关于评分。」

2025年的RL军备竞赛时间线


播客里列出的行业节点,密度高得像在报菜名:

1月,DeepSeek-R1开源,把GRPO(Group Relative Policy Optimization,组相对策略优化)这个算法摊在桌上给所有人看。夏天,xAI的Grok 4据传动用了20万张GPU做RL训练,规模"达到了预训练级别"。10月,Google、Meta、TML(Together AI、MosaicML等缩写合称)扎堆发布工具链。11月,Gemini 3上线,官方定位从"对话模型"改成"思考模型"。最近,谷歌又扔了MaxText 2.0出来,专门优化TPU上的微调工作流。

半年内,从算法开源、算力军备、工具链到产品 rebranding,全凑齐了。

这种同步不是巧合。基础模型的通用能力已经摸到天花板,各家都在找"后预训练时代"的增量。提示工程(Prompt Engineering)能解决80%的需求,但剩下20%的高价值场景——医疗诊断、金融合规、工业控制——需要模型真正"理解"领域规则,而不是背诵模板。RL成了唯一的规模化路径。

为什么RL这么难搞?

Meggs花了很大篇幅解释RL的工程地狱。它把训练和推理塞进同一个流程:模型一边生成答案(推理),一边拿奖励信号更新参数(训练)。这意味着你要同时优化两套基础设施,任何一边卡住,另一边就空转。

他总结了三个具体卡点:

第一,规模平衡。RL需要"生成-评分-更新"的循环跑起来,但生成端和训练端的算力需求完全不同。GPU/TPU分配错了,要么推理排队等到天荒地老,要么训练芯片空烧电费。


第二,算法选择。PPO(Proximal Policy Optimization,近端策略优化)、GRPO、DPO(Direct Preference Optimization,直接偏好优化)……每个变种对内存、通信、收敛速度的要求都不一样。选错了,模型可能学歪,或者直接不收敛。

第三,奖励设计。这是RL的"暗物质"——你怎么定义"好回答"?用人工标注太贵,用规则写死太僵,用另一个模型当裁判又可能引入偏见。Meggs提到,Google内部有大量团队在专门优化奖励模型(Reward Model),但细节没展开。

TPU在这里的角色,是试图把上述复杂度封装成"默认就能跑"的基础设施。

MaxText 2.0的卖点就是这个:用户不用自己调GPU集群的拓扑和通信库,上传数据、选算法、点训练。这对企业客户很关键——不是每个公司都能养一个专门做RL infra的团队。

什么时候该微调?

播客开头抛了一个问题:Gemini已经很强了,提示工程也够用,什么情况下必须自己训模型?

Meggs的答案很产品经理:两种场景。一是数据独特且敏感,比如医院有自己的病历库,不能往外传,只能本地部署。二是任务太专,通用模型根本没见过这类输入——比如某种罕见病的诊断流程,或者特定工厂的传感器数据模式。

他没说的是第三种可能:竞争壁垒。当所有人都能调用同一个API,微调就成了少数人能玩的差异化游戏。2025年的RL热潮,本质上是一场"谁能把私有数据炼成模型专属能力"的竞赛。

播客结尾,主持人问了一个没得到直接回答的问题:如果RL继续吃算力,TPU的产能跟得上吗?Meggs笑了笑,说"我们在努力"。

这个回答本身,可能比任何技术细节都更值得细品。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赢21分的局,前国手在场输4分,球迷:你能打职业是对篮球的侮辱

赢21分的局,前国手在场输4分,球迷:你能打职业是对篮球的侮辱

弄月公子
2026-05-01 22:39:33
上海地铁互殴最新后续!处罚结果公示于众,拘留仅仅只是开始

上海地铁互殴最新后续!处罚结果公示于众,拘留仅仅只是开始

阅微札记
2026-04-30 19:36:10
1799元!苹果刚发布的新品,售罄了

1799元!苹果刚发布的新品,售罄了

全是技能
2026-04-30 15:40:51
猪大肠被关注!研究发现:糖尿病患者常吃猪大肠,或有5种变化

猪大肠被关注!研究发现:糖尿病患者常吃猪大肠,或有5种变化

芹姐说生活
2026-05-01 14:34:43
连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

街上的行人很刺眼
2026-04-25 10:55:49
我军顶级的军事天才只有一人,他打的仗,西点军校复盘也打不出来

我军顶级的军事天才只有一人,他打的仗,西点军校复盘也打不出来

秀心文雅
2026-03-27 10:13:04
仅差1千万!腾讯互联网第一宝座快被超越

仅差1千万!腾讯互联网第一宝座快被超越

快科技
2026-05-01 21:19:04
早年高举双手的巩俐,大气饱满

早年高举双手的巩俐,大气饱满

娱你同欢
2026-05-01 21:50:35
争冠变天!赛程表彻底倾斜,曼城6天3战极限难度,枪手吃瓜看戏

争冠变天!赛程表彻底倾斜,曼城6天3战极限难度,枪手吃瓜看戏

涛哥侃球
2026-05-01 12:54:00
成都补时连入两球3-2逆转申花,费利佩倒钩破门,韦林顿-席尔瓦绝杀

成都补时连入两球3-2逆转申花,费利佩倒钩破门,韦林顿-席尔瓦绝杀

懂球帝
2026-05-01 22:23:25
张雪机车两位车手双双进入前十,WSBK匈牙利站排位赛出分

张雪机车两位车手双双进入前十,WSBK匈牙利站排位赛出分

新京报
2026-05-01 23:06:03
江苏5岁男童被自家养了几年的哈士奇咬伤面部,缝了近50针,家长:狗已被处理,孩子现在看见大狗都打颤

江苏5岁男童被自家养了几年的哈士奇咬伤面部,缝了近50针,家长:狗已被处理,孩子现在看见大狗都打颤

极目新闻
2026-05-01 17:26:27
杨子离婚 3个月就和新欢产子,黄圣依17年青春喂了狗,体面尽失

杨子离婚 3个月就和新欢产子,黄圣依17年青春喂了狗,体面尽失

橙星文娱
2026-04-29 10:30:58
机器人+算力:2026年A股最强双主线!这5只龙头股被机构集体看好

机器人+算力:2026年A股最强双主线!这5只龙头股被机构集体看好

小白鸽财经
2026-05-01 20:30:03
注意!五一假期首日多景区紧急发布限流通知,有景区已暂停线上线下售票,部分游客需及时调整行程

注意!五一假期首日多景区紧急发布限流通知,有景区已暂停线上线下售票,部分游客需及时调整行程

极目新闻
2026-05-01 16:12:53
津门虎2-2十人三镇,季胜攀绝平,哈达斯点射,亚姆卡姆染红

津门虎2-2十人三镇,季胜攀绝平,哈达斯点射,亚姆卡姆染红

懂球帝
2026-05-01 22:02:41
17岁女孩失踪后续:家属曝内幕,失联原因令人不解

17岁女孩失踪后续:家属曝内幕,失联原因令人不解

梦醉为红颜一笑
2026-04-30 23:21:19
总分不足420!2026广东二模各科平均分公布,数学51.8,物理45.4

总分不足420!2026广东二模各科平均分公布,数学51.8,物理45.4

马蹄烫嘴说美食
2026-05-01 18:27:53
广东大胜收获两大利好!内外双核狂砍45+18挑大梁,杜锋盼来救星

广东大胜收获两大利好!内外双核狂砍45+18挑大梁,杜锋盼来救星

老叶评球
2026-05-01 22:05:16
陕西礼泉通报“6人非法锯断槐树采摘槐花”:2人被行拘

陕西礼泉通报“6人非法锯断槐树采摘槐花”:2人被行拘

界面新闻
2026-05-01 11:04:37
2026-05-01 23:32:49
固件更新中
固件更新中
有态度网友ytd
3229文章数 30关注度
往期回顾 全部

科技要闻

DeepSeek发布多模态论文又连夜删除

头条要闻

8岁女孩跟随邻居长江游泳溺亡 邻居曾抓住她又脱手

头条要闻

8岁女孩跟随邻居长江游泳溺亡 邻居曾抓住她又脱手

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

旅游
房产
亲子
公开课
军事航空

旅游要闻

60秒看雄安|乘着巴士看城市风景线

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

亲子要闻

弟弟嘴馋想吃蓝莓,姐姐今天满足他,不花钱免费吃真过瘾

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:持续推进海上封锁的行为不可容忍

无障碍浏览 进入关怀版