网易首页 > 网易号 > 正文 申请入驻

GLM-5技术报告精读:多步任务强化学习,如何训出最好的开源编程Agent

0
分享至

智谱最近站在了风口浪尖上。

1月8日港股上市,45天市值涨了超500%,一度突破3200亿港元。


资本市场的热度还没消化完,技术社区又炸了——智谱GLM-5技术报告公开,40页,把这款模型如何从「AI辅助写代码」进化到「自主完成工程任务」的底层路径,完整交出来了。

a16z最近发了一张图,表示开源模型和闭源模型的差距正在快速缩小,GLM-5作为现阶段最好的开源模型,已经极大拉小了和Claude Opus 4.6的距离。


说起来,过去两个月我写了四篇论文解读——全是DeepSeek的。R1从22页扩到86页那篇、mHC残差连接那篇、Engram记忆论文那篇、OCR 2视觉因果流那篇。写到后来我自己都在想,是不是要改名叫「DeepSeek论文博主」了。

所以这次换一家。2月17日,智谱发了GLM-5的技术报告,40页,标题挺有意思:「GLM-5: from Vibe Coding to Agentic Engineering」——从氛围编程到智能体工程。


之前我写过一篇GLM-5的体验文章(从GLM-4.5到GLM-5,我见证了一个模型从码农晋升为架构师),聊的是使用感受。这次不一样,我想认认真真地把这40页论文拆开,看看里面到底写了什么。

先看成绩单

GLM-5的规格:744B总参数,MoE架构,256个专家每次激活8个,实际推理时活跃参数约40B。预训练数据28.5T tokens,成绩确实猛。

Artificial Analysis的Intelligence Index拿了50分,开源模型首次达到这个水平。


SWE-bench Verified 77.8%,开源最高。BrowseComp(联网检索,配合上下文管理)75.9%和MCP-Atlas(工具调用)67.8%,论文称是全模型最高——不是开源最高,是包括Opus、GPT、Gemini在内所有模型里的最高。


论文里还有一个自研的CC-Bench-V2评测,包含前端开发、后端开发和长周期Agent三类任务。在这个基准上,GLM-5整体和Claude Opus 4.5接近。论文很坦诚地承认了一些不如Opus的地方——比如需要极强审美判断的前端任务。这种坦诚在技术报告里不多见,至少说明数据可信度比较高。

成绩单到这里,一个问题自然冒出来:资本市场和技术社区为什么同时这么看好GLM-5?

我觉得有两个层面。

第一个是定位。论文标题说得很直白:from Vibe Coding to Agentic Engineering。翻译过来就是,从「程序员用AI辅助写代码」变成「Agent 7×24小时自主完成工程任务」。之前的AI编程是人在循环里——人提需求、AI写代码、人检查、人修改。Agentic Engineering是把人从循环里拿出来,Agent自己规划、自己写、自己测、自己改bug。

这个转变意味着什么?意味着AI消耗token的方式从「一次性对话」变成了「持续运转」。一个Coding Agent跑一个SWE-bench任务可能要消耗几万甚至几十万token。当Agent成为主要的token消费者,谁的模型最适合做Agent,谁就占据了最大的商业想象力。GLM-5就是冲着这个定位去的。

第二个是技术。读完40页论文,我发现GLM-5的创新主要集中在两个阶段:预训练阶段有两个巧妙的工程改进,后训练阶段有一套完整的Agent RL训练体系。后者是重头戏,但前者也值得先说。


预训练:两个巧妙的工程改进

第一个:让两个好工具一起工作。

GLM-5同时用了两项技术:MLA(一种压缩记忆的方法,省显存)和Muon(一种更快的训练优化器)。各自都是好东西,但放在一起会打架。

打个比方:MLA的工作方式是把所有信息打包成一个压缩包,整体处理。Muon的工作方式是把信息拆开,一份一份独立优化。一个要打包,一个要拆包,硬放一起训练效果就变差。

智谱的解法很朴素——在中间加一步:先把压缩包拆开让Muon逐份优化,优化完再打包回去给MLA用。论文里管这个叫Muon Split。实验数据显示,这一拆一合确实改善了训练效果。


第二个:共享参数的多步预测。

MTP是一种加速推理的技术——让模型一次预测接下来的多个词,而不是一个一个蹦。DeepSeek用1个预测层来做这件事。GLM-5更大胆:用3个预测层,但让这3层共享同一套参数。

直觉上,3个独立的预测层应该更强——各自专精嘛。但共享参数的方案逼着模型学会一种更通用的「多步预测能力」。就像下棋,一个人用同一套棋理连想三步,比三个人各想一步更连贯。

测试数据也证实了这一点:同样的推理步数下,GLM-5每次预测被接受的词数比DeepSeek多约8%,推理更快。

这两个改进都不是会上头条的大突破。但做法本身说明一件事:光用好技术不够,还得让这些技术在一起配合得好。

后训练的重头戏:Slime异步Agent RL

预训练的改进偏「小而美」。后训练阶段才是GLM-5真正的主战场,其中最核心的创新是异步Agent RL框架,智谱内部叫「Slime」。


如果说DeepSeek的GRPO让整个行业记住了一种新的强化学习优化方式,那Slime要解决的问题更往前一步——不是「怎么优化RL」,而是「怎么让Agent RL大规模跑得起来」。这可能是整篇论文里信息密度最高、也最有行业价值的部分。

先解释为什么Agent RL特别难。

传统的RL训练是这样的:模型生成一段文本(比如做一道数学题),环境给个分数,模型根据分数调整参数。整个过程很快,因为「生成答案」和「打分」都可以在GPU集群内部完成。

但Agent RL不一样。模型不是在做一道题,而是在执行一个完整的任务——比如修复GitHub上的一个bug。这意味着模型需要读代码、写代码、运行测试、看报错信息、再修改。这个过程可能需要几十轮对话,每轮都要调用外部工具(代码编辑器、终端、浏览器)。

一个SWE-bench任务的rollout(从头到尾跑完一个任务)可能要花几分钟甚至几十分钟。而传统的数学推理RL,一次rollout只要几秒。

这就造成了一个严重的效率问题。在Agent RL场景下,绝大部分训练时间都花在了rollout generation上。GPU集群的大部分时间都在等——等外部工具返回结果。

传统的同步RL框架(比如OpenRLHF、verl)解决不了这个问题,因为它们假设生成和训练是紧耦合的:生成一批、训练一批、再生成一批。当生成要等几十分钟时,整个训练流水线就卡住了。

智谱的解法是完全解耦生成和训练。

Slime框架的架构是这样的:

Rollout服务器集群:一堆独立的服务器,每台负责执行一个Agent任务(读代码、调终端、跑测试)。它们有自己独立的GPU做推理,任务跑完就把trajectory(完整的执行轨迹)发回来。

训练集群:另一堆GPU,只负责根据收到的trajectory做参数更新。不等,有数据就训练。

TITO网关(Token-In-Token-Out):这是一个很巧妙的中间层。它接收外部服务器发来的文本,用当前版本的分词器转成token,再发给模型。模型返回的token也由它转回文字。

TITO为什么重要?因为在异步RL里,rollout服务器上跑的模型版本可能和训练集群上的不一样——你生成的时候是v1.3,等你的数据到了训练集群,模型可能已经更新到v1.5了。如果直接拿v1.3的token去给v1.5的模型训练,分词器都可能对不上(比如v1.5新加了特殊token),就会出错。

TITO网关通过统一的文本中间层解决了这个问题:不管你哪个版本生成的,我都先转成文本,再用当前训练版本的分词器重新编码。保证token永远和模型版本匹配。

另一个问题是off-policy数据的稳定性。因为生成和训练不同步,训练集群收到的数据可能来自好几个历史版本的模型。用历史版本的数据训练当前版本的模型,如果不加处理,训练会不稳定甚至崩溃。

智谱用了一个叫「双侧重要性采样」的方法来处理。传统重要性采样只用一个比率(旧策略vs新策略的概率比),Slime用两个:一个控制token级别的重要性权重,一个控制整个样本级别的。两个一起用,既保证了数据利用效率,又不会因为某个极端样本把训练带跑偏。

这整套系统不是论文里随便写写的。智谱已经把Slime框架开源了(github.com/THUDM/slime) ,任何团队都可以直接用。

拆开来看,Slime的贡献其实是两层的:底层是异步RL基础设施——把生成和训练彻底解耦,让GPU不再干等;上层是异步Agent RL算法——TITO网关和双侧重要性采样,让异步训练在数学上也站得住脚。基础设施解决「跑得起来」,算法解决「跑得稳当」。

我觉得这是GLM-5论文里最值得关注的创新。所有想做Agent的团队都知道Agent RL效果好,但传统同步框架让训练效率低到不可接受。Slime给出了第一个系统级的解法。这件事的意义,可能要等更多团队用上这个框架之后才能完全显现。

三阶段RL:顺序决定命运

异步RL解决了效率问题。但还有一个更根本的问题:你要让模型学什么?

GLM-5的RL训练分三个阶段,顺序很讲究:

第一阶段:Reasoning RL——教模型「想」。用MATH、AIME、代码竞赛这些有明确对错的任务来训练。这个阶段的目标是建立基础推理能力。

第二阶段:Agentic RL——教模型「做」。用SWE任务(修复真实GitHub bug)、终端任务、多跳搜索任务这些长周期Agent任务来训练。这个阶段用的就是前面说的Slime框架。

第三阶段:General RL——教模型「当人」。用开放对话、创意写作、角色扮演这些任务来训练。这个阶段让模型不只是一台推理机器,还是一个有品味、有性格的对话伙伴。


为什么顺序重要?

因为后面的阶段会让模型忘掉前面学到的东西。这个问题在机器学习里叫「灾难性遗忘」。你训练模型学会了修bug,再训练它聊天写作,它修bug的能力就可能退化。

就像一个人去学了烹饪,不代表他会忘记开车。但对于神经网络来说,这种遗忘是真实存在的。

GLM-5的解法叫「On-Policy Cross-Stage Distillation」(在线跨阶段蒸馏)。做法是:在第二阶段训练时,同时用第一阶段的最佳模型作为「老师」,让学生模型在学新技能的同时保持旧技能。第三阶段同理。

论文里给了具体数据:没有蒸馏时,从Agentic RL进入General RL阶段后,SWE-bench得分从77.8%掉到73.2%。用了跨阶段蒸馏后,基本不掉分。

这个技巧挺实用的。我之前写DeepSeek R1论文解读时提到过,R1团队也遇到了RL训练导致能力退化的问题,他们的做法是在训练数据里混入历史数据。GLM-5的蒸馏方案更系统——不只是混数据,而是让当前模型持续向历史最佳版本学习。

Agent场景下的三种思考模式

RL训练之外,GLM-5在推理策略上也有自己的设计。

传统的「思考型模型」(比如DeepSeek R1、o1)在回答之前会先做一段长长的内部推理,放在 标签里。这种模式对数学题和编程题很有效。

但Agent任务不一样。Agent需要执行很多轮对话——读文件、改代码、跑测试、看结果、再改。如果每一轮都做一大段思考,上下文窗口很快就被撑爆了。

GLM-5设计了三种思考模式来应对不同场景:

Interleaved Thinking(交错思考):每轮对话都思考,但思考内容比较短。适合需要持续推理的场景。

Preserved Thinking(保留思考):只在第一轮做深度思考,后续轮次直接执行。思考内容会保留在上下文中供后续参考。适合任务明确、执行步骤多的场景。

Turn-level Thinking(轮次级思考):每轮独立思考,但不保留历史思考内容——上一轮的 在下一轮会被清除。适合上下文紧张的长任务。


这三种模式的切换是通过系统提示词来控制的。论文里给了一个有意思的实验:在SWE-bench任务上,Turn-level Thinking的效果比Interleaved Thinking好约2个百分点。原因是SWE-bench需要很多轮交互,Interleaved模式的思考内容太多会挤占真正有用的代码和报错信息。

这种设计挺实用的。核心不是「思考越多越好」,而是「什么时候该想、什么时候该干活,得分场景」。

一个有意思的细节

论文里还有一个有趣的案例值得单独拎出来。

幻灯片生成的多层奖励。GLM-5能生成PPT幻灯片(通过写HTML/CSS再渲染)。训练这个能力时,奖励函数的设计分了三层:

第一层是静态检查——HTML代码有没有语法错误、CSS属性用得对不对。

第二层是渲染检查——渲染出来的页面字有没有溢出、元素有没有重叠。这需要用Playwright把HTML渲染成图片再检查。

第三层是视觉感知——用另一个VLM(视觉语言模型)来评价渲染结果好不好看。

但这里出了一个经典的reward hacking问题:模型学会了一种「作弊」方式来骗取高分——用纯黑背景加白色文字。因为纯黑背景上白字的对比度最高,VLM评判时容易给高分。但生成出来的PPT全是黑底白字,完全没有设计感。

智谱的修复方案是在第三层奖励里引入参考幻灯片对比——不只是问「好不好看」,而是问「跟优秀案例比怎么样」。

这种reward hacking的故事在RL文献里很常见,但每次看到具体案例还是觉得有趣。它说明了一件事:训练AI的难度不在于让它「做到」,而在于让它「做对」。

国产芯片适配:不只是一句口号

论文里有一章专门写了国产芯片适配。GLM-5从发布之初就原生适配了国产GPU生态,覆盖7家主流芯片平台:华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦、燧原。

不少媒体在报道这件事时就写了一句「全栈国产」然后带过。但论文里的细节比这丰富得多。

以华为昇腾Atlas系列为例,智谱做了从量化到推理引擎的全链路优化——W4A8混合精度量化让单台服务器装下750B参数,定制融合算子解决稀疏注意力的计算瓶颈,深度适配vLLM-Ascend和SGLang两大推理引擎。最终效果是:GLM-5在单台国产算力节点上的推理性能,足以媲美两台国际主流GPU集群。

7家芯片的架构各不相同,指令集不同,编程模型不同。要在7个平台上都能跑GLM-5,意味着很多底层算子得重写7遍。这不是什么「突破性创新」,但它是实打实的工程苦活。

我之前写DeepSeek论文解读时提过一个观察:DeepSeek的很多技术突破其实是「工程驱动」而非「理论驱动」的——他们不是先想到一个新理论再去实验,而是在工程实践中遇到问题、被迫想出解决方案。

智谱在国产芯片上的适配也是同样的逻辑。你也可以说是「不得不用」,但这个约束倒逼出了一套跨芯片的工程能力,长远来看反而是竞争优势。

回到开头的问题:GLM-5到底做了什么创新?

预训练阶段,Muon Split让MLA和Muon优化器兼容工作,共享参数MTP把推理速度往上拉了一截。后训练阶段是真正的重头戏——Slime异步RL框架解决了Agent训练的效率瓶颈,三阶段RL配合跨阶段蒸馏防止能力遗忘,三种思考模式适配不同Agent场景。这些创新指向同一个方向:怎么把一个好底座训成一个好Agent。

这恰好是2025-2026年整个行业的核心战场。架构层面趋同之后,真正拉开差距的是Post-Training——怎么做RL、怎么训Agent、怎么防遗忘、怎么设计奖励函数。GLM-5在这个战场上拿出了自己的解法,而且把核心框架Slime开源了出去,下一个团队可以直接站在这个起点出发。

744B参数,28.5T tokens训练,原生适配国产芯片生态,核心创新开源回馈社区。这篇40页的技术报告,值得认真读。

论文链接:https://arxiv.org/abs/2602.15763

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
权志龙再三挑衅中国春节,女星邓家佳跟风,被网友骂后删博了事

权志龙再三挑衅中国春节,女星邓家佳跟风,被网友骂后删博了事

钱小刀娱乐
2026-02-22 21:54:09
突发!伊朗开始主动出击!

突发!伊朗开始主动出击!

达文西看世界
2026-02-23 15:27:59
尼格买提8个家宴菜曝光!满桌不见一片绿叶菜,背后身世藏不住了

尼格买提8个家宴菜曝光!满桌不见一片绿叶菜,背后身世藏不住了

师维
2026-02-23 12:31:35
果然,中国拒绝后,土耳其立马变脸,比亚迪宣布:中国不再吃亏

果然,中国拒绝后,土耳其立马变脸,比亚迪宣布:中国不再吃亏

说故事的阿袭
2026-02-22 23:04:59
俄对乌发动饱和式袭击,17枚导弹击中目标,乌展开雷霆反击

俄对乌发动饱和式袭击,17枚导弹击中目标,乌展开雷霆反击

史政先锋
2026-02-23 14:56:12
瑞典为何结束210年中立,加入北约并援乌近百亿美元?

瑞典为何结束210年中立,加入北约并援乌近百亿美元?

高博新视野
2026-02-22 20:16:40
美军很纳闷:十几架F16起飞连韩国都没打招呼,解放军咋就知道?

美军很纳闷:十几架F16起飞连韩国都没打招呼,解放军咋就知道?

东极妙严
2026-02-23 09:07:14
返程注意!气温“跳水”,夜间局部中到大雨 | 天气早知道

返程注意!气温“跳水”,夜间局部中到大雨 | 天气早知道

上海杨浦
2026-02-23 07:50:13
2028年的AI世界:AI在各方面都超出预期,但经济面目全非

2028年的AI世界:AI在各方面都超出预期,但经济面目全非

知识圈
2026-02-23 13:14:49
乌克兰无人机侵袭莫斯科空域致航班大面积延误,多位中国游客滞留莫斯科机场10小时,有乘客称赶着回国上班,延误航班正陆续起飞

乌克兰无人机侵袭莫斯科空域致航班大面积延误,多位中国游客滞留莫斯科机场10小时,有乘客称赶着回国上班,延误航班正陆续起飞

极目新闻
2026-02-23 12:06:50
机枪封锁高速,火烧汽车飞机!墨西哥击毙最大毒枭引发多地混乱,贩毒集团恐“内战”

机枪封锁高速,火烧汽车飞机!墨西哥击毙最大毒枭引发多地混乱,贩毒集团恐“内战”

红星新闻
2026-02-23 13:56:15
战斗民族至暗时刻:撒钱求人带飞机来飞,奈何全球航司无人敢应!

战斗民族至暗时刻:撒钱求人带飞机来飞,奈何全球航司无人敢应!

民航观点汇
2026-02-22 10:00:13
问界通报广东惠州车辆起火事件:非车辆自身原因导致

问界通报广东惠州车辆起火事件:非车辆自身原因导致

界面新闻
2026-02-23 14:05:36
华为确实是出现了严重的问题,只是至今官方还没有公开承认

华为确实是出现了严重的问题,只是至今官方还没有公开承认

雪中风车
2026-02-22 20:18:26
宇树去年卖了5500台机器人,深挖后发现:买主根本不是普通人

宇树去年卖了5500台机器人,深挖后发现:买主根本不是普通人

离离言几许
2026-02-22 20:45:23
“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

北纬的咖啡豆
2026-02-20 19:12:17
央视披露一起现实版《惊蛰无声》:外籍男子多次请吃烧烤增进感情,一航天科研人员留学时被策反,大量搜集我国航天核心情报,被判刑7年

央视披露一起现实版《惊蛰无声》:外籍男子多次请吃烧烤增进感情,一航天科研人员留学时被策反,大量搜集我国航天核心情报,被判刑7年

扬子晚报
2026-02-23 14:44:43
江苏一老板凌晨付15000,承诺35000五月结清!网友问还能跟他干吗

江苏一老板凌晨付15000,承诺35000五月结清!网友问还能跟他干吗

火山詩话
2026-02-23 13:10:40
济宁套圈中汽车后续:花5600元赢大奖被赖账,民警来了老板才认怂

济宁套圈中汽车后续:花5600元赢大奖被赖账,民警来了老板才认怂

奇思妙想草叶君
2026-02-23 15:49:12
德媒称美即将打击伊朗,伊朗外长呼吁和平解决问题

德媒称美即将打击伊朗,伊朗外长呼吁和平解决问题

参考消息
2026-02-23 15:04:55
2026-02-23 18:51:00
AI进化论花生 incentive-icons
AI进化论花生
AI博主,AppStore付费榜第一的小猫补光灯app开发者
143文章数 64关注度
往期回顾 全部

科技要闻

智谱、MiniMax合计蒸发近千亿市值,为何?

头条要闻

郑丽文:一旦台海爆发冲突 台湾将成最大输家

头条要闻

郑丽文:一旦台海爆发冲突 台湾将成最大输家

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

谷爱凌奶奶去世,谷爱凌泪奔

财经要闻

美国海关将停止征收被裁定违法的关税

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

游戏
亲子
房产
数码
军事航空

八年前上市的《巨型水族馆》还在推出更新与DLC

亲子要闻

5岁小男孩丰指一瞬间被挤碎,教孩子学会自我保护

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

数码要闻

1986年的苹果巨无霸Mac电脑亮相:女孩打字演示 这键盘太狂了

军事要闻

美军重兵集结蓄力作战之际 新一轮美伊谈判时间“敲定”

无障碍浏览 进入关怀版