GLM-5技术报告精读：多步任务强化学习，如何训出最好的开源编程Agent|算法|实验|glm|新论文|agent

分享至

智谱最近站在了风口浪尖上。

1月8日港股上市，45天市值涨了超500%，一度突破3200亿港元。

资本市场的热度还没消化完，技术社区又炸了——智谱GLM-5技术报告公开，40页，把这款模型如何从「AI辅助写代码」进化到「自主完成工程任务」的底层路径，完整交出来了。

a16z最近发了一张图，表示开源模型和闭源模型的差距正在快速缩小，GLM-5作为现阶段最好的开源模型，已经极大拉小了和Claude Opus 4.6的距离。

说起来，过去两个月我写了四篇论文解读——全是DeepSeek的。R1从22页扩到86页那篇、mHC残差连接那篇、Engram记忆论文那篇、OCR 2视觉因果流那篇。写到后来我自己都在想，是不是要改名叫「DeepSeek论文博主」了。

所以这次换一家。2月17日，智谱发了GLM-5的技术报告，40页，标题挺有意思：「GLM-5: from Vibe Coding to Agentic Engineering」——从氛围编程到智能体工程。

之前我写过一篇GLM-5的体验文章（从GLM-4.5到GLM-5，我见证了一个模型从码农晋升为架构师），聊的是使用感受。这次不一样，我想认认真真地把这40页论文拆开，看看里面到底写了什么。

先看成绩单

GLM-5的规格：744B总参数，MoE架构，256个专家每次激活8个，实际推理时活跃参数约40B。预训练数据28.5T tokens，成绩确实猛。

Artificial Analysis的Intelligence Index拿了50分，开源模型首次达到这个水平。

SWE-bench Verified 77.8%，开源最高。BrowseComp（联网检索，配合上下文管理）75.9%和MCP-Atlas（工具调用）67.8%，论文称是全模型最高——不是开源最高，是包括Opus、GPT、Gemini在内所有模型里的最高。

论文里还有一个自研的CC-Bench-V2评测，包含前端开发、后端开发和长周期Agent三类任务。在这个基准上，GLM-5整体和Claude Opus 4.5接近。论文很坦诚地承认了一些不如Opus的地方——比如需要极强审美判断的前端任务。这种坦诚在技术报告里不多见，至少说明数据可信度比较高。

成绩单到这里，一个问题自然冒出来：资本市场和技术社区为什么同时这么看好GLM-5？

我觉得有两个层面。

第一个是定位。论文标题说得很直白：from Vibe Coding to Agentic Engineering。翻译过来就是，从「程序员用AI辅助写代码」变成「Agent 7×24小时自主完成工程任务」。之前的AI编程是人在循环里——人提需求、AI写代码、人检查、人修改。Agentic Engineering是把人从循环里拿出来，Agent自己规划、自己写、自己测、自己改bug。

这个转变意味着什么？意味着AI消耗token的方式从「一次性对话」变成了「持续运转」。一个Coding Agent跑一个SWE-bench任务可能要消耗几万甚至几十万token。当Agent成为主要的token消费者，谁的模型最适合做Agent，谁就占据了最大的商业想象力。GLM-5就是冲着这个定位去的。

第二个是技术。读完40页论文，我发现GLM-5的创新主要集中在两个阶段：预训练阶段有两个巧妙的工程改进，后训练阶段有一套完整的Agent RL训练体系。后者是重头戏，但前者也值得先说。

预训练：两个巧妙的工程改进

第一个：让两个好工具一起工作。

GLM-5同时用了两项技术：MLA（一种压缩记忆的方法，省显存）和Muon（一种更快的训练优化器）。各自都是好东西，但放在一起会打架。

打个比方：MLA的工作方式是把所有信息打包成一个压缩包，整体处理。Muon的工作方式是把信息拆开，一份一份独立优化。一个要打包，一个要拆包，硬放一起训练效果就变差。

智谱的解法很朴素——在中间加一步：先把压缩包拆开让Muon逐份优化，优化完再打包回去给MLA用。论文里管这个叫Muon Split。实验数据显示，这一拆一合确实改善了训练效果。

第二个：共享参数的多步预测。

MTP是一种加速推理的技术——让模型一次预测接下来的多个词，而不是一个一个蹦。DeepSeek用1个预测层来做这件事。GLM-5更大胆：用3个预测层，但让这3层共享同一套参数。

直觉上，3个独立的预测层应该更强——各自专精嘛。但共享参数的方案逼着模型学会一种更通用的「多步预测能力」。就像下棋，一个人用同一套棋理连想三步，比三个人各想一步更连贯。

测试数据也证实了这一点：同样的推理步数下，GLM-5每次预测被接受的词数比DeepSeek多约8%，推理更快。

这两个改进都不是会上头条的大突破。但做法本身说明一件事：光用好技术不够，还得让这些技术在一起配合得好。

后训练的重头戏：Slime异步Agent RL

预训练的改进偏「小而美」。后训练阶段才是GLM-5真正的主战场，其中最核心的创新是异步Agent RL框架，智谱内部叫「Slime」。

如果说DeepSeek的GRPO让整个行业记住了一种新的强化学习优化方式，那Slime要解决的问题更往前一步——不是「怎么优化RL」，而是「怎么让Agent RL大规模跑得起来」。这可能是整篇论文里信息密度最高、也最有行业价值的部分。

先解释为什么Agent RL特别难。

传统的RL训练是这样的：模型生成一段文本（比如做一道数学题），环境给个分数，模型根据分数调整参数。整个过程很快，因为「生成答案」和「打分」都可以在GPU集群内部完成。

但Agent RL不一样。模型不是在做一道题，而是在执行一个完整的任务——比如修复GitHub上的一个bug。这意味着模型需要读代码、写代码、运行测试、看报错信息、再修改。这个过程可能需要几十轮对话，每轮都要调用外部工具（代码编辑器、终端、浏览器）。

一个SWE-bench任务的rollout（从头到尾跑完一个任务）可能要花几分钟甚至几十分钟。而传统的数学推理RL，一次rollout只要几秒。

这就造成了一个严重的效率问题。在Agent RL场景下，绝大部分训练时间都花在了rollout generation上。GPU集群的大部分时间都在等——等外部工具返回结果。

传统的同步RL框架（比如OpenRLHF、verl）解决不了这个问题，因为它们假设生成和训练是紧耦合的：生成一批、训练一批、再生成一批。当生成要等几十分钟时，整个训练流水线就卡住了。

智谱的解法是完全解耦生成和训练。

Slime框架的架构是这样的：

Rollout服务器集群：一堆独立的服务器，每台负责执行一个Agent任务（读代码、调终端、跑测试）。它们有自己独立的GPU做推理，任务跑完就把trajectory（完整的执行轨迹）发回来。

训练集群：另一堆GPU，只负责根据收到的trajectory做参数更新。不等，有数据就训练。

TITO网关（Token-In-Token-Out）：这是一个很巧妙的中间层。它接收外部服务器发来的文本，用当前版本的分词器转成token，再发给模型。模型返回的token也由它转回文字。

TITO为什么重要？因为在异步RL里，rollout服务器上跑的模型版本可能和训练集群上的不一样——你生成的时候是v1.3，等你的数据到了训练集群，模型可能已经更新到v1.5了。如果直接拿v1.3的token去给v1.5的模型训练，分词器都可能对不上（比如v1.5新加了特殊token），就会出错。

TITO网关通过统一的文本中间层解决了这个问题：不管你哪个版本生成的，我都先转成文本，再用当前训练版本的分词器重新编码。保证token永远和模型版本匹配。

另一个问题是off-policy数据的稳定性。因为生成和训练不同步，训练集群收到的数据可能来自好几个历史版本的模型。用历史版本的数据训练当前版本的模型，如果不加处理，训练会不稳定甚至崩溃。

智谱用了一个叫「双侧重要性采样」的方法来处理。传统重要性采样只用一个比率（旧策略vs新策略的概率比），Slime用两个：一个控制token级别的重要性权重，一个控制整个样本级别的。两个一起用，既保证了数据利用效率，又不会因为某个极端样本把训练带跑偏。

这整套系统不是论文里随便写写的。智谱已经把Slime框架开源了（github.com/THUDM/slime），任何团队都可以直接用。

拆开来看，Slime的贡献其实是两层的：底层是异步RL基础设施——把生成和训练彻底解耦，让GPU不再干等；上层是异步Agent RL算法——TITO网关和双侧重要性采样，让异步训练在数学上也站得住脚。基础设施解决「跑得起来」，算法解决「跑得稳当」。

我觉得这是GLM-5论文里最值得关注的创新。所有想做Agent的团队都知道Agent RL效果好，但传统同步框架让训练效率低到不可接受。Slime给出了第一个系统级的解法。这件事的意义，可能要等更多团队用上这个框架之后才能完全显现。

三阶段RL：顺序决定命运

异步RL解决了效率问题。但还有一个更根本的问题：你要让模型学什么？

GLM-5的RL训练分三个阶段，顺序很讲究：

第一阶段：Reasoning RL——教模型「想」。用MATH、AIME、代码竞赛这些有明确对错的任务来训练。这个阶段的目标是建立基础推理能力。

第二阶段：Agentic RL——教模型「做」。用SWE任务（修复真实GitHub bug）、终端任务、多跳搜索任务这些长周期Agent任务来训练。这个阶段用的就是前面说的Slime框架。

第三阶段：General RL——教模型「当人」。用开放对话、创意写作、角色扮演这些任务来训练。这个阶段让模型不只是一台推理机器，还是一个有品味、有性格的对话伙伴。

为什么顺序重要？

因为后面的阶段会让模型忘掉前面学到的东西。这个问题在机器学习里叫「灾难性遗忘」。你训练模型学会了修bug，再训练它聊天写作，它修bug的能力就可能退化。

就像一个人去学了烹饪，不代表他会忘记开车。但对于神经网络来说，这种遗忘是真实存在的。

GLM-5的解法叫「On-Policy Cross-Stage Distillation」（在线跨阶段蒸馏）。做法是：在第二阶段训练时，同时用第一阶段的最佳模型作为「老师」，让学生模型在学新技能的同时保持旧技能。第三阶段同理。

论文里给了具体数据：没有蒸馏时，从Agentic RL进入General RL阶段后，SWE-bench得分从77.8%掉到73.2%。用了跨阶段蒸馏后，基本不掉分。

这个技巧挺实用的。我之前写DeepSeek R1论文解读时提到过，R1团队也遇到了RL训练导致能力退化的问题，他们的做法是在训练数据里混入历史数据。GLM-5的蒸馏方案更系统——不只是混数据，而是让当前模型持续向历史最佳版本学习。

Agent场景下的三种思考模式

RL训练之外，GLM-5在推理策略上也有自己的设计。

传统的「思考型模型」（比如DeepSeek R1、o1）在回答之前会先做一段长长的内部推理，放在标签里。这种模式对数学题和编程题很有效。

但Agent任务不一样。Agent需要执行很多轮对话——读文件、改代码、跑测试、看结果、再改。如果每一轮都做一大段思考，上下文窗口很快就被撑爆了。

GLM-5设计了三种思考模式来应对不同场景：

Interleaved Thinking（交错思考）：每轮对话都思考，但思考内容比较短。适合需要持续推理的场景。

Preserved Thinking（保留思考）：只在第一轮做深度思考，后续轮次直接执行。思考内容会保留在上下文中供后续参考。适合任务明确、执行步骤多的场景。

Turn-level Thinking（轮次级思考）：每轮独立思考，但不保留历史思考内容——上一轮的在下一轮会被清除。适合上下文紧张的长任务。

这三种模式的切换是通过系统提示词来控制的。论文里给了一个有意思的实验：在SWE-bench任务上，Turn-level Thinking的效果比Interleaved Thinking好约2个百分点。原因是SWE-bench需要很多轮交互，Interleaved模式的思考内容太多会挤占真正有用的代码和报错信息。

这种设计挺实用的。核心不是「思考越多越好」，而是「什么时候该想、什么时候该干活，得分场景」。

一个有意思的细节

论文里还有一个有趣的案例值得单独拎出来。

幻灯片生成的多层奖励。GLM-5能生成PPT幻灯片（通过写HTML/CSS再渲染）。训练这个能力时，奖励函数的设计分了三层：

第一层是静态检查——HTML代码有没有语法错误、CSS属性用得对不对。

第二层是渲染检查——渲染出来的页面字有没有溢出、元素有没有重叠。这需要用Playwright把HTML渲染成图片再检查。

第三层是视觉感知——用另一个VLM（视觉语言模型）来评价渲染结果好不好看。

但这里出了一个经典的reward hacking问题：模型学会了一种「作弊」方式来骗取高分——用纯黑背景加白色文字。因为纯黑背景上白字的对比度最高，VLM评判时容易给高分。但生成出来的PPT全是黑底白字，完全没有设计感。

智谱的修复方案是在第三层奖励里引入参考幻灯片对比——不只是问「好不好看」，而是问「跟优秀案例比怎么样」。

这种reward hacking的故事在RL文献里很常见，但每次看到具体案例还是觉得有趣。它说明了一件事：训练AI的难度不在于让它「做到」，而在于让它「做对」。

国产芯片适配：不只是一句口号

论文里有一章专门写了国产芯片适配。GLM-5从发布之初就原生适配了国产GPU生态，覆盖7家主流芯片平台：华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦、燧原。

不少媒体在报道这件事时就写了一句「全栈国产」然后带过。但论文里的细节比这丰富得多。

以华为昇腾Atlas系列为例，智谱做了从量化到推理引擎的全链路优化——W4A8混合精度量化让单台服务器装下750B参数，定制融合算子解决稀疏注意力的计算瓶颈，深度适配vLLM-Ascend和SGLang两大推理引擎。最终效果是：GLM-5在单台国产算力节点上的推理性能，足以媲美两台国际主流GPU集群。

7家芯片的架构各不相同，指令集不同，编程模型不同。要在7个平台上都能跑GLM-5，意味着很多底层算子得重写7遍。这不是什么「突破性创新」，但它是实打实的工程苦活。

我之前写DeepSeek论文解读时提过一个观察：DeepSeek的很多技术突破其实是「工程驱动」而非「理论驱动」的——他们不是先想到一个新理论再去实验，而是在工程实践中遇到问题、被迫想出解决方案。

智谱在国产芯片上的适配也是同样的逻辑。你也可以说是「不得不用」，但这个约束倒逼出了一套跨芯片的工程能力，长远来看反而是竞争优势。

回到开头的问题：GLM-5到底做了什么创新？

预训练阶段，Muon Split让MLA和Muon优化器兼容工作，共享参数MTP把推理速度往上拉了一截。后训练阶段是真正的重头戏——Slime异步RL框架解决了Agent训练的效率瓶颈，三阶段RL配合跨阶段蒸馏防止能力遗忘，三种思考模式适配不同Agent场景。这些创新指向同一个方向：怎么把一个好底座训成一个好Agent。

这恰好是2025-2026年整个行业的核心战场。架构层面趋同之后，真正拉开差距的是Post-Training——怎么做RL、怎么训Agent、怎么防遗忘、怎么设计奖励函数。GLM-5在这个战场上拿出了自己的解法，而且把核心框架Slime开源了出去，下一个团队可以直接站在这个起点出发。

744B参数，28.5T tokens训练，原生适配国产芯片生态，核心创新开源回馈社区。这篇40页的技术报告，值得认真读。

论文链接：https://arxiv.org/abs/2602.15763

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.