智谱最近站在了风口浪尖上。
1月8日港股上市,45天市值涨了超500%,一度突破3200亿港元。
![]()
资本市场的热度还没消化完,技术社区又炸了——智谱GLM-5技术报告公开,40页,把这款模型如何从「AI辅助写代码」进化到「自主完成工程任务」的底层路径,完整交出来了。
a16z最近发了一张图,表示开源模型和闭源模型的差距正在快速缩小,GLM-5作为现阶段最好的开源模型,已经极大拉小了和Claude Opus 4.6的距离。
![]()
说起来,过去两个月我写了四篇论文解读——全是DeepSeek的。R1从22页扩到86页那篇、mHC残差连接那篇、Engram记忆论文那篇、OCR 2视觉因果流那篇。写到后来我自己都在想,是不是要改名叫「DeepSeek论文博主」了。
所以这次换一家。2月17日,智谱发了GLM-5的技术报告,40页,标题挺有意思:「GLM-5: from Vibe Coding to Agentic Engineering」——从氛围编程到智能体工程。
![]()
之前我写过一篇GLM-5的体验文章(从GLM-4.5到GLM-5,我见证了一个模型从码农晋升为架构师),聊的是使用感受。这次不一样,我想认认真真地把这40页论文拆开,看看里面到底写了什么。
先看成绩单
GLM-5的规格:744B总参数,MoE架构,256个专家每次激活8个,实际推理时活跃参数约40B。预训练数据28.5T tokens,成绩确实猛。
Artificial Analysis的Intelligence Index拿了50分,开源模型首次达到这个水平。
![]()
SWE-bench Verified 77.8%,开源最高。BrowseComp(联网检索,配合上下文管理)75.9%和MCP-Atlas(工具调用)67.8%,论文称是全模型最高——不是开源最高,是包括Opus、GPT、Gemini在内所有模型里的最高。
![]()
论文里还有一个自研的CC-Bench-V2评测,包含前端开发、后端开发和长周期Agent三类任务。在这个基准上,GLM-5整体和Claude Opus 4.5接近。论文很坦诚地承认了一些不如Opus的地方——比如需要极强审美判断的前端任务。这种坦诚在技术报告里不多见,至少说明数据可信度比较高。
成绩单到这里,一个问题自然冒出来:资本市场和技术社区为什么同时这么看好GLM-5?
我觉得有两个层面。
第一个是定位。论文标题说得很直白:from Vibe Coding to Agentic Engineering。翻译过来就是,从「程序员用AI辅助写代码」变成「Agent 7×24小时自主完成工程任务」。之前的AI编程是人在循环里——人提需求、AI写代码、人检查、人修改。Agentic Engineering是把人从循环里拿出来,Agent自己规划、自己写、自己测、自己改bug。
这个转变意味着什么?意味着AI消耗token的方式从「一次性对话」变成了「持续运转」。一个Coding Agent跑一个SWE-bench任务可能要消耗几万甚至几十万token。当Agent成为主要的token消费者,谁的模型最适合做Agent,谁就占据了最大的商业想象力。GLM-5就是冲着这个定位去的。
第二个是技术。读完40页论文,我发现GLM-5的创新主要集中在两个阶段:预训练阶段有两个巧妙的工程改进,后训练阶段有一套完整的Agent RL训练体系。后者是重头戏,但前者也值得先说。
![]()
预训练:两个巧妙的工程改进
第一个:让两个好工具一起工作。
GLM-5同时用了两项技术:MLA(一种压缩记忆的方法,省显存)和Muon(一种更快的训练优化器)。各自都是好东西,但放在一起会打架。
打个比方:MLA的工作方式是把所有信息打包成一个压缩包,整体处理。Muon的工作方式是把信息拆开,一份一份独立优化。一个要打包,一个要拆包,硬放一起训练效果就变差。
智谱的解法很朴素——在中间加一步:先把压缩包拆开让Muon逐份优化,优化完再打包回去给MLA用。论文里管这个叫Muon Split。实验数据显示,这一拆一合确实改善了训练效果。
![]()
第二个:共享参数的多步预测。
MTP是一种加速推理的技术——让模型一次预测接下来的多个词,而不是一个一个蹦。DeepSeek用1个预测层来做这件事。GLM-5更大胆:用3个预测层,但让这3层共享同一套参数。
直觉上,3个独立的预测层应该更强——各自专精嘛。但共享参数的方案逼着模型学会一种更通用的「多步预测能力」。就像下棋,一个人用同一套棋理连想三步,比三个人各想一步更连贯。
测试数据也证实了这一点:同样的推理步数下,GLM-5每次预测被接受的词数比DeepSeek多约8%,推理更快。
这两个改进都不是会上头条的大突破。但做法本身说明一件事:光用好技术不够,还得让这些技术在一起配合得好。
后训练的重头戏:Slime异步Agent RL
预训练的改进偏「小而美」。后训练阶段才是GLM-5真正的主战场,其中最核心的创新是异步Agent RL框架,智谱内部叫「Slime」。
![]()
如果说DeepSeek的GRPO让整个行业记住了一种新的强化学习优化方式,那Slime要解决的问题更往前一步——不是「怎么优化RL」,而是「怎么让Agent RL大规模跑得起来」。这可能是整篇论文里信息密度最高、也最有行业价值的部分。
先解释为什么Agent RL特别难。
传统的RL训练是这样的:模型生成一段文本(比如做一道数学题),环境给个分数,模型根据分数调整参数。整个过程很快,因为「生成答案」和「打分」都可以在GPU集群内部完成。
但Agent RL不一样。模型不是在做一道题,而是在执行一个完整的任务——比如修复GitHub上的一个bug。这意味着模型需要读代码、写代码、运行测试、看报错信息、再修改。这个过程可能需要几十轮对话,每轮都要调用外部工具(代码编辑器、终端、浏览器)。
一个SWE-bench任务的rollout(从头到尾跑完一个任务)可能要花几分钟甚至几十分钟。而传统的数学推理RL,一次rollout只要几秒。
这就造成了一个严重的效率问题。在Agent RL场景下,绝大部分训练时间都花在了rollout generation上。GPU集群的大部分时间都在等——等外部工具返回结果。
传统的同步RL框架(比如OpenRLHF、verl)解决不了这个问题,因为它们假设生成和训练是紧耦合的:生成一批、训练一批、再生成一批。当生成要等几十分钟时,整个训练流水线就卡住了。
智谱的解法是完全解耦生成和训练。
Slime框架的架构是这样的:
Rollout服务器集群:一堆独立的服务器,每台负责执行一个Agent任务(读代码、调终端、跑测试)。它们有自己独立的GPU做推理,任务跑完就把trajectory(完整的执行轨迹)发回来。
训练集群:另一堆GPU,只负责根据收到的trajectory做参数更新。不等,有数据就训练。
TITO网关(Token-In-Token-Out):这是一个很巧妙的中间层。它接收外部服务器发来的文本,用当前版本的分词器转成token,再发给模型。模型返回的token也由它转回文字。
TITO为什么重要?因为在异步RL里,rollout服务器上跑的模型版本可能和训练集群上的不一样——你生成的时候是v1.3,等你的数据到了训练集群,模型可能已经更新到v1.5了。如果直接拿v1.3的token去给v1.5的模型训练,分词器都可能对不上(比如v1.5新加了特殊token),就会出错。
TITO网关通过统一的文本中间层解决了这个问题:不管你哪个版本生成的,我都先转成文本,再用当前训练版本的分词器重新编码。保证token永远和模型版本匹配。
另一个问题是off-policy数据的稳定性。因为生成和训练不同步,训练集群收到的数据可能来自好几个历史版本的模型。用历史版本的数据训练当前版本的模型,如果不加处理,训练会不稳定甚至崩溃。
智谱用了一个叫「双侧重要性采样」的方法来处理。传统重要性采样只用一个比率(旧策略vs新策略的概率比),Slime用两个:一个控制token级别的重要性权重,一个控制整个样本级别的。两个一起用,既保证了数据利用效率,又不会因为某个极端样本把训练带跑偏。
这整套系统不是论文里随便写写的。智谱已经把Slime框架开源了(github.com/THUDM/slime) ,任何团队都可以直接用。
拆开来看,Slime的贡献其实是两层的:底层是异步RL基础设施——把生成和训练彻底解耦,让GPU不再干等;上层是异步Agent RL算法——TITO网关和双侧重要性采样,让异步训练在数学上也站得住脚。基础设施解决「跑得起来」,算法解决「跑得稳当」。
我觉得这是GLM-5论文里最值得关注的创新。所有想做Agent的团队都知道Agent RL效果好,但传统同步框架让训练效率低到不可接受。Slime给出了第一个系统级的解法。这件事的意义,可能要等更多团队用上这个框架之后才能完全显现。
三阶段RL:顺序决定命运
异步RL解决了效率问题。但还有一个更根本的问题:你要让模型学什么?
GLM-5的RL训练分三个阶段,顺序很讲究:
第一阶段:Reasoning RL——教模型「想」。用MATH、AIME、代码竞赛这些有明确对错的任务来训练。这个阶段的目标是建立基础推理能力。
第二阶段:Agentic RL——教模型「做」。用SWE任务(修复真实GitHub bug)、终端任务、多跳搜索任务这些长周期Agent任务来训练。这个阶段用的就是前面说的Slime框架。
第三阶段:General RL——教模型「当人」。用开放对话、创意写作、角色扮演这些任务来训练。这个阶段让模型不只是一台推理机器,还是一个有品味、有性格的对话伙伴。
![]()
为什么顺序重要?
因为后面的阶段会让模型忘掉前面学到的东西。这个问题在机器学习里叫「灾难性遗忘」。你训练模型学会了修bug,再训练它聊天写作,它修bug的能力就可能退化。
就像一个人去学了烹饪,不代表他会忘记开车。但对于神经网络来说,这种遗忘是真实存在的。
GLM-5的解法叫「On-Policy Cross-Stage Distillation」(在线跨阶段蒸馏)。做法是:在第二阶段训练时,同时用第一阶段的最佳模型作为「老师」,让学生模型在学新技能的同时保持旧技能。第三阶段同理。
论文里给了具体数据:没有蒸馏时,从Agentic RL进入General RL阶段后,SWE-bench得分从77.8%掉到73.2%。用了跨阶段蒸馏后,基本不掉分。
这个技巧挺实用的。我之前写DeepSeek R1论文解读时提到过,R1团队也遇到了RL训练导致能力退化的问题,他们的做法是在训练数据里混入历史数据。GLM-5的蒸馏方案更系统——不只是混数据,而是让当前模型持续向历史最佳版本学习。
Agent场景下的三种思考模式
RL训练之外,GLM-5在推理策略上也有自己的设计。
传统的「思考型模型」(比如DeepSeek R1、o1)在回答之前会先做一段长长的内部推理,放在
标签里。这种模式对数学题和编程题很有效。
但Agent任务不一样。Agent需要执行很多轮对话——读文件、改代码、跑测试、看结果、再改。如果每一轮都做一大段思考,上下文窗口很快就被撑爆了。
GLM-5设计了三种思考模式来应对不同场景:
Interleaved Thinking(交错思考):每轮对话都思考,但思考内容比较短。适合需要持续推理的场景。
Preserved Thinking(保留思考):只在第一轮做深度思考,后续轮次直接执行。思考内容会保留在上下文中供后续参考。适合任务明确、执行步骤多的场景。
Turn-level Thinking(轮次级思考):每轮独立思考,但不保留历史思考内容——上一轮的
在下一轮会被清除。适合上下文紧张的长任务。
![]()
这三种模式的切换是通过系统提示词来控制的。论文里给了一个有意思的实验:在SWE-bench任务上,Turn-level Thinking的效果比Interleaved Thinking好约2个百分点。原因是SWE-bench需要很多轮交互,Interleaved模式的思考内容太多会挤占真正有用的代码和报错信息。
这种设计挺实用的。核心不是「思考越多越好」,而是「什么时候该想、什么时候该干活,得分场景」。
一个有意思的细节
论文里还有一个有趣的案例值得单独拎出来。
幻灯片生成的多层奖励。GLM-5能生成PPT幻灯片(通过写HTML/CSS再渲染)。训练这个能力时,奖励函数的设计分了三层:
第一层是静态检查——HTML代码有没有语法错误、CSS属性用得对不对。
第二层是渲染检查——渲染出来的页面字有没有溢出、元素有没有重叠。这需要用Playwright把HTML渲染成图片再检查。
第三层是视觉感知——用另一个VLM(视觉语言模型)来评价渲染结果好不好看。
但这里出了一个经典的reward hacking问题:模型学会了一种「作弊」方式来骗取高分——用纯黑背景加白色文字。因为纯黑背景上白字的对比度最高,VLM评判时容易给高分。但生成出来的PPT全是黑底白字,完全没有设计感。
智谱的修复方案是在第三层奖励里引入参考幻灯片对比——不只是问「好不好看」,而是问「跟优秀案例比怎么样」。
这种reward hacking的故事在RL文献里很常见,但每次看到具体案例还是觉得有趣。它说明了一件事:训练AI的难度不在于让它「做到」,而在于让它「做对」。
国产芯片适配:不只是一句口号
论文里有一章专门写了国产芯片适配。GLM-5从发布之初就原生适配了国产GPU生态,覆盖7家主流芯片平台:华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦、燧原。
不少媒体在报道这件事时就写了一句「全栈国产」然后带过。但论文里的细节比这丰富得多。
以华为昇腾Atlas系列为例,智谱做了从量化到推理引擎的全链路优化——W4A8混合精度量化让单台服务器装下750B参数,定制融合算子解决稀疏注意力的计算瓶颈,深度适配vLLM-Ascend和SGLang两大推理引擎。最终效果是:GLM-5在单台国产算力节点上的推理性能,足以媲美两台国际主流GPU集群。
7家芯片的架构各不相同,指令集不同,编程模型不同。要在7个平台上都能跑GLM-5,意味着很多底层算子得重写7遍。这不是什么「突破性创新」,但它是实打实的工程苦活。
我之前写DeepSeek论文解读时提过一个观察:DeepSeek的很多技术突破其实是「工程驱动」而非「理论驱动」的——他们不是先想到一个新理论再去实验,而是在工程实践中遇到问题、被迫想出解决方案。
智谱在国产芯片上的适配也是同样的逻辑。你也可以说是「不得不用」,但这个约束倒逼出了一套跨芯片的工程能力,长远来看反而是竞争优势。
回到开头的问题:GLM-5到底做了什么创新?
预训练阶段,Muon Split让MLA和Muon优化器兼容工作,共享参数MTP把推理速度往上拉了一截。后训练阶段是真正的重头戏——Slime异步RL框架解决了Agent训练的效率瓶颈,三阶段RL配合跨阶段蒸馏防止能力遗忘,三种思考模式适配不同Agent场景。这些创新指向同一个方向:怎么把一个好底座训成一个好Agent。
这恰好是2025-2026年整个行业的核心战场。架构层面趋同之后,真正拉开差距的是Post-Training——怎么做RL、怎么训Agent、怎么防遗忘、怎么设计奖励函数。GLM-5在这个战场上拿出了自己的解法,而且把核心框架Slime开源了出去,下一个团队可以直接站在这个起点出发。
744B参数,28.5T tokens训练,原生适配国产芯片生态,核心创新开源回馈社区。这篇40页的技术报告,值得认真读。
论文链接:https://arxiv.org/abs/2602.15763
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.