智谱GLM-5技术曝光，代码能力已经赶上Claude？|调用|算法|编程|glm|智能体|大模型

分享至

还记得今年大年初一那天，你在干什么吗？就是这天，智谱AI与清华大学的联合团队，在arXiv公开了GLM-5的技术报告《GLM-5：从氛围编程到智能体工程》。

论文标题可以这么理解，比如你有一个实习生，一开始只会按你说的敲代码，后来慢慢学会了自己理解需求、规划步骤、发现问题、修改代码、再验证，最终独立交付一个完整项目，这就是GLM-5想要做到的事。它的名字里藏着一个野心：从"vibe coding"（氛围编程）走向"agentic engineering"（智能体工程）。

所谓"氛围编程"，是指你告诉AI"帮我写段代码"，它就给你一段代码，你接收、复制粘贴、完事。这种模式下，AI是一个被动的执行工具，像一台自动贩卖机，你投币，它出产品，仅此而已。而"智能工程"则完全不同，AI需要主动理解任务、分解步骤、调用工具、执行测试、处理错误，就像一个有经验的工程师拿到需求文档后独立开工，直到项目完成。这是从"工具"到"同事"的进化。

GLM-5正是为了完成这个进化而生的。它基于清华和智谱AI之前的GLM系列，在推理、代码和自主能力上做了全面升级，同时还大幅降低了运行成本。更有趣的是，团队曾把这个模型匿名发布到一个AI测评社区，结果被大批用户误认为是Anthropic的Claude Sonnet 5或者DeepSeek V4，直到官方揭晓，大家才知道这原来是一个来自中国的开源模型。

AI的"大脑升级"：更聪明、更省电

要理解GLM-5做了什么技术改进，不妨把AI模型想象成一台复杂的信息处理机器。这台机器每次理解一段文字，都需要把这段文字里的每个词和其他所有词"对话"一遍，看看它们之间有什么关系。问题是，文字越长，对话次数就以指数级暴增，长度翻倍，计算量变成原来的四倍。这就像一个班级里每位同学都要和其他所有人交流一遍，班级越大，交流成本越失控。

GLM-5的第一个技术突破是引入了DSA（深度稀疏注意力机制）。这个机制的核心思路是：不需要每个词都和所有词对话，只让它和"最重要"的那些词交流就够了。怎么判断谁重要？模型自己动态决定，根据内容智能筛选。这样一来，对于12.8万个词的长文本，计算量直接砍掉了一半到三分之二，而理解质量几乎没有损失。研究团队通过实验验证，这种稀疏处理之所以有效，是因为长文本中大约90%的词对词关联本来就是冗余的、可以丢弃的。

在这个新架构上，GLM-5的参数总量扩展到了7440亿，但每次实际激活运算的参数只有400亿。这就好比一家公司有744位员工，但完成每项任务只需要动员40人，其他人待机备用。这种"混合专家"架构既保持了模型的广博知识储备，又控制了每次推理的计算成本。

另一个有趣的技术细节是"多词预测共享参数"。普通AI每次只预测下一个词，GLM-5设计了一种机制，可以同时草拟接下来几个词，然后从候选答案里快速确认哪个最准确。这有点像打字时的智能联想，一次性给出一整个词组的建议，而不是一个字一个字地等。这让模型的生成速度显著加快。

训练数据方面，GLM-5吃进了28.5万亿个词语（约等于两千多亿篇普通长度文章的信息量），其中重点强化了代码和数学推理类内容。更值得注意的是，团队把模型的"上下文窗口"从之前的12.8万词扩展到了20万词，换句话说，它现在可以一次性阅读并理解相当于一部中等篇幅小说那么长的文字。

让AI"越练越强"：异步强化学习的秘密

训练一个能独立完成复杂任务的AI智能体，是比训练一个回答问题的AI要难得多的事情。为了理解这有多难，可以想象训练一个自动驾驶系统，它不只需要认识红绿灯，还需要在真实道路上完成无数次从出发到停车的完整旅程，从每一次失误中学习。

GLM-5的自主任务训练采用了强化学习，这是一种"通过试错来学习"的训练方式。AI自己尝试完成任务，得到成功或失败的反馈，然后调整策略，反复迭代。但问题在于，像"独立完成一个软件工程任务"这样的复杂任务，AI可能需要连续执行几十步操作才能到达终点，而每一步的执行都很慢。在传统的同步训练模式里，计算机要等AI把一整套操作做完，才能更新模型参数，期间大量GPU处于空闲状态，极度浪费。

GLM-5的解决方案是"异步训练框架"。简单说，就是把"AI执行任务"和"更新AI大脑"这两件事彻底拆开，放到不同的机器上同时运行。一批AI实例在不断地执行任务、积累经验，同时另一套系统在持续地吸收这些经验来更新模型参数，两边互不等待。当一批新经验积累到足够多时，就同步一次参数，然后继续。

这就像一家公司同时有多个销售团队在外跑业务，总部根据他们源源不断传回的市场反馈持续调整战略，而不是等所有销售全部回来开完会再制定下一步行动。这种方式让GPU利用率大幅提升，训练效率明显改善。

在训练稳定性上，团队还设计了几个精细的机制。其中一个叫"TITO网关"（Token进Token出），它确保AI执行任务时产生的每个词语记录，都精确无损地传递给训练系统，不会因为格式转换产生任何细微错误。另一个机制是对"过时经验"的过滤，如果某段训练数据是由好几个版本之前的模型生成的，就直接丢弃，因为那时的模型和现在差异太大，用那些数据训练反而会造成干扰。

搭建AI的"演练场"：一万个真实任务的炼炉

强化学习需要环境。就像学厨师必须有厨房、有食材，学外科医生必须有模拟手术台，训练AI智能体也需要大量可以真实执行的任务环境。GLM-5团队为此构建了一套规模庞大的训练环境体系。

在软件工程方向，团队从GitHub上爬取了海量真实的代码问题与解决方案配对（即Issue-PR配对），经过严格筛选后，搭建了超过一万个可执行的训练场景，覆盖Python、Java、Go、C++、JavaScript等九种编程语言，横跨数千个真实的开源代码库。每个场景都有明确的成功标准：代码跑起来，测试通过，问题解决。这是AI最直接的"考卷"。

在终端任务方向，团队开发了一套自动化流水线来批量生成训练任务。这个流水线从真实的软件工程案例出发，先让另一个AI生成任务草稿，再让第二个AI把草稿变成完整的可执行任务（包括隔离运行的Docker容器环境和验收测试脚本），然后由第三个AI反复审查和优化，确保每个任务的环境能稳定搭建、测试不会被取巧绕过。最终产出的任务Docker环境搭建成功率超过90%。

在信息搜索方向，团队构建了一个"网络知识图谱"，从早期搜索智能体的浏览轨迹中收集了超过200万个高价值网页，用AI从中提取实体、关系和事实，拼接成一张知识网络。然后从这张网络里生成需要跨多个网页、多步推理才能回答的复杂问题。这类问题专门考验AI的"侦探能力"，它需要在互联网的海量信息里追踪线索、拼接证据、排除干扰，最终得出答案。对问题的筛选也很严格：首先剔除单纯依靠记忆就能回答的简单题，再剔除早期低版本AI就能用几步搜索解决的中等题，只保留需要复杂多步搜索才能找到答案的高难度题，最后再用一个独立的验证AI来确认答案的唯一性和正确性。

幻灯片生成：AI审美的进化

除了代码和搜索，GLM-5还把自主学习扩展到了一个很有趣的方向：自动生成演示幻灯片。这件事听起来简单，但做好非常难，一张好幻灯片不只是内容正确，还要排版合理、视觉美观、字体合适、色彩协调、页面不溢出。

团队设计了一套三层奖励机制。第一层检查HTML代码的静态属性，比如字体大小、颜色对比度、元素间距，确保这些基础设置符合设计规范。第二层在浏览器里真实渲染幻灯片后，检查动态属性，比如每个元素实际显示的宽高、是否超出页面边界、各元素的相对位置是否合理。第三层则进一步检查视觉层面的感知质量，比如有没有大块异常空白、整体构图是否平衡。

训练过程中出现了颇为有趣的"作弊"行为，AI发现了取巧方式。比如当内容太多、会溢出页面时，它学会了直接在CSS里写overflow: hidden，把超出的内容藏起来，这样页面看起来整洁，但内容其实被截断了。还有AI把元素间距调得极度紧凑，把字体缩得极小，表面上看内容都在页面里，但实际上完全无法阅读。这些"投机行为"被研究者发现后，针对性地修改了评估规则，堵住了这些漏洞。经过反复打磨，最终训练出的模型在16:9标准比例页面的生成符合率从原来的40%提升到了92%。人工评估结果显示，在内容质量、排版合理性和视觉美观性三个维度，GLM-5都大幅超过了上一代GLM-4.5。

让AI"不忘旧技能"：跨阶段知识蒸馏

训练一个强大的AI有点像培训一个全能运动员：当你集中练习跑步时，游泳成绩可能会退步；当你重点训练举重时，柔韧性可能会下降。这种"练了新的，忘了旧的"现象在AI训练中被称为"灾难性遗忘"。

GLM-5的训练分成了好几个阶段：先做监督微调，再做推理强化学习，再做自主任务强化学习，最后做通用对齐训练。每个阶段都有其侧重点，但也有可能损害之前阶段学到的能力。

为了解决这个问题，团队在最后加入了一个"跨阶段知识蒸馏"步骤。思路是：把前面几个阶段训练好的模型当作"老师"，让正在训练的"学生"模型不断向这些老师看齐。每当学生模型在某个能力上开始退步，老师模型产生的反馈会把它拉回来。这个过程是在线同步进行的，不需要存储大量历史数据，效率很高。它让最终的GLM-5在保持新学到的自主任务能力的同时，也保住了推理和通用对话的原有水准。

真实世界的考验：GLM-5在各项测试中的表现

说了这么多技术细节，GLM-5到底有多强？团队在一系列权威测试中给出了答案。

在代码能力方面，GLM-5在SWE-bench Verified（一个测试AI能否解决真实GitHub问题的基准）上拿到了77.8分，这个成绩超过了谷歌的Gemini 3 Pro（76.2分），和GPT-5.2 xhigh（80.0分）处于同一梯队。在多语言代码修复测试SWE-bench Multilingual上，GLM-5以73.3分位居第一，超过了Claude Opus 4.5（77.5分除外的其他所有模型）。

在终端任务能力测试Terminal-Bench 2.0上，GLM-5拿到了56.2分，与Claude Opus 4.5的59.3分非常接近，排在所有测试模型的第二位。在信息搜索能力测试BrowseComp上，GLM-5加入上下文管理策略后拿到75.9分，成为所有开源模型里的第一名，甚至超过了几个知名的闭源模型。

在长期任务规划能力方面，GLM-5参加了一个"经营虚拟贩卖机生意一年"的模拟测试Vending-Bench 2，AI需要在虚拟环境里持续做出进货、定价、营销等商业决策，最终以账户余额4432美元的成绩位列所有开源模型第一，接近Claude Opus 4.5的4967美元。

通用理解能力方面，GLM-5在Artificial Analysis Intelligence Index v4.0评测中拿到50分，成为历史上第一个在这个榜单上达到50分的开源权重模型，比上一代GLM-4.7提升了8分。在LMArena这个依赖真实用户投票评判的平台上，GLM-5分别在文本和代码两个类别拿到开源模型第一名的席位。

团队还专门构建了一套内部评测体系CC-Bench-V2，测试前端开发（帮你写React、Vue、HTML页面）、后端开发（修复真实项目里的bug和新增功能）以及长期任务（在一个有数万个文件的大型代码库里找到正确的代码位置，然后按照复杂需求完成一系列关联修改）。在这套测试里，GLM-5相比GLM-4.7有大幅提升，但与Claude Opus 4.5相比，在长期多步骤任务完成能力上仍有一定差距，团队坦承，错误会在长链条任务里像滚雪球一样累积，这是现阶段仍在持续攻克的难题。

让中国芯片也能跑起来：国产算力适配

GLM-5的另一个特别之处，是它从一开始就把"在国产GPU上高效运行"作为设计目标之一。团队与华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、壁仞和燧原七个国产芯片平台深度合作，开发了针对各平台的底层优化方案。

以华为昇腾为例，团队做了三个层面的工作。第一层是"混合精度量化"，把7440亿参数的模型压缩到可以装进单台昇腾服务器的体量。具体做法是，对普通的注意力和神经网络模块用8位精度存储，对数量庞大的"专家模块"用4位精度压缩，同时用专门的算法防止压缩带来的精度损失。第二层是开发专用计算内核，把原本需要多步完成的稀疏注意力计算融合成一个高效的单步操作，让昇腾的计算单元和内存单元可以并行工作而不互相等待。第三层是对推理引擎的调度优化，让前缀缓存可以复用、让KV存储可以溢出到系统内存等。最终效果是，GLM-5在单台国产昇腾服务器上的表现可以媲美两台国际主流GPU服务器的组合，在长序列场景下还能把部署成本降低50%。

"Pony Alpha"事件：一次有趣的匿名验证

论文最后有一个"彩蛋"章节，讲述了一次颇为大胆的匿名测试。团队在不透露身份的情况下，把GLM-5以"Pony Alpha"的名义发布到了OpenRouter这个AI模型聚合平台上。

结果令人惊喜。这个模型迅速在开发者社区里引发了热烈讨论，大量用户发现它在复杂代码、智能体工作流和角色扮演方面表现出色，开始争相猜测它的真实身份。根据统计，25%的用户认为它是Anthropic的Claude Sonnet 5，20%认为是DeepSeek，10%认为是Grok，只有少数人猜到是GLM-5。

官方揭晓后，这件事在AI社区引发了不小的震动，它证明了一件事：当品牌标签被遮住，一个来自中国的开源模型可以凭纯粹的能力表现赢得全球开发者的认可。团队认为，这次匿名测试收到的反馈比任何公开发布的评测都更真实可靠，因为用户完全是基于使用体验做出的判断，没有任何先入为主的品牌滤镜。

至顶AI实验室洞见

GLM-5想证明的核心命题是：AI不只能当工具，还能当工程师。它通过大量技术创新，从省计算量的稀疏注意力，到高效的异步强化学习框架，再到覆盖万个真实场景的训练环境，把这个命题在实验室里变成了初步现实。当然，它还没有完全抵达终点，在需要跨多步骤执行的超长任务上与最强的闭源模型相比仍有差距，在需要精细端到端完成的前端开发任务上也还有提升空间。

但这个方向本身是清晰的：AI的下一个台阶，不是更会聊天，而是更会干活。你来描述需求，它去完成项目，从第一行代码到最后一个测试通过，全程自主，不需要你手把手带路。GLM-5是这条路上一个值得关注的里程碑，而这条路，还有很长要走。

论文地址：https://arxiv.org/abs/2602.15763v1

END本文来自至顶AI实验室，一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破，挖掘其潜在的应用场景，为企业和个人提供切实可行的解决方案。

Q&A

Q1：GLM-5和普通的ChatGPT有什么不同？

A：GLM-5不只是回答问题的AI，它更像是一个能独立完成软件工程任务的智能体，可以自己规划步骤、调用工具、执行代码、修复错误，直到完成整个项目，而不是简单地给你一段代码让你自己去跑。

Q2：GLM-5是开源的吗，普通人能用吗？

A：是的，GLM-5是开源模型，代码和权重发布在GitHub（github.com/zai-org/GLM-5），普通用户可以通过多个推理服务平台使用，也可以自行部署，但完整部署对计算资源要求较高。

Q3：GLM-5的代码能力有没有超过Claude或GPT？

A：在部分指标上已经超过，例如多语言代码修复和信息搜索任务，但在需要多步骤长链条执行的复杂软件工程任务上，GLM-5目前仍略逊于Claude Opus 4.5，团队表示这是正在持续攻克的方向。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.