网易首页 > 网易号 > 正文 申请入驻

智谱GLM-5技术全公开!完全适配华为等国产芯片,美国网友酸了

0
分享至

  • 金磊 发自 凹非寺
    量子位 | 公众号 QbitAI

GLM-5是怎么炼成的?

现在,它背后的论文终于完全公开了。



论文的名字也很直接:告别Vibe Coding,迈入智能体工程(Agentic Engineering)。

也正如我们之前实测的那般,它可以自己连续跑代码超过24小时、700次工具调用、800次上下文切换,从零直接手搓一个Game Boy Advance(GBA)模拟器。

一言蔽之,GLM-5把开源AI拽进了长任务时代。

外国网友直呼“GLM-5是最好的开源模型”:



并且还认为“极大拉小了和Claude Opus 4.6之间的距离”



除此之外,资本市场的表现也是可以从侧面印证一家大模型公司的实力。

毕竟春节期间,智谱股价飙升的程度,毋庸置疑,大家有目共睹。

现如今,这份长达40页的论文,彻底揭开了它背后的一切技术秘密。亮点如下:

  • 架构方面:在上一代经过验证的ARC(智能体、推理与编程)能力和MoE之上,引入DeepSeek同款稀疏注意力(DSA);成本大幅打下来了的同时,长上下文能力却一点没丢。
  • 后训练方面:全新构建的异步强化学习基础设施,把生成和训练解耦,加上独创的异步智能体RL算法,让效率大幅提升。
  • 芯片适配方面:GLM-5完成了与华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦以及燧原等国产芯片的全栈适配

这也让不少网友在看完论文之后直呼:

  • 在成本效率方面,美国的AI赶不上中国。



接下来,就让我们一起深入扒一扒这篇让外国网友羡慕的技术论文。

GLM-5的三大关键技术

在深入技术之前,我们需要先理解GLM-5在技术发展当下所面临的难题,即大模型需要真正开始干复杂的难活儿了

因为在GLM-4.5时代,智谱已经证明了将ARC能力融合进单一MoE架构是完全可行的。

但当模型真正投入到复杂的软件工程、长周期多轮对话的真实业务中时,算力成本和真实环境适应性成为了老大难的问题。




GLM-5 的整体训练流程

GLM-5要解决的就是这些瓶颈。因此,它在核心技术方面祭出了三把板斧。

第一板斧:引入DeepSeek同款稀疏注意力机制

在Transformer架构中,传统的密集注意力计算复杂度是随着上下文长度呈平方级(O(N2))增长的。

当上下文窗口扩展至200K甚至更长时,计算成本将变得极其昂贵,这成为限制智能体处理复杂任务的主要瓶颈。

GLM-5的解法是引入DSA这个动态稀疏注意力机制,它的核心理念是用动态的细粒度选择机制替换传统的密集注意力。与固定的滑动窗口模式不同,DSA 会“审视”内容,动态决定哪些Token是重要的。

然而,直接训练一个基于DSA的超大模型无异于走钢丝,很容易因为稀疏化带来的信息丢失而导致梯度爆炸或模型崩塌。

因此,GLM-5团队采取了一种极其巧妙的继续预训练策略,主要包含两个步骤:

  1. 稠密预热(Dense Warm-up):模型并非一上来就搞稀疏。在预训练的初始阶段,模型依然使用相对稠密的注意力机制(类似于MLA的变体),让模型先看全所有的信息,建立起全局的、稳固的语义表征能力。这就好比一个人在学习速读之前,必须先扎扎实实地精读。
  2. 平滑过渡与稀疏训练(Sparse Training):当模型具备了良好的基础后,开始逐步提高稀疏度。DSA的核心逻辑是:在计算当前Token的注意力时,不再关注历史上的所有Token,而是通过一个动态的路由机制(Routing Mechanism),只挑选出与之最相关的Top-K个Token进行计算。




MLA与DSA训练的SFT损失曲线对比

根据技术报告披露的数据,这一板斧砍下去,效果是立竿见影的:

  • KV Cache开销骤降75%:这意味着同样的显卡,现在可以支撑4倍以上的并发请求,或者处理长达4倍的上下文。
  • 推理速度提升3倍:注意力计算的FLOPS被大幅削减,首字响应时间(TTFT)和每秒生成Token数(TPS)都达到了行业顶尖水平。
  • 长文本能力几乎无损:这是最令人不可思议的一点。在著名的大海捞针以及诸如RULER等长文本复杂推理评测中,引入DSA的GLM-5与全稠密模型相比,性能下降微乎其微(小于0.5%)。

第二板斧:异步多任务强化学习

如果说DSA解决的是推理成本问题,那么GLM-5的第二板斧,解决的就是训练效率问题,尤其是决定模型最终智商的后训练阶段。

当前业界主流的强化学习对齐算法依然是PPO(近端策略优化)。

标准的PPO是一个高度同步的过程,涉及到四个模型,即Actor生成模型、Reference参考模型、Critic评论家模型、Reward奖励模型在多台GPU上的协同。

这种“走一步,停一下”的同步机制,导致整个集群的GPU利用率经常徘徊在20%-30%左右,大部分算力都浪费在等待网络通信和进程同步上了。

为了打破这个瓶颈,智谱基于4.5时代的Slime框架,为GLM-5从底层重写了一套异步强化学习基础设施(Asynchronous RL Infrastructure)

它的核心设计是将训练引擎和推理引擎解耦到不同的GPU设备上。推理引擎持续生成轨迹,一旦生成数量达到预定阈值,这批数据就被发送到训练引擎更新模型。为减少策略滞后并保持训练的近似同策略性,推理引擎的模型权重会定期与训练侧同步。

这种完全异步的训练范式,通过减少Agent rollout期间的“气泡”时间,显著提升了GPU利用率和训练效率。

但要支撑这种异步架构,还有几个关键技术难题需要解决:

第一,Token-in-Token-out(TITO)代替Text-in-Text-out。

在RL rollout设置中,TITO意味着训练流程直接消费推理引擎生成的精确tokenization和解码token流来构建学习轨迹。相比之下,Text-in-Text-out将rollout引擎视为返回最终文本的黑箱,训练器需要重新tokenization重建轨迹。

这个看似微小的选择实际上影响巨大:重新tokenization可能在token边界、空白处理、截断或特殊token放置上引入细微不匹配,从而影响对单个token采样概率的估计。GLM-5实现了一个TITO网关,拦截rollout任务的所有生成请求并记录每个轨迹的tokenID和元数据,将繁琐的tokenID处理从下游Agent rollout逻辑中隔离出来。

第二,直接双侧重要性采样解决离策略偏差。

在异步设置中,rollout引擎可能在单个轨迹生成过程中经历多次更新,这使得追踪历史训练侧模型的精确行为概率在计算上不可行——维护多个历史模型权重显然不现实。

研究团队采用简化方案:将rollout期间生成的对数概率作为直接行为代理,通过计算重要性采样比rt(θ) = πθ/πrollout,丢弃传统的πθ_old,消除单独旧策略推理的计算开销。同时采用双侧校准token级掩码策略,将信任域限制在[1-ε_l, 1+ε_h],对落在此区间之外的token完全屏蔽梯度计算。

第三,DP感知路由加速长上下文推理。

在多轮Agent工作负载中,来自相同rollout的顺序请求共享相同前缀。研究团队提出通过一致性哈希将每个rollout ID映射到固定数据并行(DP)rank,并结合哈希空间上的轻量级动态负载重新平衡。这避免了冗余的预填充计算,无需跨DP rank的KV同步,随着rollout长度增加,预填充成本仍与增量token成正比。

这套异步RL基础设施支撑了GLM-5在多领域的混合RL训练:数学、科学、代码和工具集成推理(TIR)。数据来源包括开源数据集、与外部标注供应商共同构建的STEM问题、Codeforces及TACO等代表性数据集。训练中为各领域分配专属裁判模型或评估系统生成二元结果奖励,四个领域的整体混合大致保持平衡。

第三板斧:投喂真实世界数据

传统SFT数据往往依赖标准答案,但真实世界是复杂多变的。

为了让模型具备真正的工程能力,GLM-5的第三板斧,就是构建大量可验证的真实世界环境数据

整个SFT语料库涵盖三大类别:通用对话、推理、编程与Agent。

值得注意的是,GLM-5在SFT阶段将最大上下文长度扩展至202752个token,并支持三种不同的思考特征:

  • 交错思考:模型在每次响应和工具调用前进行思考,提升指令遵循和生成质量;
  • 保留思考:在Coding Agent场景中,模型自动在多轮对话中保留所有思考块,复用已有推理而非重新推导,减少信息丢失和不一致性;
  • 轮级思考:支持在会话中对每轮推理进行精细控制,轻量级请求可禁用思考降低延迟,复杂任务可启用思考提升精度和稳定性。



为了支持Agent RL,研究团队还构建了大规模的、可验证的可执行环境:

  • 软件工程环境:基于真实世界的Issue-PR对,采用RepoLaunch框架自动分析仓库安装和依赖设置,构建可执行环境并生成测试命令。最终跨数千个仓库、涵盖9种编程语言(Python、Java、Go、C、C++、JavaScript、TypeScript、PHP、Ruby),构建了超过10000个可验证环境。
  • 终端环境:采用三阶段Agent数据合成流程——任务草稿生成、具体任务实现、迭代任务优化。从种子任务出发,利用LLM生成可验证的终端任务草稿,由构建Agent在Harbor格式中实例化为具体任务(结构化任务描述、Docker化执行环境、测试脚本),再由精炼Agent迭代优化。整体流程产出数千个多样化终端环境,Docker构建精度超过90%。
  • 搜索任务:构建Web知识图谱,以低至中频实体为种子节点扩展多跳邻域,将每个子图转化为隐式编码多实体关系链的问题。再经过三阶段过滤(删除无工具推理模型能答对的、过滤早期Agent能几步解决的、双向验证拒绝非唯一答案或不一致证据的),最终获得高质量、高难度的多跳问答对。



  • PPT生成:采用多层级奖励机制——第1级关注静态标记属性(定位、间距、颜色、字体等),第2级评估运行时渲染属性(元素宽高、边界框等),第3级引入视觉感知特征(异常空白模式等)。最终生成的页面中严格符合16:9宽高比的比例从40%提升至92%,页面溢出显著减少。



大模型的测试也更难了

技术的进步最终需要经受评测的检验。

GLM-5的论文不仅展示了其在传统榜单上的成绩,更揭示了一个趋势:大模型的测试正在变得更难、更贴近真实。

在Humanity’s Last Exam(HLE)、SWE-bench Verified、BrowseComp等关键榜单上,数据显示,GLM-5在SWE-bench Verified上得分77.8%,在开源模型中达到SOTA,优于Gemini 3 Pro,并与Claude Opus 4.5相当。

在HLE(含工具)测试中,GLM-5得分50.4,优于Claude Opus 4.5和Gemini 3 Pro。



在Artificial Analysis Intelligence Index v4.0中,GLM-5得到50分,成为新的开源SOTA模型,这是开放权重模型首次在该指数中达到50分。

然而,智谱团队认为,传统的SWE-bench已经不够看了。

因为它是一个静态、公开且发布超过2年的测试集,模型可能存在记忆效应。

为此,GLM-5团队推出了CC-Bench-V2,一个完全自动化的、模拟真实软件开发的评测集,涵盖前端、后端和长程任务。

在前端评估中,团队引入了Agent-as-a-Judge技术,通过GUI Agent模拟用户交互,验证生成项目的功能正确性。



结果显示,GLM-5的构建成功率(BSR)达到98.0%,在检查项成功率(CSR)上与Claude Opus 4.5具备竞争力。



在后端评估中,GLM-5在真实开源项目上的Pass@1达到25.8%,与Claude Opus 4.5相当,显著领先于GLM-4.7。

更值得一提的是长程任务评估。CC-Bench-V2通过挖掘已合并的Pull Request构建多步链式任务,评估模型在增量开发中的上下文跟踪与规划能力。

虽然GLM-5在此项上较GLM-4.7有显著提升,但与Claude Opus 4.5仍有差距。团队坦言,这是因为链式任务中错误会累积放大,缩小这一差距需要在长上下文一致性和长程自纠错方面继续突破。

这一系列评测结果释放了两个明确信号:

  • 第一,GLM-5 是开源界的第一个“全站工程师”,让 AI 能自主执行超长、超复杂的任务;
  • 第二,通过单体MoE架构统一Agent、推理与代码能力的可行性得到了验证,同时证明了RL在复杂代码生成中的巨大潜力。这对闭源模型而言,无疑是一种巨大的冲击。

One More Thing

在论文的最后,团队透露了一个有趣的彩蛋——Pony Alpha实验

在论文公开前,GLM-5曾以Pony Alpha为代号,匿名发布在OpenRouter平台上。隐去品牌信息后,模型凭借卓越的性能在社区引发轰动。

初步统计显示,25%的用户推测它是Claude Sonnet 5,20%认为是Grok的新版本,仅有部分用户猜中了GLM-5。



这次匿名测试打破了先入为主的地缘偏见,让社区的认可回归到了“好用与否”这一最纯粹的技术本质。

最终确认Pony Alpha真身即是GLM-5,这对团队是一次巨大的鼓舞,也有力回击了长期以来外界对中国本土模型技术水准的质疑。

不仅如此,这次GLM-5论文公布之后,在海外已经有不少人当教程来学习了。



若是你也对此感兴趣,论文放下面了,一起学习一下吧~

GLM-5论文地址:
https://arxiv.org/abs/2602.15763

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
立陶宛请求访华,要当面向中方认错?中方开出条件,做不到就免谈

立陶宛请求访华,要当面向中方认错?中方开出条件,做不到就免谈

掉了颗大白兔糖
2026-03-26 07:31:17
扫地僧不去干预,乔峰父子打得过慕容博、慕容复、鸠摩智三人吗?

扫地僧不去干预,乔峰父子打得过慕容博、慕容复、鸠摩智三人吗?

武侠百晓生
2026-03-26 10:50:32
中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

澎湃新闻
2026-03-25 19:52:29
1 胜 180 负! 加时领先 13 分 被逆转,火箭耻辱创史!

1 胜 180 负! 加时领先 13 分 被逆转,火箭耻辱创史!

贵圈真乱
2026-03-26 17:33:49
岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

仙味少女心
2026-03-24 16:47:29
服务犬第一次坐飞机,不忘叼着自己的阿布布,全程乖巧像小玩偶

服务犬第一次坐飞机,不忘叼着自己的阿布布,全程乖巧像小玩偶

Magic宠物社
2026-03-25 19:11:59
特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

每日经济新闻
2026-03-26 19:25:48
金刻羽给特朗普献计:现有政策全部反过来,就能锁住中国发展

金刻羽给特朗普献计:现有政策全部反过来,就能锁住中国发展

福建平子
2026-03-21 09:14:00
第一名帅!执教18年获40冠,瓜迪奥拉甩开穆里尼奥,有望超弗格森

第一名帅!执教18年获40冠,瓜迪奥拉甩开穆里尼奥,有望超弗格森

夏侯看英超
2026-03-24 00:07:54
“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

路医生健康科普
2026-01-28 12:18:49
U23国足2-2逼平泰国,名宿范志毅赛后点评言辞犀利,句句在理!

U23国足2-2逼平泰国,名宿范志毅赛后点评言辞犀利,句句在理!

田先生篮球
2026-03-25 22:37:26
A股:两个信息落地,明天,周五或会这样走了!

A股:两个信息落地,明天,周五或会这样走了!

明心
2026-03-26 16:35:30
微软前CTO长文控诉:Windows被搞成一锅粥!14年14次转变、17种GUI共存

微软前CTO长文控诉:Windows被搞成一锅粥!14年14次转变、17种GUI共存

快科技
2026-03-25 15:13:32
伊朗导弹砸向美国航母:伊朗打出了开战以来最强一拳

伊朗导弹砸向美国航母:伊朗打出了开战以来最强一拳

起喜电影
2026-03-26 14:20:32
法媒:“伊朗战争的首个受害者是真相”

法媒:“伊朗战争的首个受害者是真相”

参考消息
2026-03-26 13:30:07
“以前每桶省20美元,现在一分折扣没有” 油价“破百”下的山东地炼产业现状深度调查

“以前每桶省20美元,现在一分折扣没有” 油价“破百”下的山东地炼产业现状深度调查

每日经济新闻
2026-03-26 13:14:14
苹果把降噪塞了1.5倍,价格却忘了改

苹果把降噪塞了1.5倍,价格却忘了改

硬核玩家2哈
2026-03-25 22:01:40
再也不愁充电难了!成都将充电桩装在路灯上:600多个点位4月底投用

再也不愁充电难了!成都将充电桩装在路灯上:600多个点位4月底投用

快科技
2026-03-26 16:20:10
腿部是心梗的提示器?提醒:若腿部出现这4种表现,尽快就医

腿部是心梗的提示器?提醒:若腿部出现这4种表现,尽快就医

路医生健康科普
2026-03-16 22:10:03
特朗普战争致共和党优势尽失,民主党胜率达85%

特朗普战争致共和党优势尽失,民主党胜率达85%

揽星辰入梦
2026-03-26 18:51:00
2026-03-26 20:04:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
教育
健康
数码
军事航空

艺术要闻

哪一座桥不是风景?

教育要闻

2026人工智能时代下的教育课堂变革

转头就晕的耳石症,能开车上班吗?

数码要闻

1+4核,英特尔酷睿3 304处理器现身基准测试

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版