网易首页 > 网易号 > 正文 申请入驻

智谱GLM-5强调的Agentic Engineering能力是什么?|甲子光年

0
分享至



智谱GLM-5验证了Agentic Engineering的可行性,但成本正在变得更显性。

作者|周悦

编辑|王博

今天,智谱上线并开源GLM-5,其在Coding与Agent能力上,取得开源SOTA表现,在真实编程场景的使用体感逼近 Claude Opus 4.5,擅长复杂系统工程与长程Agent任务。


在全球权威的Artificial Analysis榜单中,GLM-5位居全球第四、开源第一,图片来源:智谱

这一发布直接刺激了资本市场,智谱股价一度涨超41%。截至收盘,智谱股价报402港元/股,涨幅为28.68%,市值为1792.3亿港元。

值得注意的是,智谱称GLM-5为“Agentic Engineering时代最好的开源模型”。

什么是Agentic Engineering?为什么智谱要强调这个概念呢?

1.从“氛围”到“工程”

如果说AI行业需要寻找一位能精准捕捉技术风向的观测者,特斯拉前AI总监、OpenAI创始成员Andrej Karpathy无疑是最佳人选。

2025年2月,他提出Vibe Coding(氛围编码)概念。开发者不再逐行写代码,而是用自然语言描述意图,让模型在一种更像即兴创作的状态里生成实现。这种体验带来了一段明显的“编程蜜月期”:生成更快、试错更便宜、上手更轻松。

但一年后,Karpathy抛出了一个更现实的概念:Agentic Engineering(代理工程)。他的关注点不再是单纯地追求生成代码,而是试图让AI交付完整的工程闭环。

从“氛围”到“工程”的转变,折射出一个更直观的行业变化:写代码的门槛在降低,但让模型跑完工程的门槛并没有同步下降。

在「甲子光年」看来,要让Agentic Engineering真的跑起来,需要满足两个条件:模型能力强,成本可接受。

我们把它粗略概括为一个便于理解的表达:Agentic Engineering的扩散性 ≈ 能力阈值 × 成本阈值。

前者决定可行性,后者决定普及率。没有足够的智能,循环会放大错误;能力足够时,成本会变成新的瓶颈。这种范式往往会更早落在预算更充足、对收敛速度更敏感的团队里。

今天,智谱GLM-5的发布与GLM Coding Plan价格体系调整,让这两个变量在同一个时间点上显得更清晰。


Andrej Karpathy发布博文,图片来源:X平台

理解这次转变,需要还原开发者的真实工作流。

在Vibe Coding时代,一个后端开发者使用Cursor等编程工具时,典型循环往往是:人类输入—模型输出—人类验证—模型修改——人类确认。它提高了生成效率,但没有消除人工介入的难题。

Karpathy对此的总结很精准:“很好、很有趣,而且几乎能行得通。(It was good and fun and it almost worked)”

关键就在“几乎”。

当任务开始变长、上下文变复杂、回归测试变多时,人类介入的频率并不会下降,开发者依然需要反复确认。瓶颈逐渐从代码生成速度转向开发者的验证速度。

Agentic Engineering试图打破的,正是这种线性依赖,让模型把“找—改—测—再改—再测”的闭环尽量跑完,人类更多在关键节点介入,最终对结果负责。开发者的角色也随之变化,从写代码的人变成更像“监督者”。

在这样的语境下,GLM-5之所以值得被讨论,是因为它为开源模型能否更接近代码代理工作流,提供了一个可观察样本也就是把公式左侧的变量(能力阈值)推到了一个更高的位置。

根据智谱披露的结果,在衡量AI解决真实GitHub问题能力的权威榜单SWE-bench Verified上,GLM-5取得了77.8的成绩,这一数据逼近了闭源模型的第一梯队。与此同时,在部分第三方公开榜单下,GLM-5也处于开源模型的前列。

这些分数当然不是全部意义,但它们至少指向一个变化:在给定代码仓库、给定验证条件的任务设定下,开源模型完成更长程的规划、反思与自我修正,正在变得更可行。


大模型评估结果,图片来源:智谱

从智谱披露的技术路径来看,GLM-5在几个关键维度上做了面向长流程任务的强化:

  • 参数规模扩展:参数规模扩展至744B(激活40B),预训练数据量提升,增强了通用智能;

  • 异步强化学习:引入“Slime”框架和异步智能体强化学习算法,使模型能够从长程交互中持续学习;

  • 稀疏注意力机制:集成DeepSeek Sparse Attention,保证了在处理长上下文时的效果无损,提升token效率。

更值得注意的是,智谱表示,GLM-5已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等多家国产算力平台的深度推理适配与优化。这说明,在部署路径上,它正在探索一种更可落地的工程组合方式。

这共同指向了一个结论:开源模型在“更接近工程闭环”这一维度上,正在跨过更高的能力门槛。

2.现实的成本问题

当能力门槛被抬上去之后,公式右侧的变量“成本阈值”会更快变成现实问题。

Agentic Engineering的核心逻辑是“循环”。一次真实的修复任务往往并不是一问一答,而是多轮定位、修改、测试与复盘。在这种模式下,Token消耗与推理时长通常会显著高于普通对话。

换句话说,它不是“更省钱地写代码”,而是用更密集的算力去置换人类的时间。

2月12日,智谱发布价格调整说明,宣布 GLM Coding Plan取消首购优惠,整体价格上调,涨幅自30%起,将原因归于需求增长与高负载下的稳定性与服务质量保障。

这些信息共同指向一个更明确的现实:当模型开始被更频繁地当作生产力工具使用,成本会更早变成账单。

因此,“涨价”本身不必被简化为单一结论。更准确的说法是:能力阈值在上升,成本阈值也更显性。

GLM-5的案例一定程度说明,未来的软件工程可能会呈现出一种分层态势

  • Vibe Coding层,对于日常、短程的辅助开发,低成本、快响应的模型依然是主流;

  • Agentic Engineering层,面向关键任务、复杂架构调整或必须快速收敛的问题,更强的代理工程能力,更像一种需要付费的“加速券”——用更高的推理预算,换取更快的工程收敛。

对大公司和追求极致效率的团队来说,这是一笔算得过来的投入;而对于更广泛的个人开发者,这或许意味着需要更精细地计算 ROI(投资回报率)。

我们或许已经看到了一个更接近现实的结论:模型能力决定Agentic Engineering正在走向现实;成本,决定它能扩散到多远。

(封面图来源:AI生成)

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
安徽18岁男子蹊跷失联 警方通报

安徽18岁男子蹊跷失联 警方通报

黄河新闻网吕梁
2026-05-01 18:20:55
湖人又疯了!?要先续约他!在詹姆斯之前!

湖人又疯了!?要先续约他!在詹姆斯之前!

柚子说球
2026-05-01 22:47:38
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
小宝与王某雷,谁探访花的数量更多?

小宝与王某雷,谁探访花的数量更多?

挪威森林
2026-01-31 12:15:26
G2胜辽宁发布会!邱彪爆赞陶汉林高诗岩,陶汉林亲承有退役想法!

G2胜辽宁发布会!邱彪爆赞陶汉林高诗岩,陶汉林亲承有退役想法!

篮球资讯达人
2026-05-01 22:37:47
万项喊话全队:都知道第一场比赛的重要性,希望大家做好准备

万项喊话全队:都知道第一场比赛的重要性,希望大家做好准备

懂球帝
2026-05-01 20:49:20
AI生成《黑神话:潘金莲》美图 性感风骚的美人

AI生成《黑神话:潘金莲》美图 性感风骚的美人

3DM游戏
2026-05-01 06:10:08
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
刚刚!新加坡总理黄循财一度泪洒群众大会、哽咽近3分钟,只因…

刚刚!新加坡总理黄循财一度泪洒群众大会、哽咽近3分钟,只因…

新加坡万事通
2026-05-01 18:50:07
2026版老年2型糖尿病指南发布!6大核心要点速览

2026版老年2型糖尿病指南发布!6大核心要点速览

新浪财经
2026-04-30 18:50:40
曾是一代歌王,却沦为人尽皆知的台独分子,如今家破人亡下场凄凉

曾是一代歌王,却沦为人尽皆知的台独分子,如今家破人亡下场凄凉

君笙的拂兮
2026-05-01 12:50:32
看来是真的,港媒:055驱逐舰在菲律宾附近发射鹰击-20导弹

看来是真的,港媒:055驱逐舰在菲律宾附近发射鹰击-20导弹

爱吃醋的猫咪
2026-04-29 21:16:58
一架专机抵台,赖清德乐了,转身却发现:王毅当天就收到美国来电

一架专机抵台,赖清德乐了,转身却发现:王毅当天就收到美国来电

小影的娱乐
2026-05-01 12:23:37
8轮0首发!徐正源得意爱将惨遭成都蓉城新帅冷落,沦为中超边缘人

8轮0首发!徐正源得意爱将惨遭成都蓉城新帅冷落,沦为中超边缘人

零度眼看球
2026-05-01 07:17:54
赵薇黄晓明出席北电96级同学聚会,美女帅哥一堆,班主任气质不俗

赵薇黄晓明出席北电96级同学聚会,美女帅哥一堆,班主任气质不俗

娱乐团长
2026-05-01 13:31:21
方媛带3个孩子海边度假,母女同框似姐妹,郭富城忙工作缺席

方媛带3个孩子海边度假,母女同框似姐妹,郭富城忙工作缺席

娱乐皮皮酱
2026-05-01 11:09:32
裁判快憋不住了 吴宜泽与艾伦一局鏖战100分钟破纪录 1小时未进球

裁判快憋不住了 吴宜泽与艾伦一局鏖战100分钟破纪录 1小时未进球

风过乡
2026-05-02 05:07:59
“毕竞”连线,大连英博1:0力克重庆铜梁龙,拿下比赛!成功跻身亚冠区

“毕竞”连线,大连英博1:0力克重庆铜梁龙,拿下比赛!成功跻身亚冠区

云隐南山
2026-05-02 02:24:04
300万违约金直接砍!本菲卡硬刚皇马,穆帅未来尘埃落定?

300万违约金直接砍!本菲卡硬刚皇马,穆帅未来尘埃落定?

林子说事
2026-05-01 20:40:51
爷爷过世请假奔丧被公司开除,法院判了

爷爷过世请假奔丧被公司开除,法院判了

极目新闻
2026-05-01 17:05:11
2026-05-02 05:40:49
甲子光年
甲子光年
中国科技产业化前沿智库
3436文章数 9265关注度
往期回顾 全部

科技要闻

DeepSeek发布多模态论文又连夜删除

头条要闻

美国也搞起"人肉代购" "去墨西哥买中国车"教程疯传

头条要闻

美国也搞起"人肉代购" "去墨西哥买中国车"教程疯传

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

游戏
亲子
教育
手机
公开课

PS玩家团结起来!请愿复活第一方3A 耗时7年却被取消

亲子要闻

豌豆的球掉进小水坑,很难过,一只青蛙帮她把球捡了回来

教育要闻

高考地理概念:地下水

手机要闻

曝iPhone18Pro相机史诗级升级,这次你期待吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版