网易首页 > 网易号 > 正文 申请入驻

GLM-5.1发布:Z.ai推出可长时间自主运行的AI编程智能体

0
分享至


中国AI公司Z.ai近日发布了GLM-5.1,这是一款专为智能体软件工程设计的开源编程模型。此次发布正值AI厂商纷纷从自动补全式编程工具,向能够长时间、低人工干预地处理软件任务的系统转型之际。

Z.ai表示,GLM-5.1能够在数百次迭代中保持稳定性能,这一特性使其有别于在长时间运行中逐渐失效的其他模型。

举例来说,该公司表示GLM-5.1在一项向量数据库优化任务中,经过超过600次迭代、6000次工具调用,最终达到每秒21500次查询的速度,约为单次50轮会话中最优结果的六倍。

Z.ai在一份研究说明中指出,GLM-5.1在多项软件工程基准测试中超越了其前代产品GLM-5,尤其在代码仓库生成、终端问题解决和反复代码优化方面表现突出。在SWE-Bench Pro测试上,GLM-5.1得分为58.4,而GLM-5为55.1,并超过了OpenAI的GPT-5.4、Anthropic的Opus 4.6以及谷歌的Gemini 3.1 Pro在该基准上的成绩。

GLM-5.1已在MIT许可证下发布,可通过Z.ai的开发者平台获取,模型权重也已公开发布,支持本地部署。这对希望更好掌控工具部署方式的企业而言具有较大吸引力。

Z.ai将长时间稳定运行性能定位为核心差异化优势,因为许多当前模型在经历相对较少的轮次后便会停滞或出现漂移,限制了其在复杂多步骤软件任务中的实用性。

Pareekh Consulting首席执行官Pareekh Jain表示,行业正从能够回答提示词的工具,迈向能够在较少监督下完成更长时间任务的系统。

Jain说,问题已不再是"我能问AI什么",而是"我能把接下来八小时的工作交给它做什么"。

对于企业而言,这意味着早上将一张工单交给智能体,到下班时便能收到经过数百次实验和代码分析后生成的优化方案。

Forrester副总裁兼首席分析师Charlie Dai表示:"这一能力契合了大规模代码重构、迁移项目和持续故障处理等实际需求。这表明,长时间运行的自主智能体正变得越来越实用,前提是企业需要配套引入治理、监控和升级机制来管控风险。"

GLM-5.1采用MIT许可证发布,对金融、医疗、国防等监管严格或安全敏感行业尤为重要。

Jain从四个维度分析了其意义:第一,成本方面,其定价远低于高端商业模型,自托管方式让企业可以自主控制费用,而非按调用次数付费;第二,数据治理方面,敏感代码和数据无需发送至外部API,在金融、医疗和国防等领域尤为关键;第三,定制化方面,企业可以不受限制地根据自身代码库和内部工具对模型进行调整。

Jain提到的第四个因素是地缘政治风险。尽管该模型是开源的,但其与中国基础设施和相关实体的关联,仍可能引发部分美国企业的合规顾虑。

Dai表示,MIT许可证使企业更容易在自有系统上运行该模型,并根据内部需求和治理策略进行调整。"对许多采购方来说,GLM-5.1是商业模型之外一个可行的战略选项,尤其是在监管约束、知识产权敏感性或长期平台控制最为重要的场景下。"

Z.ai引用了三项基准测试:SWE-Bench Pro用于测试复杂软件工程任务;NL2Repo用于评估代码仓库生成能力;Terminal-Bench 2.0则评估真实场景下基于终端的问题解决能力。

Omdia首席分析师Lian Jye Su表示:"这些基准测试专门考察编程智能体的高级编程能力,在这些测试中名列前茅,意味着在规划到执行的可靠性、更少的提示词返工以及更快的交付速度等方面表现优异。不过,这些测试与企业实际情况之间仍存在距离。"

Su指出,公开基准测试仍无法反映私有代码库、遗留系统和代码审查工作流的真实复杂性。他补充说,基准结果来自受控环境,与生产环境存在差异,但随着越来越多团队采用智能体架构,这一差距正在缩小。

Q&A

Q1:GLM-5.1与普通AI编程工具有什么区别?

A:GLM-5.1专为智能体软件工程设计,核心优势在于能在数百次迭代中保持稳定性能,而普通AI编程工具在长时间运行后往往会逐渐失效。例如,GLM-5.1在一项向量数据库优化任务中,经过超600次迭代后仍能持续提升性能,最终查询速度达到单次短会话最优结果的六倍,更适合大规模重构、迁移和持续故障处理等复杂工程任务。

Q2:GLM-5.1开源对企业意味着什么?

A:GLM-5.1采用MIT许可证开源发布,企业可以本地部署,主要有四方面好处:一是成本更低,自托管可自主控制费用;二是数据安全,敏感代码无需发送至外部API;三是可自由定制,适配自身代码库和内部工具;四是规避部分供应商依赖风险。对金融、医疗等监管严格的行业尤其具有实用价值。

Q3:GLM-5.1在基准测试中的表现如何?

A:GLM-5.1在SWE-Bench Pro上得分58.4,超过前代GLM-5的55.1,并超过了OpenAI GPT-5.4、Anthropic Opus 4.6和谷歌Gemini 3.1 Pro的成绩。此外在NL2Repo(代码仓库生成)和Terminal-Bench 2.0(终端问题解决)上也表现出色。不过分析师指出,这些测试仍与企业私有代码库的真实复杂性存在一定差距。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老牛吃嫩草,其实还有精华的下半句,却很少人知

老牛吃嫩草,其实还有精华的下半句,却很少人知

长风文史
2026-04-06 16:51:25
前往北京通州“空中公园”打卡,可乘坐T116路、T6路

前往北京通州“空中公园”打卡,可乘坐T116路、T6路

新浪财经
2026-05-03 05:42:13
美国最担心事情发生!从德国撤军后德国反应平淡!欧洲要自立门户

美国最担心事情发生!从德国撤军后德国反应平淡!欧洲要自立门户

阿讯说天下
2026-05-03 10:39:25
一声不吭造了7艘准航母,美国才发现,原来真正对手已不是俄罗斯

一声不吭造了7艘准航母,美国才发现,原来真正对手已不是俄罗斯

boss外传
2025-07-20 08:00:03
净利润暴增超450%!这一行业,爆发

净利润暴增超450%!这一行业,爆发

环球网资讯
2026-05-03 07:08:20
悲催!杭州一女子嫌国企丈夫没本事,携42万存款离婚,鸡飞蛋打了

悲催!杭州一女子嫌国企丈夫没本事,携42万存款离婚,鸡飞蛋打了

火山詩话
2026-04-27 06:40:09
中美一旦开战,第二天全世界就会发现,美国不再是超级大国?

中美一旦开战,第二天全世界就会发现,美国不再是超级大国?

爱的境界是心疼
2026-05-03 09:56:15
伦敦世乒赛最新战报:国乒2连胜!张本智和惨败,张本美和轰11-0

伦敦世乒赛最新战报:国乒2连胜!张本智和惨败,张本美和轰11-0

全言作品
2026-05-02 22:48:41
河南足疗店火灾6死,门头很气派,开业不到半年,评论区提3大疑问

河南足疗店火灾6死,门头很气派,开业不到半年,评论区提3大疑问

小李子体育
2026-05-03 03:41:37
心理学揭秘:一个人对家人暴躁易怒,对外人却温和有礼,并非天性冷血,真正原因藏在这两点深层心理里

心理学揭秘:一个人对家人暴躁易怒,对外人却温和有礼,并非天性冷血,真正原因藏在这两点深层心理里

心理观察局
2026-05-02 06:59:03
笑疯了!新加坡媒体尬吹印度,称用手吃饭更香,评论区怼得太狠了

笑疯了!新加坡媒体尬吹印度,称用手吃饭更香,评论区怼得太狠了

谭谈社会
2026-05-01 22:49:20
美军正用AI技术在霍尔木兹海峡扫雷 !美国国防部已与英伟达、谷歌、OpenAI等7家公司达成协议,将美军打造为一支“AI主导”的作战力量

美军正用AI技术在霍尔木兹海峡扫雷 !美国国防部已与英伟达、谷歌、OpenAI等7家公司达成协议,将美军打造为一支“AI主导”的作战力量

每日经济新闻
2026-05-02 20:45:39
子女出息,必有信号:家中出现这4个征兆,暗示儿女将来会有出息

子女出息,必有信号:家中出现这4个征兆,暗示儿女将来会有出息

木言观
2026-05-02 06:53:52
细节里的自私比贫穷更可怕!网友:这种人要少跟他们来往

细节里的自私比贫穷更可怕!网友:这种人要少跟他们来往

夜深爱杂谈
2026-05-03 11:24:12
14岁少女被首富10亿娶回家,8年连生四胎成母亲

14岁少女被首富10亿娶回家,8年连生四胎成母亲

最美的笔触
2026-05-02 17:56:34
特朗普:美国已经卖了1亿桶委内瑞拉石油,未来一个月还有1亿桶,已赚回出兵成本的37倍!他此前呼吁中国购买委石油,中方回应……

特朗普:美国已经卖了1亿桶委内瑞拉石油,未来一个月还有1亿桶,已赚回出兵成本的37倍!他此前呼吁中国购买委石油,中方回应……

每日经济新闻
2026-05-02 23:05:08
拉涅利回忆莱斯特城英超夺冠:那年我们原本的目标是拿40分

拉涅利回忆莱斯特城英超夺冠:那年我们原本的目标是拿40分

懂球帝
2026-05-03 11:50:06
出轨三年才翻车究竟为什么?

出轨三年才翻车究竟为什么?

艺鉴在线
2026-05-03 11:24:39
情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

新欧洲
2026-04-21 19:37:05
失踪135年!上次出现还是清光绪十一年,2020年浙江山区发现5棵

失踪135年!上次出现还是清光绪十一年,2020年浙江山区发现5棵

阿讯说天下
2026-05-02 18:03:20
2026-05-03 12:07:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
3467文章数 171关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

牛弹琴:比网红还网红 快80岁的特朗普一晚上发8张图

头条要闻

牛弹琴:比网红还网红 快80岁的特朗普一晚上发8张图

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

家居
数码
艺术
房产
健康

家居要闻

灵动实用 生活艺术场

数码要闻

Perplexity称赞Mac mini是其Personal Computer的最佳本地部署平台

艺术要闻

Dale terbush:当代美国风景画家

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

干细胞治烧烫伤面临这些“瓶颈”

无障碍浏览 进入关怀版