网易首页 > 网易号 > 正文 申请入驻

Z.ai发布GLM-5.1编程模型,可连续运行数小时自主作业

0
分享至


中国AI公司Z.ai近日推出GLM-5.1,这是一款专为智能体软件工程场景设计的开源编程模型。此次发布正值AI厂商纷纷从自动补全式编程工具转型,转而构建能够长时间、低人工干预下处理软件任务的智能系统。

Z.ai表示,GLM-5.1能够在数百次迭代过程中保持稳定性能,这一能力是其区别于其他在长时任务中性能下滑模型的核心竞争力。

以向量数据库优化任务为例,GLM-5.1经过超过600次迭代、6000次工具调用,最终将查询速度提升至每秒21500次,约为单次50轮会话最佳结果的六倍。

在一份研究报告中,Z.ai指出GLM-5.1在多项软件工程基准测试上超越了其前代产品GLM-5,在代码仓库生成、终端问题求解和反复代码优化等方面表现尤为突出。该公司表示,GLM-5.1在SWE-Bench Pro基准测试中得分为58.4,而GLM-5为55.1,同时也高于OpenAI GPT-5.4、Anthropic Opus 4.6以及谷歌Gemini 3.1 Pro在该基准上的得分。

GLM-5.1已在MIT许可证下开源发布,可通过Z.ai的开发者平台获取,模型权重也已公开,支持本地部署。这对那些希望在部署AI工具时掌握更多控制权的企业而言具有较大吸引力。

Z.ai表示,与在长时会话中性能逐渐下降的模型相比,长时运行下的稳定表现是其核心差异化优势。

业内分析人士指出,目前许多模型在经过相对较少的对话轮次后仍会出现性能停滞或偏移,这限制了其在复杂多步骤软件任务中的实用价值。

Pareekh Consulting首席执行官Pareekh Jain表示,行业正在从能够回答提示词的工具,转向能够在较少人工监督下完成更长期任务的系统。他认为,问题已不再是"我能问AI什么",而是"我能让它在未来八小时内完成什么任务"。

对于企业而言,这意味着未来或许可以在早上将一个工单交给智能体,经过数百次实验和代码性能分析后,在当天结束时收到经过优化的解决方案。

Forrester副总裁兼首席分析师Charlie Dai表示:"这一能力契合了大规模代码重构、系统迁移项目和持续故障处理等真实需求,表明长时运行的自主智能体正逐渐走向实用,前提是企业需要在治理、监控和升级机制上做好配套,以有效管控风险。"

GLM-5.1采用MIT许可证发布,对于受监管行业或对安全敏感的企业而言具有重要意义。

Jain认为这体现在四个关键维度:第一是成本,其定价远低于高端商业模型,自托管部署也让企业可以管控费用,而非按使用量付费;第二是数据治理,敏感代码和数据无需发送至外部API,这在金融、医疗和国防等行业至关重要;第三是可定制性,企业可以根据自身代码库和内部工具对模型进行定制,不受任何限制。

第四个因素,Jain指出,是地缘政治风险。尽管该模型是开源的,但其与中国基础设施及相关实体的关联仍可能引发部分美国企业的合规顾虑。

Dai表示,MIT许可证让企业更便于在自有系统上部署运行该模型,并根据内部需求和治理政策进行调整。他认为:"对于许多买家而言,GLM-5.1在商业模型之外提供了一个可行的战略选项,尤其是在监管约束、知识产权敏感性或长期平台控制最为重要的场景下。"

Z.ai在评测中引用了三项基准测试:SWE-Bench Pro(测试复杂软件工程任务)、NL2Repo(评估代码仓库生成能力)以及Terminal-Bench 2.0(评估真实终端环境中的问题解决能力)。

Omdia首席分析师Lian Jye Su表示:"这些基准测试专为考察编程智能体的高级编程能力而设计,在这些测试中名列前茅,反映了强劲的编程性能表现,例如从规划到执行的可靠性、更少的提示词反复调整以及更快的交付速度。然而,这些测试与典型的企业现实环境仍存在一定距离。"

Su指出,公开基准测试仍无法还原专有代码库、遗留系统和代码审查流程的复杂现状。他补充道,基准测试结果来自受控环境,与生产环境存在差距,不过随着越来越多的团队引入智能体架构,这一差距正在逐步缩小。

Q&A

Q1:GLM-5.1与其他编程模型相比,最大的优势是什么?

A:GLM-5.1的核心优势在于长时运行下的稳定性能。许多现有模型在较少轮次后性能就会下滑,而GLM-5.1可以在数百次迭代中持续运行,例如在向量数据库优化任务中,经过超过600次迭代后仍能持续提升,最终查询速度约是单次50轮会话最佳结果的六倍。

Q2:GLM-5.1开源对企业有什么实际意义?

A:GLM-5.1采用MIT许可证开源,企业可以本地部署,主要带来四方面好处:降低成本(无需按调用量付费)、保障数据安全(敏感代码无需上传外部API)、支持自定义(可根据内部代码库灵活调整),以及一定程度规避云端依赖风险。对金融、医疗等监管严格的行业尤其适用。

Q3:GLM-5.1在基准测试中的表现如何?这些成绩能代表真实能力吗?

A:GLM-5.1在SWE-Bench Pro上得分58.4,高于前代GLM-5的55.1,也超过了OpenAI GPT-5.4、Anthropic Opus 4.6和谷歌Gemini 3.1 Pro的得分。不过分析师指出,这些基准测试基于受控环境,尚无法完全反映企业真实场景中的遗留系统、专有代码库等复杂情况,实际落地效果仍需结合具体业务验证。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
急了!被无人机逼疯的美国海军,开始向30年前的中国海军“取经”

急了!被无人机逼疯的美国海军,开始向30年前的中国海军“取经”

混沌录
2026-05-03 01:11:21
中美一旦开战,第二天全世界就会发现,美国不再是超级大国?

中美一旦开战,第二天全世界就会发现,美国不再是超级大国?

爱的境界是心疼
2026-05-03 09:56:15
随着玉昆3-3绝平国安,海港1-3爆冷,中超积分榜:海牛逃离降级区

随着玉昆3-3绝平国安,海港1-3爆冷,中超积分榜:海牛逃离降级区

小火箭爱体育
2026-05-02 22:09:01
越南4月份贸易逆差为32.8亿美元,预计逆差为4亿美元。

越南4月份贸易逆差为32.8亿美元,预计逆差为4亿美元。

每日经济新闻
2026-05-03 10:18:05
76岁大爷在女婿家住了2年,女儿突然哭着说:爸,求你赶紧搬走吧

76岁大爷在女婿家住了2年,女儿突然哭着说:爸,求你赶紧搬走吧

热心柚子姐姐
2026-05-03 11:10:13
人品差的人,开口闭口就是这两句话,尽量不要深交

人品差的人,开口闭口就是这两句话,尽量不要深交

心理观察局
2026-05-03 09:01:03
罗永浩风格大变!一条五一微博让网友笑翻,文风酷似小学生流水账

罗永浩风格大变!一条五一微博让网友笑翻,文风酷似小学生流水账

火山詩话
2026-05-02 06:29:53
美联储变天:鲍威尔打破75年惯例, 新主席却要“闭麦”?

美联储变天:鲍威尔打破75年惯例, 新主席却要“闭麦”?

每日经济新闻
2026-05-02 15:05:53
世乒赛大会深夜道歉:涉事人员已被调离,球迷呼吁保护好女队员

世乒赛大会深夜道歉:涉事人员已被调离,球迷呼吁保护好女队员

陌识
2026-05-03 00:25:34
刘晓庆被指“架子大”?和“王婆”互动态度冷淡,但别漏了这些细节......

刘晓庆被指“架子大”?和“王婆”互动态度冷淡,但别漏了这些细节......

新民周刊
2026-05-02 15:48:23
官媒给了冯巩新头衔,这可不简单哦

官媒给了冯巩新头衔,这可不简单哦

南万说娱26
2026-05-03 10:48:56
万科这颗雷,炸出了地铁公司的真面目

万科这颗雷,炸出了地铁公司的真面目

梳子姐
2026-05-01 21:31:42
起风了!歼20要大甩卖了?中东土豪准备梭哈,多国死盯中国六代机

起风了!歼20要大甩卖了?中东土豪准备梭哈,多国死盯中国六代机

奥字侃剧
2026-05-01 05:15:54
豆腐和羊肉是肿瘤的发物?医生:不想癌细胞恶化,少吃4物

豆腐和羊肉是肿瘤的发物?医生:不想癌细胞恶化,少吃4物

小胡军事爱好
2026-05-03 09:47:20
美国不是拿不下伊朗,一旦尽全力对付伊朗,中国那边就“看不住”

美国不是拿不下伊朗,一旦尽全力对付伊朗,中国那边就“看不住”

安安说
2026-05-02 14:14:09
马筱梅摊牌了!正式与玥儿和箖箖姐弟切割!撕掉经营多年后妈人设

马筱梅摊牌了!正式与玥儿和箖箖姐弟切割!撕掉经营多年后妈人设

一盅情怀
2026-04-24 09:39:57
五种废品价格暴涨,家里有这五种东西的,提醒老人千万别乱扔!

五种废品价格暴涨,家里有这五种东西的,提醒老人千万别乱扔!

好笑娱乐君每一天
2026-05-02 01:15:07
1965年,60岁中将钱钧单手悬空举起舰队司令陶勇,毛主席看透:他不当和尚当将军!

1965年,60岁中将钱钧单手悬空举起舰队司令陶勇,毛主席看透:他不当和尚当将军!

历史回忆室
2026-05-02 21:40:16
一文说清 徐泽伟被引渡至美国事件

一文说清 徐泽伟被引渡至美国事件

慕容律师
2026-05-03 09:14:37
雷霆内线盛赞老詹和湖人 这位41岁的老将在次轮还能有何表现?

雷霆内线盛赞老詹和湖人 这位41岁的老将在次轮还能有何表现?

仰卧撑FTUer
2026-05-03 09:45:18
2026-05-03 12:15:03
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
18162文章数 49702关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

牛弹琴:比网红还网红 快80岁的特朗普一晚上发8张图

头条要闻

牛弹琴:比网红还网红 快80岁的特朗普一晚上发8张图

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

艺术
本地
时尚
公开课
军事航空

艺术要闻

Dale terbush:当代美国风景画家

本地新闻

用青花瓷的方式,打开西溪湿地

春天别总傻傻穿一身黑,看看这些日常穿搭,高级舒适又优雅

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗公布伊方最新谈判方案

无障碍浏览 进入关怀版