网易首页 > 网易号 > 正文 申请入驻

智谱发布GLM-5.1并再度提价 开源模型首次突破8小时持续工作能力

0
分享至

4月8日,智谱正式发布GLM-5.1,并宣布正式开源。

二级市场上,港股开盘后智谱大涨,一度涨近18%,股价触及925港元,截至发稿,涨幅小幅回至13.48%。

GLM-5.1是全球第一个在真实工程任务中验证了8小时持续工作能力的开源模型。有别于当前以分钟级交互为主的模型,GLM-5.1能够在单次任务中持续、自主地工作长达8小时。过程中模型自主规划、执行、测试,碰壁时主动切换策略,出错后自行修复,最终交付完整的工程级成果。

据了解,GLM-5.1是智谱迄今智能度排名居前的旗舰模型,也是目前全球领先的开源模型。GLM-5.1大幅提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,GLM-5.1能够在一次任务中独立、持续地工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。

过去两年,大模型行业用benchmark(基准测试)来衡量模型的智能程度。智谱指出,下一阶段的衡量标准应该是“能工作多久”,即模型在长程任务(Long-Horizon Task)中的表现,能独立完成多长时间的人类任务。

这对模型提出了更深层次的挑战。在长程任务中保持稳定输出,模型面对的不只是更大的代码量,而是一连串复杂的工程决策点:主动跑benchmark(基准测试)、定位瓶颈、修改方案、再跑测试。模型需要像一个真正的工程师一样,形成“实验→分析→优化”的完整闭环,而不是写完一版代码就停下来等人打分。

具体来看,用户在涵盖50个真实机器学习计算负载的KernelBench Level 3优化基准上,让GLM-5.1对每个负载独立进行持续优化。在超过24小时的不间断迭代中,GLM-5.1自主完成了多轮编译—测试—分析—重写循环,最终取得3.6倍的几何平均加速比,显著高于超torch.compile max-autotune模式的1.49倍。以上体现出GLM-5.1展现的长时间工作和自进化能力,其从单纯的“代码生成器”进化为“主动的系统优化器”。

这一结果亦表明,在GPU内核优化这一传统上高度依赖专家经验的领域,AI模型已经展现出从问题分析、方案设计到迭代调优的端到端自主工作能力。在GPU以及更广泛的高性能计算领域,长期制约工程效率的优化瓶颈正在被AI逐步打破。

智谱方面强调,延长模型的“有效工作时长”是提升智能体能力的一个基础维度。在这条路上仍然有显著的技术挑战:如何克服模型面对复杂任务的上下文焦虑、如何在数千次工具调用后保持执行的一致性、如何更早地跳出局部最优,以及更重要的是如何在没有确定数值指标的任务上建立可靠的自我评估机制。

“GLM-5.1是我们在这个方向上迈出的一步,我们会持续推进。”智谱表示。

值得一提的是,智谱正式发布GLM-5.1之际,模型聚合平台OpenRouter显示,智谱GLM再度提价10%,调价后,GLM-5.1在Coding场景的缓存命中Token价格已接近Anthropic旗下Claude Sonnet4.6水平。

据悉,这是国产大模型首次在核心场景实现与海外头部厂商的价格对齐,一年前,国产大模型厂商还在以降价90%以上争夺市场份额。这一转折表明国产大模型不再单纯依靠大幅降价争夺市场,而是以性能溢价锚定国际基准。

据悉,GLM-5.1在编程能力上继续保持领先,在SWE-bench Pro、Terminal-Bench、NL2Repo三大代码评测基准的综合平均分中,取得全球第三、国产第一、开源第一;在最接近真实软件开发的SWE-bench Pro基准测试中更是实现国产模型首次超越Opus 4.6,刷新全球最佳成绩。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这世界不停地开花:你也是其中一朵

这世界不停地开花:你也是其中一朵

疾跑的小蜗牛
2026-04-08 23:37:02
549亿遗产税后李在镕独赢,三星再无“长公主”

549亿遗产税后李在镕独赢,三星再无“长公主”

和讯网
2026-04-08 10:42:20
赖清德怕了、想拉美国下水,转头发现:郑丽文要毁他的“命根”了

赖清德怕了、想拉美国下水,转头发现:郑丽文要毁他的“命根”了

野史日记
2026-04-08 07:45:05
非法收受他人财物数额特别巨大,原中化集团副总经理冯志斌被提起公诉

非法收受他人财物数额特别巨大,原中化集团副总经理冯志斌被提起公诉

每日经济新闻
2026-04-08 17:44:10
亲日辱华、知三当三?这一次,57岁的陈红被儿子丈夫“害”惨了

亲日辱华、知三当三?这一次,57岁的陈红被儿子丈夫“害”惨了

春序娱乐
2026-04-09 00:35:46
特朗普将与吕特讨论“退群”,白宫被曝考虑从北约撤出部分军事部署

特朗普将与吕特讨论“退群”,白宫被曝考虑从北约撤出部分军事部署

上观新闻
2026-04-09 06:41:03
清明假期一车五人身亡!监控还原事故经过,大家为女司机感到疑惑

清明假期一车五人身亡!监控还原事故经过,大家为女司机感到疑惑

社会日日鲜
2026-04-07 21:05:02
现场无红毯,无仪仗队!大陆一句话讲清郑丽文访问的性质!

现场无红毯,无仪仗队!大陆一句话讲清郑丽文访问的性质!

阿龙聊军事
2026-04-08 08:54:27
美股三大指数大幅高开 纳指涨超3%

美股三大指数大幅高开 纳指涨超3%

财联社
2026-04-08 21:32:04
白宫:伊朗提“更合理、更简明”新方案,可作谈判基础

白宫:伊朗提“更合理、更简明”新方案,可作谈判基础

界面新闻
2026-04-09 06:54:45
“国家队”1.5万亿持仓曝光,多只行业主题ETF获加仓

“国家队”1.5万亿持仓曝光,多只行业主题ETF获加仓

21世纪经济报道
2026-04-08 19:49:12
陈丽华去世不到24小时,陈光标不再隐瞒,公开与她的“真实关系”

陈丽华去世不到24小时,陈光标不再隐瞒,公开与她的“真实关系”

阿雹娱乐
2026-04-08 05:57:13
伊朗媒体:伊朗拉万炼油厂发生爆炸

伊朗媒体:伊朗拉万炼油厂发生爆炸

环球网资讯
2026-04-08 16:49:39
汇丰:预计淘宝闪购年亏损达870亿元

汇丰:预计淘宝闪购年亏损达870亿元

陆新之谈商业
2026-04-07 19:42:05
回顾:缅北女魔头魏榕嗜好!经常“活剥驴耳”,3个闺蜜喜欢观刑

回顾:缅北女魔头魏榕嗜好!经常“活剥驴耳”,3个闺蜜喜欢观刑

飞云如水
2024-11-13 06:54:13
他到底还要毁多少部剧啊?!

他到底还要毁多少部剧啊?!

毒舌一姐
2026-04-07 17:05:23
新加坡急了,外长几乎是拍着桌子,让中国“尊重”马六甲的地位。

新加坡急了,外长几乎是拍着桌子,让中国“尊重”马六甲的地位。

南权先生
2026-01-26 15:41:26
脱口秀那些星:思文再婚生子,李诞成个体户,李雪琴一年6部电影,成“最强”95花

脱口秀那些星:思文再婚生子,李诞成个体户,李雪琴一年6部电影,成“最强”95花

手工制作阿歼
2026-04-09 00:35:44
离谱!里夫斯被误诊!

离谱!里夫斯被误诊!

铿锵格斗
2026-04-08 17:42:45
首播4集,《八千里路云和月》差评如潮,差评的理由令人无力反驳

首播4集,《八千里路云和月》差评如潮,差评的理由令人无力反驳

白公子探剧
2026-04-08 20:45:00
2026-04-09 07:15:00
证券时报 incentive-icons
证券时报
运营主体:深圳证券时报社有限公司
892625文章数 238969关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

特朗普认为北约未通过“考验” 将考虑“退群”

头条要闻

特朗普认为北约未通过“考验” 将考虑“退群”

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

教育
游戏
时尚
健康
本地

教育要闻

“新型啃老”席卷全国:孩子不工作也不伸手要钱,家长害怕毁一生

曝《腐烂国度3》内部测试好玩的很 简直不可思议!

50岁,我妈在恋综抢男人

干细胞抗衰4大误区,90%的人都中招

本地新闻

跟着歌声游安徽,听古村回响

无障碍浏览 进入关怀版