网易首页 > 网易科技 > 网易科技 > 正文

智谱GLM-5.1模型开源发布 支持8小时长程任务执行

0
分享至

4月8日,GLM-5.1模型正式发布。据悉,该模型在代码能力和长程任务(Long-Horizon Task)执行方面取得进展,与此前分钟级交互的模型不同,其能够在一次任务中独立、持续工作超过8小时,期间可进行自主规划、执行与交付工程级成果。



据介绍,在SWE-Bench Pro、Terminal-Bench 2.0及NL2Repo等代码评测基准测试中,GLM-5.1均取得了前列的排名。据了解,该模型能够参与专业软件开发工作,并在真实GitHub仓库中定位并修复工程Bug。研发团队认为,下一阶段的衡量标准将关注模型在长程任务中的表现,即能独立完成多长时间的人类任务,形成“实验、分析、优化”的闭环。

智谱表示,过去两年,行业用Benchmark衡量模型有多智能。而他们认为,下一阶段的衡量标准应该是“能工作多久”,即模型在Long-Horizon Task中的表现,能独立完成多长时间的人类任务。

据悉,在实际应用场景中,GLM-5.1在8小时持续工作中可完成多项复杂任务。例如,在8小时内从零构建包含完整桌面、窗口管理器、状态栏及应用程序的Linux桌面系统,全程执行超1200步操作,包括:完整的桌面、窗口管理器、状态栏、应用程序、VPN管理器、中文字体支持、游戏库等,4.8MB的配套文件,此前这相当于一个4人团队一周的开发工作量。


此外,据了解,在向量数据库优化场景中,GLM-5.1经过655次迭代,自主完成从全库扫描到提前剪枝的整套优化链条,将查询吞吐量从初次交付的3108 QPS提升至21472 QPS。在机器学习模型负载优化方面,该模型在超过24小时的迭代中,通过1000轮工具调用,自主完成多轮编译、测试、分析与重写循环,取得3.6倍的几何平均加速比。

智谱表示,延长模型的"有效工作时长"是提升智能体能力的一个基础维度。同时其也指出,在这条路上仍然有显著的技术挑战:如何克服模型面对复杂任务的上下文焦虑、如何在数千次工具调用后保持执行的一致性、如何更早地跳出局部最优,以及更重要的是如何在没有确定数值指标的任务上建立可靠的自我评估机制。(袁宁)

相关推荐
热点推荐
一场战争彻底把中国打醒!美军作战最毒的是什么?中国用30年看清

一场战争彻底把中国打醒!美军作战最毒的是什么?中国用30年看清

共工之锚
2026-04-08 00:29:52
不忍了,爆料崔永熙对广东表达不满,杜锋要淘汰混子球员

不忍了,爆料崔永熙对广东表达不满,杜锋要淘汰混子球员

宗介说体育
2026-04-08 09:50:40
没钱没枪也没爱!美国忙炸伊朗,泽连斯基被迫上中东前线“争宠”

没钱没枪也没爱!美国忙炸伊朗,泽连斯基被迫上中东前线“争宠”

咣当地球
2026-04-08 17:05:56
合作“崩盘”,罗永浩代言被下架?瑞幸官方回应

合作“崩盘”,罗永浩代言被下架?瑞幸官方回应

新浪财经
2026-04-07 21:38:01
绿营侧翼机场堵门,郑丽文早有准备 ,朱立伦心腹竟公开唱反调

绿营侧翼机场堵门,郑丽文早有准备 ,朱立伦心腹竟公开唱反调

小小科普员
2026-04-07 18:26:54
伊朗媒体:伊朗拉万炼油厂发生爆炸

伊朗媒体:伊朗拉万炼油厂发生爆炸

环球网资讯
2026-04-08 16:49:39
前员工爆料陈丽华迟重瑞夫妻关系!走到哪里都出双入对,配合默契

前员工爆料陈丽华迟重瑞夫妻关系!走到哪里都出双入对,配合默契

小徐讲八卦
2026-04-08 07:42:39
为了郑丽文专机能顺利落地,解放军果断亮出底牌,痛击台独要害

为了郑丽文专机能顺利落地,解放军果断亮出底牌,痛击台独要害

Ck的蜜糖
2026-04-08 12:06:23
抵达后,郑丽文记住连胜文的一句话,李乾龙一个举动有深意!

抵达后,郑丽文记住连胜文的一句话,李乾龙一个举动有深意!

爱看剧的阿峰
2026-04-08 17:16:41
突然更新!今天凌晨,很多人发现DeepSeek不一样了

突然更新!今天凌晨,很多人发现DeepSeek不一样了

都市快报橙柿互动
2026-04-08 11:09:03
墙倒众人推?记者、警员、军官公开揭批欧尔班政府的那些荒唐事

墙倒众人推?记者、警员、军官公开揭批欧尔班政府的那些荒唐事

健身狂人
2026-04-05 20:23:57
2 艘越南主力护卫舰抵达广西,吨位碾压056,性能到底如何?

2 艘越南主力护卫舰抵达广西,吨位碾压056,性能到底如何?

知识TNT
2026-04-08 15:03:26
东北3岁小网红继续做吃播,父母是真不想上班

东北3岁小网红继续做吃播,父母是真不想上班

九方鱼论
2026-04-07 05:02:58
合资车价格崩了?丰田凯美瑞出新款,优惠后直接杀入13万区间!

合资车价格崩了?丰田凯美瑞出新款,优惠后直接杀入13万区间!

蓝色海边
2026-04-08 16:46:11
广东一家制衣厂仅有一位男员工,百余名女同事围着轮流投喂呵护

广东一家制衣厂仅有一位男员工,百余名女同事围着轮流投喂呵护

捣蛋窝
2026-04-07 13:22:20
俄罗斯令中国心寒?最可怕的不是西方围堵,而是我们低估了自己

俄罗斯令中国心寒?最可怕的不是西方围堵,而是我们低估了自己

解锁世界风云
2026-04-08 10:29:28
我们并没有用40年走完发达国家200年的路

我们并没有用40年走完发达国家200年的路

文青大叔说
2026-03-13 08:13:38
看懂了人性,才能读懂为何武松在血溅鸳鸯楼时,连丫鬟也不放过

看懂了人性,才能读懂为何武松在血溅鸳鸯楼时,连丫鬟也不放过

掠影后有感
2026-04-02 19:46:08
大陆在南京宴请访陆团,11道菜充满江南味,郑丽文一个动作很罕见

大陆在南京宴请访陆团,11道菜充满江南味,郑丽文一个动作很罕见

李健政观察
2026-04-08 12:15:51
警惕!3男2女清明踏春挖出事,摘“野葱”包饺子吃完凌晨全进医院

警惕!3男2女清明踏春挖出事,摘“野葱”包饺子吃完凌晨全进医院

万象硬核本尊
2026-04-07 21:32:46
2026-04-08 18:36:49

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

伊朗发表声明:对抗美以取得"战略胜利"

头条要闻

伊朗发表声明:对抗美以取得"战略胜利"

体育要闻

40岁,但实力倒退12年

娱乐要闻

杨颖邓超低调现身观众席 支持陈赫话剧

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

5门5座/新复古造型 缤果Pro将于4月14日开启预售

态度原创

艺术
健康
家居
本地
军事航空

艺术要闻

齐白石『凌波仙子』

干细胞抗衰4大误区,90%的人都中招

家居要闻

自在恣意 侘寂风别墅

本地新闻

跟着歌声游安徽,听古村回响

军事要闻

文化符号当“弹药” 美伊将信息战带入新阶段

无障碍浏览 进入关怀版
×