网易首页 > 网易号 > 正文 申请入驻

GLM-5真够顶:超24小时跑代码,700次工具调用、800次切上下文!

0
分享至

来源:市场资讯

(来源:量子位)

当看到GLM-5正式发布后的能力,才惊觉前几天神秘模型Pony Alpha的热度还是有点保守了。

因为这一次,GLM-5直接把开源AI也拽进了长任务时代。

瞧,GLM-5直接身兼数职,自己连续跑代码超过24小时,700次工具调用、800次上下文切换之后……

它直接用JavaScript,从零手搓了一个Game Boy Advance(GBA)模拟器!

外观渲染画面是这样的:


屏幕里是这样的:


在没有渲染情况下的动态效果如下:


视频地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

要知道,这对于AI来说,是一个绝对无法取巧的工程任务。

因为GBA模拟器涉及到了500多条CPU指令集、内存分页机制、音频子系统和图形渲染时序等任务。

哪怕一条指令遵循出错,或者一次文件写入偏差,整个项目就会在几个小时后崩盘。

并且GLM-5面对的还是无并行、无任何参考代码、关闭网络搜索的那种。

即便如此,从视频给出的结果中我们也不难发现,GLM-5确实是发挥非常稳定:

这也难怪不少网友在看完之后直呼:


并且目前GLM-5的评测结果也已出炉,在权威榜单Artificial Analysis中,直接到了与Claude Opus 4.5比肩的水平。


在业内公认的主流基准测试中,GLM-5的编程能力也是实现了与Claude Opus 4.5对齐:


并且在衡量模型经营能力的Vending Bench 2中,GLM-5取得了开源第一的成绩:


但毕竟Claude Opus是闭源,护城河一下子被GLM-5这个开源模型给端掉,也是引得不少网友欢呼:


那么GLM-5这位开源界的第一位“全栈架构师”,还有什么样的实力?

接下来,一波深度实测开源版Opus级别的模型,走起~

我们的测试将在Claude Code中调用GLM-5 API的方式展开。

因此,我们第一个测试就是做最考验模型的逻辑闭环能力的游戏——要求GLM-5从零生成一个3D版大富翁:


接下来,我们直接来看下效果:


视频地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

可以看到,面对如此复杂的需求,GLM-5稳稳地把所有功能都实现了出来。

若是Prompt更加精细,我们就可以得到一个OpenClaw对战的《龙虾版3D大富翁》:


视频地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

而且已经有用户使用GLM-5做了个学术版“抖音”,并且提交上架苹果App Store!


视频地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

10余款APP都要上架了(showcase.z.ai):


实测继续。

这一次,我们要测试GLM-5对复杂物理规律描述的理解能力,请听Prompt:


视频地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

GLM-5依旧是精准地捕捉到了Prompt中的关键词,生成的HTML文件打开后,一个光影交错的十二面体悬浮在空中。

除此之外,包括像全栈类型任务,例如制作一个完整、有设计感的电商网站,GLM-5也是可以拿捏。

以及有人也用GLM-5手搓了个3D版可交互的《我的世界》!


GLM-5的出现,不论是从实测还是网友们的反响来看,都在标志一件事情:

开源大模型完成了一次从助手到独立工程师的质变。

以前,我们用AI是写一句Prompt,但需要不断地去做调试的工作;但现在,用GLM-5可以是给它一个目标,然后去喝咖啡,偶尔回来看看它有没有跑偏。

更宏观地来看,这对于SaaS行业来说,也可能是一场风暴。

毕竟就在前几天,随着Claude Opus等具备长任务能力的闭源模型展现威力,国外市场已经出现了恐慌。

例如当时金融数据服务商FactSet最惨盘中暴跌10%,S&P Global、穆迪、纳斯达克公司纷纷下跌,各大指数全线跳水。

Fortune和CNBC报道称,SaaS软件类股票遭到抛售,投资者担心,如果AI能现场手搓一个CRM系统,谁还去买年费软件。

虽然黄仁勋安抚说AI会增强现有工具,但GLM-5的实测表现告诉我们:重塑或许已经在发生。

更重要的是,之前这种能力是闭源巨头的特权。现在,GLM-5把这把钥匙交到了所有开发者手里。

或许这次开源模型24小时不间断自己跑代码只是一个起点,未来会更长、更快、更好、更强。

GLM其实从4.5版本开始就死磕AI编程这件事,现在这个国产AI的coding套餐在国内外也是相当火爆;这次智谱一上来就限售,外国网友们都是在“求”的状态。

以及,智谱公司的大楼,现在也是成了个打卡点:


开头我们提到的GBA模拟器,由于GLM-5一直在跑,程序员小哥哥下班打车是这样的:Agent乘客。


GitHub:

https://github.com/zai-org/GLM-5

Hugging Face:

https://huggingface.co/zai-org/GLM-5

ModelScope:

https://modelscope.cn/models/ZhipuAI/GLM-5

GameBoy Advance体验:

https://e01.ai/gba

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
周总理逝世21年后,中国银行核查账目时发现他名下存有巨额存款,一番调查后揭开了背后的真相

周总理逝世21年后,中国银行核查账目时发现他名下存有巨额存款,一番调查后揭开了背后的真相

寄史言志
2026-01-17 16:37:15
续航1500公里、永不自燃?2026年,“全固态电池”要烂大街了吗?

续航1500公里、永不自燃?2026年,“全固态电池”要烂大街了吗?

蜉蝣说
2026-02-13 11:24:56
美宣布对华加税160%,特朗普却称中美关系良好

美宣布对华加税160%,特朗普却称中美关系良好

期盼美好明天
2026-02-16 03:03:53
养伤292天复出就夺冠!利拉德1点成历史首人 年薪3660万成大赢家

养伤292天复出就夺冠!利拉德1点成历史首人 年薪3660万成大赢家

颜小白的篮球梦
2026-02-15 16:29:40
生姜立大功?美国研究发现:生姜可在48小时内清除50%老化细胞?

生姜立大功?美国研究发现:生姜可在48小时内清除50%老化细胞?

39健康网
2026-02-11 09:11:33
季羡林:一个家庭最大的悲哀不是贫穷,是儿女过40岁还做这两件事

季羡林:一个家庭最大的悲哀不是贫穷,是儿女过40岁还做这两件事

扶苏聊历史
2025-12-30 14:30:43
凌晨,深圳北站挤爆!网友:从来没见过这么多人

凌晨,深圳北站挤爆!网友:从来没见过这么多人

今日搞笑分享
2026-02-16 03:03:55
北京冬奥会9枚金牌,米兰冬奥会到目前为止0枚,中国队怎么了?

北京冬奥会9枚金牌,米兰冬奥会到目前为止0枚,中国队怎么了?

田先生篮球
2026-02-15 21:47:51
全球观众最喜爱演员排名:肖战未进前四,赵丽颖第六,第一无争议

全球观众最喜爱演员排名:肖战未进前四,赵丽颖第六,第一无争议

老头的传奇色彩
2026-02-15 16:53:16
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

八斗小先生
2025-12-26 09:33:27
1900年,八国联军把“黄莲圣母”当成玩物,凌辱后运往欧洲展览?

1900年,八国联军把“黄莲圣母”当成玩物,凌辱后运往欧洲展览?

谈史论天地
2026-02-08 12:00:10
湖北女孩远嫁法国,想把农村母亲接到法国,洋女婿:我们房子太小

湖北女孩远嫁法国,想把农村母亲接到法国,洋女婿:我们房子太小

谈史论天地
2026-02-10 16:40:10
无滤镜后,李小冉像隔壁大婶,李若彤断崖式衰老,孙俪村里村气的

无滤镜后,李小冉像隔壁大婶,李若彤断崖式衰老,孙俪村里村气的

白宸侃片
2026-02-08 18:05:49
慌了!他看懂的不是求救信号,是独立宣言

慌了!他看懂的不是求救信号,是独立宣言

朱八卦
2026-01-15 18:27:35
男人别碰四五十岁的女人,她们有2个地方你“惹不起”!

男人别碰四五十岁的女人,她们有2个地方你“惹不起”!

加油丁小文
2026-01-16 22:16:00
有儿子的家庭集体觉醒:宁让儿子单着,不娶“祖宗”进门

有儿子的家庭集体觉醒:宁让儿子单着,不娶“祖宗”进门

青苹果sht
2026-02-08 05:48:26
2100万悬赏震动全球,李兆会神秘失踪已11年,行踪仍成谜

2100万悬赏震动全球,李兆会神秘失踪已11年,行踪仍成谜

别人都叫我阿腈
2026-02-13 18:05:57
炸了!皇马废柴蛰伏 3 个月,一出场就被喊 “贝克汉姆转世”

炸了!皇马废柴蛰伏 3 个月,一出场就被喊 “贝克汉姆转世”

奶盖熊本熊
2026-02-16 02:54:27
38岁“女技师”与嫖客玩SM,发生关系后却被他杀害并抢走300元

38岁“女技师”与嫖客玩SM,发生关系后却被他杀害并抢走300元

胖胖侃咖
2024-05-30 08:00:10
中国欢喜过大年,1亿多日本人却迎来噩耗,高市被紧急送往医院

中国欢喜过大年,1亿多日本人却迎来噩耗,高市被紧急送往医院

长野星河散去了
2026-02-16 05:08:21
2026-02-16 06:59:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2222592文章数 5484关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

大学生寒假为妈妈店铺当中老年服装模特 撞脸明星

头条要闻

大学生寒假为妈妈店铺当中老年服装模特 撞脸明星

体育要闻

NBA三分大赛:利拉德带伤第三次夺冠

娱乐要闻

2026央视春晚最新剧透 重量级嘉宾登场

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

房产
手机
家居
数码
艺术

房产要闻

三亚新机场,又传出新消息!

手机要闻

荣耀Magic V6真机现身,圆形Deco、红色机身

家居要闻

中古雅韵 乐韵伴日常

数码要闻

盲测显示:音频发烧友无法分辨铜线、香蕉与湿泥传输的音频信号

艺术要闻

入选作品选刊 | 2026年“新生活·新风尚·新年画”美术作品展

无障碍浏览 进入关怀版