网易首页 > 网易号 > 正文 申请入驻

GLM-5真够顶:超24小时跑代码,700次工具调用、800次切上下文!

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

当看到GLM-5正式发布后的能力,才惊觉前几天神秘模型Pony Alpha的热度还是有点保守了。

因为这一次,GLM-5直接把开源AI也拽进了长任务时代

瞧,GLM-5直接身兼数职,自己连续跑代码超过24小时,700次工具调用、800次上下文切换之后……

它直接用JavaScript,从零手搓了一个Game Boy Advance(GBA)模拟器!

外观渲染画面是这样的:



屏幕里是这样的:



在没有渲染情况下的动态效果如下:



视频地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

要知道,这对于AI来说,是一个绝对无法取巧的工程任务。

因为GBA模拟器涉及到了500多条CPU指令集、内存分页机制、音频子系统和图形渲染时序等任务。

哪怕一条指令遵循出错,或者一次文件写入偏差,整个项目就会在几个小时后崩盘。

并且GLM-5面对的还是无并行、无任何参考代码、关闭网络搜索的那种。

即便如此,从视频给出的结果中我们也不难发现,GLM-5确实是发挥非常稳定:

  • 工具调用稳定:第700次和第一次在语法、格式、准确度上没有差异;
  • 指令遵循持久:上下文即使切换了800次,依旧遵守Meta-Prompt的规范、约定和流程;
  • 工作判断稳定:GLM-5知道自己什么时候该测试、信息记录、切换策略等;
  • 上下文够可靠:每次上下文清空后,GLM-5能从笔记和文件中准确恢复工作状态。

这也难怪不少网友在看完之后直呼:

  • 它(GLM-5)可以制作精美的CAD模型!



并且目前GLM-5的评测结果也已出炉,在权威榜单Artificial Analysis中,直接到了与Claude Opus 4.5比肩的水平。



在业内公认的主流基准测试中,GLM-5的编程能力也是实现了与Claude Opus 4.5对齐:



并且在衡量模型经营能力的Vending Bench 2中,GLM-5取得了开源第一的成绩:



但毕竟Claude Opus是闭源,护城河一下子被GLM-5这个开源模型给端掉,也是引得不少网友欢呼:

  • 感谢开源!



那么GLM-5这位开源界的第一位“全栈架构师”,还有什么样的实力?

接下来,一波深度实测开源版Opus级别的模型,走起~

已经有人申请上架App Store了

我们的测试将在Claude Code中调用GLM-5 API的方式展开。

因此,我们第一个测试就是做最考验模型的逻辑闭环能力的游戏——要求GLM-5从零生成一个3D版大富翁



接下来,我们直接来看下效果:



视频地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

可以看到,面对如此复杂的需求,GLM-5稳稳地把所有功能都实现了出来。

若是Prompt更加精细,我们就可以得到一个OpenClaw对战的《龙虾版3D大富翁》



视频地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

而且已经有用户使用GLM-5做了个学术版“抖音”,并且提交上架苹果App Store!



视频地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

10余款APP都要上架了(showcase.z.ai):



实测继续。

这一次,我们要测试GLM-5对复杂物理规律描述的理解能力,请听Prompt:

  • 创建一个玻璃十二面体,每个面是一个遮罩,显示中央相同旋转基底环结的不同设计(看起来像拼贴/滤镜)。应用一些细微的泛光效果。在它外面再加一层大约两倍大小的第二层(透明)玻璃壳,并让每个面透过时改变内部玻璃的外观成不同类型,比如透过外层的某一面,整个内壳看起来像是染色玻璃、彩绘玻璃或线框等,仅供参考。使用 three.js,……



视频地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

GLM-5依旧是精准地捕捉到了Prompt中的关键词,生成的HTML文件打开后,一个光影交错的十二面体悬浮在空中。

除此之外,包括像全栈类型任务,例如制作一个完整、有设计感的电商网站,GLM-5也是可以拿捏。

以及有人也用GLM-5手搓了个3D版可交互的《我的世界》!



开源,Win Again

GLM-5的出现,不论是从实测还是网友们的反响来看,都在标志一件事情:

开源大模型完成了一次从助手到独立工程师的质变。

以前,我们用AI是写一句Prompt,但需要不断地去做调试的工作;但现在,用GLM-5可以是给它一个目标,然后去喝咖啡,偶尔回来看看它有没有跑偏。

更宏观地来看,这对于SaaS行业来说,也可能是一场风暴。

毕竟就在前几天,随着Claude Opus等具备长任务能力的闭源模型展现威力,国外市场已经出现了恐慌。

例如当时金融数据服务商FactSet最惨盘中暴跌10%,S&P Global、穆迪、纳斯达克公司纷纷下跌,各大指数全线跳水。

Fortune和CNBC报道称,SaaS软件类股票遭到抛售,投资者担心,如果AI能现场手搓一个CRM系统,谁还去买年费软件。

虽然黄仁勋安抚说AI会增强现有工具,但GLM-5的实测表现告诉我们:重塑或许已经在发生。

更重要的是,之前这种能力是闭源巨头的特权。现在,GLM-5把这把钥匙交到了所有开发者手里。

或许这次开源模型24小时不间断自己跑代码只是一个起点,未来会更长、更快、更好、更强。

Two More Things:

GLM其实从4.5版本开始就死磕AI编程这件事,现在这个国产AI的coding套餐在国内外也是相当火爆;这次智谱一上来就限售,外国网友们都是在“求”的状态。

以及,智谱公司的大楼,现在也是成了个打卡点



开头我们提到的GBA模拟器,由于GLM-5一直在跑,程序员小哥哥下班打车是这样的:Agent乘客。



GitHub:
https://github.com/zai-org/GLM-5

Hugging Face:
https://huggingface.co/zai-org/GLM-5

ModelScope:
https://modelscope.cn/models/ZhipuAI/GLM-5

GameBoy Advance体验:
https://e01.ai/gba

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蝉联欧冠后开启重建,大巴黎队长马尔基尼奥斯等五人或离队

蝉联欧冠后开启重建,大巴黎队长马尔基尼奥斯等五人或离队

星耀国际足坛
2026-06-02 22:59:16
季新杰被曝与未成年发生关系 若真或构成强奸 女友若造谣涉嫌诽谤

季新杰被曝与未成年发生关系 若真或构成强奸 女友若造谣涉嫌诽谤

念洲
2026-06-02 19:18:06
广厦赢球后恐遭篮协罚单!上海这波操作绝了:广厦被客队球迷坑惨

广厦赢球后恐遭篮协罚单!上海这波操作绝了:广厦被客队球迷坑惨

篮球快餐车
2026-06-03 01:00:23
男子自驾青海失联9个月,家属再赴事发地寻找 救援人员计划向牧民发寻人信息寻找目击者

男子自驾青海失联9个月,家属再赴事发地寻找 救援人员计划向牧民发寻人信息寻找目击者

红星新闻
2026-06-02 17:40:41
已达协议!43岁西班牙名帅接掌利物浦 率黑马17轮不败+获英超第6

已达协议!43岁西班牙名帅接掌利物浦 率黑马17轮不败+获英超第6

我爱英超
2026-06-02 17:43:34
离谱!16岁少年遭53岁男子诱导发生性关系,长达4年!最终感染HIV

离谱!16岁少年遭53岁男子诱导发生性关系,长达4年!最终感染HIV

乌娱子酱
2026-06-02 16:34:35
89岁魏宗万去世,讣告已发,一生不接广告代言,女儿曝光后事安排

89岁魏宗万去世,讣告已发,一生不接广告代言,女儿曝光后事安排

叨唠
2026-06-02 22:10:56
2026年最寒心的“农夫与蛇”:恩将仇报连狗都不如

2026年最寒心的“农夫与蛇”:恩将仇报连狗都不如

红色少女主播
2026-05-31 15:18:01
6月1日起,你的工资或将多一笔钱!

6月1日起,你的工资或将多一笔钱!

上观新闻
2026-05-31 19:44:05
杭州限狗令正式落地,养狗人月花上千,凭什么让不养狗的人买单?

杭州限狗令正式落地,养狗人月花上千,凭什么让不养狗的人买单?

奇思妙想草叶君
2026-06-01 19:40:34
别羡慕网红赚得多!董赤赤的下场,给所有追名逐利的人敲了警钟

别羡慕网红赚得多!董赤赤的下场,给所有追名逐利的人敲了警钟

青橘罐头
2026-06-02 23:02:34
这4个行业,已经发不出工资了!真的很严重了

这4个行业,已经发不出工资了!真的很严重了

细说职场
2026-06-02 21:15:53
94版《三国演义》司马懿饰演者魏宗万去世,享年89岁

94版《三国演义》司马懿饰演者魏宗万去世,享年89岁

新京报
2026-06-02 20:07:01
没想到,“割四赔五”风波9天后,崔培军凭一番话,赚足农民口碑

没想到,“割四赔五”风波9天后,崔培军凭一番话,赚足农民口碑

削桐作琴
2026-06-02 20:05:30
为什么好莱坞非常尊重成龙,却看不起李连杰?

为什么好莱坞非常尊重成龙,却看不起李连杰?

闲人电影
2026-06-02 17:00:20
去掉娃哈哈,宗馥莉把自己名字印在了包装上

去掉娃哈哈,宗馥莉把自己名字印在了包装上

观察者网
2026-06-02 18:34:45
“根本不敢开空调”! 大量一汽大众新车狂喷粉末:4S店想“封口”,官方称“无害”遭专家反驳

“根本不敢开空调”! 大量一汽大众新车狂喷粉末:4S店想“封口”,官方称“无害”遭专家反驳

新浪财经
2026-06-02 17:38:32
惊掉下巴!女生索要9000元换手机,男友转账附上“以结婚为目的”

惊掉下巴!女生索要9000元换手机,男友转账附上“以结婚为目的”

火山詩话
2026-06-02 16:32:30
日本“国宝级”成人女优来中国台湾卖春被抓!车夫时薪66元跑腿,下场比她还惨……

日本“国宝级”成人女优来中国台湾卖春被抓!车夫时薪66元跑腿,下场比她还惨……

日本物语
2026-06-02 21:05:34
想拿钢丝球搓!深圳一女子长期熬夜吃外卖,皮肤黄、浑身痒!竟确诊“癌王”

想拿钢丝球搓!深圳一女子长期熬夜吃外卖,皮肤黄、浑身痒!竟确诊“癌王”

南方都市报
2026-06-02 08:41:12
2026-06-03 08:04:49
量子位 incentive-icons
量子位
追踪人工智能动态
12731文章数 176476关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

特朗普:已同以黎通话协调停火 一周内将与伊达成协议

头条要闻

特朗普:已同以黎通话协调停火 一周内将与伊达成协议

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

游戏
家居
教育
时尚
本地

离发售不远了!《寂静岭》系列新作已公开游戏评级

家居要闻

流线型轮廓 包容多元身形

教育要闻

校长最强大的内心素养,就2个字 | 余国庆

蓝色系下装看着清爽不闷,裤子、裙子都凉快,随便穿都不出错

本地新闻

用剪纸的方式,打开江苏扬州

无障碍浏览 进入关怀版