网易首页 > 网易号 > 正文 申请入驻

8小时无人值守写出一套Linux,国产开源模型把Claude价格

0
分享至


大模型的「残酷月」说来就来。Claude Opus 4.6 刚发布没两天,一天之内被超越两次——早上 Anthropic 自家的 Mythos Preview 在 SWE-bench Pro 上拿下 77.8%,晚上智谱开源的 GLM-5.1 以 58.4% 紧随其后,把 Opus 4.6 的 57.3% 甩在身后。

全球第三,开源第一。没等来 DeepSeek V4,但开源新一哥还是来了,依然是国产。

说实话,我第一反应是:又来了,榜单狂欢。每次发布会都是「史诗级进步」,各家模型在排行榜上各领风骚几小时。这次剧本有什么不同?

真正让我意外的不是跑分,是 GLM-5.1 能工作多久。

智谱放了一个案例:8 小时从零构建 Linux 桌面系统。不是写几个 demo 那种「构建」,是真的从零开始——画架构、写代码、跑测试、修 bug,历时 8 小时整,执行 1200 多步,最后产出一套功能完善的系统。包括完整的桌面、窗口管理器、状态栏、应用程序、VPN 管理器、中文字体支持、游戏库,4.8MB 配套文件。

这相当于一个 4 人团队一周的工作量。全程无人参与测试、审查代码。GLM-5.1 甚至给自己的代码写了回归测试,而且跑过了。

知乎博主 Toyama nao 做了更狠的测试:用 Swift 写 macOS OpenGL 渲染器、用 Flutter 开发全功能聊天软件配 Golang 服务端、自选技术栈开发纯网页端视频剪辑应用。每个项目跑 10-12 轮提示词,每轮 1500-2000 字。

GLM-5.1 成为第一个通过他全部测试的国产模型,也是第一个正式超越 Sonnet 4.5 Thinking 的国产模型。他的评价很到位:「不再是前端 only 战神,也不只是 oneshot 样子货,是可以在复杂工况下充当编程主力。」但也提醒:「超长上下文时容易幻觉爆炸,2 轮改不好直接重开,别侥幸。」

去年年底,AI 智能体大约只能完成 20 个步骤。GLM-5.1 现在可以完成 1700 个步骤。这是模型能不能真正「独立工作」的分水岭。

智谱的技术报告解释了关键突破:以前的模型会在早期快速取得收益后进入瓶颈期,反复尝试已知手段,无法在一条路走不通时主动切换策略。GLM-5.1 的训练目标就是突破这个瓶颈——在固定策略内增量调优,收益停滞时主动分析日志、定位瓶颈,然后跳转到结构性不同的方案。

向量数据库优化是个典型例子。655 次迭代,查询吞吐从 3108 QPS 推到 21472 QPS,提升 6.9 倍。模型自己完成了从全库扫描切到 IVF 分桶召回、引入半精度压缩、加入量化粗排、做两级路由、再到提前剪枝的整套链条。每次跳跃都伴随短暂的 Recall 下降,因为探索新方向时会暂时打破约束,再调回来。这个「打破-修复」的循环本身就是有效优化的标志。

还有一个更有意思的测试:Vending Bench 2。模拟经营一年自动售货机业务,需要长期规划和资源管理。GLM-5.1 最终账户余额 4432 美元,开源模型第一,接近 Claude Opus 4.5 的水平。

技术规格:744B 参数 MoE,每 token 激活 40B,28.5T 训练数据,集成 DeepSeek Sparse Attention,200K 上下文,最大输出 131,072 tokens。

更关键的是:全部使用华为昇腾 910B 芯片训练,没有英伟达 GPU。算力被卡脖子的情况下,国产模型依然做到全球第三、开源第一。

开发者 Beau Johnson 把 OpenClaw 背后的模型从 Claude Opus 4.6 切换到 GLM-5.1,体验无差别,成本从 1000 美元砍到 30 美元左右,降低 97%。输入成本是 Claude 的 1/5,输出成本 1/8。接近 Opus 的能力,20% 的价格。

而且它是开源的。MIT License,最宽松的许可证之一。可以改,可以商用,可以做任何事。支持 vLLM、SGLang、xLLM 等主流框架,可以直接本地部署。

当然有问题。推理速度 44.3 tokens/秒,在同类中没优势;复杂任务一小时起步,哪怕 Pro 套餐额度是 Claude 的 15 倍也可能不够用。

GLM-5.1 不是完美的,但这不妨碍它成为一个里程碑。它证明了一件事:算力被卡脖子的情况下,国产模型依然能做到开源第一。而且它是开源的,任何人都可以用,任何人都可以改。

你睡觉的 8 小时,现在可以是 AI 上班的 8 小时了。而且这个 AI,是开源的,是国产的,是任何人都可以用的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Kimi正脸照流出,生图下脸歪嘴斜牙齿外凸,网友:不像林志颖了

Kimi正脸照流出,生图下脸歪嘴斜牙齿外凸,网友:不像林志颖了

不似少年游
2026-04-13 16:57:07
吃相难看!一首代表作没有,还要开演唱会,谢娜被扒后体面没了

吃相难看!一首代表作没有,还要开演唱会,谢娜被扒后体面没了

南宗历史
2026-04-14 06:14:42
勒温:利马拽我头发被罚下场?规则又不是我制定的,我不记仇

勒温:利马拽我头发被罚下场?规则又不是我制定的,我不记仇

懂球帝
2026-04-14 05:27:14
官方:葡萄牙名帅奎罗斯出任加纳队主帅,将率队征战今夏世界杯

官方:葡萄牙名帅奎罗斯出任加纳队主帅,将率队征战今夏世界杯

懂球帝
2026-04-14 02:50:50
82!82场全勤啊!火箭探花秀史诗级进化

82!82场全勤啊!火箭探花秀史诗级进化

篮球实战宝典
2026-04-13 15:03:36
1990年巩俐露腋毛,全网都夸真实有魅力。

1990年巩俐露腋毛,全网都夸真实有魅力。

喜欢历史的阿繁
2026-04-14 07:46:57
能活到85岁的老人,多数在50岁时,就已经不再做这些事了

能活到85岁的老人,多数在50岁时,就已经不再做这些事了

烙任情感
2026-04-13 08:10:50
何超蕸去世不到 24 小时, 百亿遗产让二房撕破脸, 何猷君成最大赢家?

何超蕸去世不到 24 小时, 百亿遗产让二房撕破脸, 何猷君成最大赢家?

科学发掘
2026-04-13 15:48:27
打破越南历史惯例,苏林时代权力格局已定,对中国意味着什么?

打破越南历史惯例,苏林时代权力格局已定,对中国意味着什么?

湘评中外
2026-04-10 17:16:52
赛力斯滑轨马桶专利获批,隐藏在座椅下方,使用时可拉出应急,网友:以后车里连厕所都有了,还去啥服务区?

赛力斯滑轨马桶专利获批,隐藏在座椅下方,使用时可拉出应急,网友:以后车里连厕所都有了,还去啥服务区?

观威海
2026-04-12 13:08:02
从18岁心动到50岁相守,该在一起的终究会在一起!

从18岁心动到50岁相守,该在一起的终究会在一起!

新民周刊
2026-04-12 13:39:17
爆冷!神剧情:3度领先被扳平,点球大战倒下,小因扎吉耻辱出局

爆冷!神剧情:3度领先被扳平,点球大战倒下,小因扎吉耻辱出局

足球狗说
2026-04-14 05:41:49
央行:3月末广义货币(M2)余额353.86万亿元 同比增长8.5%

央行:3月末广义货币(M2)余额353.86万亿元 同比增长8.5%

财联社
2026-04-13 17:04:12
好好吃饭就能调代谢、稳情绪?研究发现:食物中的天然褪黑素,中等摄入最护健康,咖啡+豆类是主力来源

好好吃饭就能调代谢、稳情绪?研究发现:食物中的天然褪黑素,中等摄入最护健康,咖啡+豆类是主力来源

梅斯医学
2026-04-13 07:54:11
茅台总经理王莉被查?官方回应:根据安排,王莉同志到北京学习到5月

茅台总经理王莉被查?官方回应:根据安排,王莉同志到北京学习到5月

大象新闻
2026-04-13 19:01:05
这是青年时期毛岸青,这张照片眉眼神态极像母亲杨开慧

这是青年时期毛岸青,这张照片眉眼神态极像母亲杨开慧

乡野小珥
2026-04-11 18:37:43
文章面馆价格惹争议,32一碗分量非常足,在上海真不贵

文章面馆价格惹争议,32一碗分量非常足,在上海真不贵

映射生活的身影
2026-04-14 00:17:34
奥特曼两遭袭击,发长文难挽信任危机

奥特曼两遭袭击,发长文难挽信任危机

虎嗅APP
2026-04-14 07:12:06
安宰贤被传"世界Gay"8年,上综艺一句话把K.Will整不会了

安宰贤被传"世界Gay"8年,上综艺一句话把K.Will整不会了

娱圈观察员
2026-04-14 08:13:17
掀掉洋葱顶,整治宗教泛滥的第一步

掀掉洋葱顶,整治宗教泛滥的第一步

黑哥讲现代史
2026-03-14 15:46:38
2026-04-14 09:07:00
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
1317文章数 13关注度
往期回顾 全部

科技要闻

OpenAI四页内部信曝光:痛批Anthropic

头条要闻

牛弹琴:特朗普发了一张图 让全世界都雷得外焦里嫩

头条要闻

牛弹琴:特朗普发了一张图 让全世界都雷得外焦里嫩

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

初代“跑男团”合体,邓超、鹿晗缺席

财经要闻

伊朗要求五个中东国家赔偿战争损失

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

家居
时尚
教育
公开课
军事航空

家居要闻

复古风格 自然简约

今年科切拉的风吹向了谁?

教育要闻

教育的目的到底应该是什么?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:今晚10点封锁伊朗 对北约非常失望

无障碍浏览 进入关怀版