网易首页 > 网易号 > 正文 申请入驻

Claude刚发新模型,国产开源就把桌子掀了

0
分享至


大模型圈有个老规矩:发布会上的「史诗级进步」,往往活不过24小时。这次Claude Opus 4.6体验了一把什么叫「背景板」——同一天被超越两次,且第二次来自开源阵营。

早上Anthropic放出Claude Mythos Preview,SWE-bench Pro 77.8%的成绩把Opus 4.6的57.3%按在地上。这分数意味着它能像资深工程师一样,在真实GitHub仓库里定位并修复高难度Bug。可惜Mythos Preview暂时不对普通用户开放,热闹是他们的。

但另一边,智谱开源了GLM-5.1。SWE-bench Pro得分58.4%,刚好压过Opus 4.6一头,也超过了GPT-5.4的57.7%。HuggingFace CEO Clement Delangue专门发推:「SWE-Bench Pro上表现最好的模型现在在HuggingFace上开源了!」

全球第三,开源第一。没等来DeepSeek V4,但开源新一哥还是来了,依然是国产。

说实话,我第一反应是又来了,大模型的「榜单狂欢」。每次发布会都是「史诗级进步」,各家模型在榜单上各领风数小时。这次的剧本有什么不同?

看完技术细节后,GLM-5.1最让我意外的不是跑分,是它能工作多久。

智谱有个案例:8小时从零构建Linux桌面系统。不是写几个demo文件那种「构建」,是真的从零开始——画架构、写代码、跑测试、修bug,历时8小时整,执行1200多步,最后产出一套功能完善的Linux桌面系统。包括完整的桌面、窗口管理器、状态栏、应用程序、VPN管理器、中文字体支持、游戏库,4.8MB配套文件。这相当于一个4人团队一周的工作量。

全程无人参与测试、审查代码。GLM-5.1甚至给自己的代码写了回归测试,而且跑过了。

知乎程序员博主Toyama nao做了更狠的测试:用Swift写macOS的OpenGL渲染器、用Flutter开发全功能聊天软件同时用Golang开发服务端、自选技术栈开发纯网页端视频剪辑应用。每个项目跑10-12轮提示词,每轮1500-2000字。

结果GLM-5.1成为第一个通过他全部测试工程的国产模型,也是第一个正式超越Sonnet 4.5 Thinking的国产模型。他的评价很直接:「大幅扩展了编程的适应范围,不再是前端only战神,也不只是oneshot样子货,是可以在复杂工况下充当编程主力。」但也补了一刀:「超长上下文时容易幻觉爆炸,如果遇到2轮改不好一个问题,不要抱有侥幸,直接重开。」

去年年底,AI智能体大约只能完成20个步骤。GLM-5.1现在可以完成1700个步骤。这是模型能不能真正「独立工作」的分水岭。

智谱在技术报告里解释了关键突破:以前的模型,包括GLM-5,会在早期快速取得收益后就进入瓶颈期——反复尝试已知的优化手段,但无法在一条路走不通时主动切换策略。

GLM-5.1的训练目标就是突破这个瓶颈。向量数据库优化案例很典型:655次迭代,把查询吞吐从3108 QPS推到21472 QPS,提升6.9倍。模型自己完成了从全库扫描切到IVF分桶召回、引入半精度压缩、加入量化粗排、做两级路由,再到提前剪枝的整套优化链条。每次跳跃都伴随短暂的Recall下降,因为探索新方向时会暂时打破约束,随后再调回来。这个「打破-修复」的循环本身就是有效优化的标志。

在KernelBench Level 3上,GLM-5.1对50个真实机器学习计算负载进行了超过24小时的不间断迭代,最终取得3.6倍的几何平均加速比,显著高于torch.compile max-autotune模式的1.49倍。模型自主编写定制Triton Kernel和CUDA Kernel,运用cuBLASLt epilogue融合并实施shared memory tiling与CUDA Graph优化,覆盖了从高层算子融合到微架构级调优的完整技术栈。

还有个更有意思的测试:Vending Bench 2。模拟经营一年自动售货机业务,需要长期规划和资源管理。GLM-5.1最终账户余额达到$4,432,开源模型第一,接近Claude Opus 4.5的水平。

技术规格:744B参数的MoE,每token激活40B,28.5T tokens训练数据,集成DeepSeek Sparse Attention降低部署成本,200K上下文窗口,最大输出131,072 tokens。

更关键的是,全部使用华为昇腾910B芯片训练,没有英伟达GPU参与。在算力被卡脖子的情况下,国产模型依然做到全球第三、开源第一。

开发者Beau Johnson把OpenClaw背后的模型从Claude Opus 4.6切换到GLM-5.1,体验无差别,成本从1000美元暴砍至30美元左右,降低97%。输入成本是Claude Opus的1/5,输出成本是1/8。接近Opus的能力,20%的价格。

而且GLM-5.1是开源的。MIT License,最宽松的开源许可证之一。可以改,可以商用,可以做任何事。支持vLLM、SGLang、xLLM等主流推理框架,可以直接本地部署。

当然GLM-5.1也有短板。部分开发者反馈推理速度只有44.3 tokens/秒,复杂任务甚至要一小时起步。哪怕Pro套餐额度是Claude的15倍,也可能不太够用。

这些问题真实存在。GLM-5.1不是完美的,但这不妨碍它成为一个里程碑。

它的意义不在于比Opus 4.6强多少,而在于证明了:在算力被卡脖子的情况下,国产模型依然能做到开源第一。而且它是开源的,任何人都可以用,任何人都可以改。

你睡觉的8小时,现在可以是AI上班的8小时了。而且这个AI,是开源的,是国产的,是任何人都可以用的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
热搜第一!779元滴眼液暴涨至3382元!“停用将面临失明风险”

热搜第一!779元滴眼液暴涨至3382元!“停用将面临失明风险”

北京商报
2026-04-08 17:35:15
中国海军的战舰,堵在霍尔木兹海峡门口,溜达了整整一周时间!

中国海军的战舰,堵在霍尔木兹海峡门口,溜达了整整一周时间!

安安说
2026-04-08 11:42:49
10年内入狱2次,爆火后“包一晚”40万,如今的她过得怎么样?

10年内入狱2次,爆火后“包一晚”40万,如今的她过得怎么样?

宝哥精彩赛事
2026-04-07 15:43:13
女子回应“汉堡自助吃太多被拒绝接待”:不接受道歉,更不要赔偿 涉事店铺去年被列为经营异常

女子回应“汉堡自助吃太多被拒绝接待”:不接受道歉,更不要赔偿 涉事店铺去年被列为经营异常

红星新闻
2026-04-08 19:52:16
给女儿留过亿财产后,张雪峰身家被扒底朝天,李雪琴的话有人信了

给女儿留过亿财产后,张雪峰身家被扒底朝天,李雪琴的话有人信了

阿伧说事
2026-03-27 05:58:52
俄媒这句话直接封神,“只有把中国惹急了,世界才会安静。”

俄媒这句话直接封神,“只有把中国惹急了,世界才会安静。”

混沌录
2026-04-08 16:54:21
突发!中国电信蒋哲峰被查

突发!中国电信蒋哲峰被查

最通信
2026-04-08 20:17:12
全红婵遭群聊辱骂再升级!国家一锤定音,主谋被扒,势力大也没用

全红婵遭群聊辱骂再升级!国家一锤定音,主谋被扒,势力大也没用

科学发掘
2026-04-08 17:59:28
净利润暴跌19%!十万员工失业震惊全网,电车一哥到底怎么了?

净利润暴跌19%!十万员工失业震惊全网,电车一哥到底怎么了?

墨史轩
2026-04-08 14:38:11
郑丽文刚抵沪,沉默8天的赖清德重申愿和大陆交流,但有一个前提

郑丽文刚抵沪,沉默8天的赖清德重申愿和大陆交流,但有一个前提

李健政观察
2026-04-07 18:22:06
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
深度解读:特朗普为什么突然宣布停战两周?一场盛大的军事博弈!

深度解读:特朗普为什么突然宣布停战两周?一场盛大的军事博弈!

小白鸽财经
2026-04-08 20:30:03
4月8日人民币对美元中间价调升174个基点

4月8日人民币对美元中间价调升174个基点

证券时报
2026-04-08 09:34:07
张伦硕自曝最受不了钟丽缇一点:她那方面太厉害!女人看后都无语

张伦硕自曝最受不了钟丽缇一点:她那方面太厉害!女人看后都无语

百言君
2026-04-06 23:11:58
他到底还要毁多少部剧啊?!

他到底还要毁多少部剧啊?!

毒舌一姐
2026-04-07 17:05:23
大涨超300点,人民币对美元即期汇率升至3年多新高

大涨超300点,人民币对美元即期汇率升至3年多新高

澎湃新闻
2026-04-08 16:50:26
发达了!广西一男子全包家族清明拜祖费用,网友:这就是光宗耀祖

发达了!广西一男子全包家族清明拜祖费用,网友:这就是光宗耀祖

火山詩话
2026-04-07 18:41:53
特朗普将撤销4000名在美伊朗精英的签证,并将其驱逐出境

特朗普将撤销4000名在美伊朗精英的签证,并将其驱逐出境

山河路口
2026-04-07 22:35:19
王励勤食言!29岁樊振东自愿退队的无奈 王皓:现有5人将全力争冠

王励勤食言!29岁樊振东自愿退队的无奈 王皓:现有5人将全力争冠

风过乡
2026-04-08 23:50:25
为了郑丽文专机能顺利落地,解放军果断亮出底牌,痛击台独要害

为了郑丽文专机能顺利落地,解放军果断亮出底牌,痛击台独要害

标体
2026-04-07 16:23:59
2026-04-09 00:28:49
码上闲叙
码上闲叙
有态度网友ytd
1396文章数 10关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

央视披露:78亿变1亿 河南三地现巨额数据造假

头条要闻

央视披露:78亿变1亿 河南三地现巨额数据造假

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

家居
亲子
艺术
本地
公开课

家居要闻

自在恣意 侘寂风别墅

亲子要闻

胡图图说他差几分就能兑换发卡

艺术要闻

齐白石『凌波仙子』

本地新闻

跟着歌声游安徽,听古村回响

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版