网易首页 > 网易号 > 正文 申请入驻

21GB模型跑赢Claude:开源AI的意外胜利

0
分享至

一个21GB的量化模型,在笔记本电脑上画出的鹈鹕骑自行车,居然打败了Anthropic最新旗舰。Simon Willison的"鹈鹕基准测试"今天出了怪结果——Qwen3.6-35B-A3B的SVG代码不仅更干净,连自行车车架都没画歪。

这个玩笑测试,为什么突然值得认真看


Willison从去年10月开始用"鹈鹕骑自行车"当模型测试。初衷是讽刺:当所有人都在比数学推理、代码能力、多模态理解时,找个荒谬任务反而能暴露模型的真实性格。

诡异的是,这个玩笑居然成立了。2024年10月的第一批鹈鹕"完全是垃圾"。之后每次主流模型更新,鹈鹕质量确实在提升——Gemini 3.1 Pro已经能画出"真的能用"的插图。

直到今天,这条规律被打破了。

Qwen3.6-35B-A3B是阿里巴巴开源的混合专家模型(Mixture-of-Experts,MoE),总参数量235B,但每次前向传播只激活35B。Willison跑的是Unsloth团队量化的4bit版本,文件体积压到20.9GB,用LM Studio在MacBook Pro M5本地部署。

Claude Opus 4.7则是Anthropic当天发布的闭源旗舰,API定价远高于Qwen的开源权重。

结果:Opus 4.7的自行车车架结构错误,第二轮用thinking_level: max参数重试,"也没好多少"。Qwen的火烈鸟独轮车测试还额外贡献了「」的注释彩蛋。

正方:开源量化模型的工程胜利

这件事首先说明量化技术(Quantization,将模型权重从高精度压缩到低精度)已经成熟到不损核心能力的地步。

Unsloth的GGUF格式把235B参数的MoE模型压进21GB,消费级笔记本能流畅运行。一年前这是不可想象的——当时70B模型量化后还会严重失真。

MoE架构的本地部署效率也被验证。35B激活参数意味着推理成本可控,而总参数量保证了知识容量。Willison的测试场景恰好击中MoE的甜点:创意生成任务对绝对精度要求不高,但需要足够的知识广度来组合"鹈鹕"+"自行车"这种罕见概念。

更深层看,这是开源生态的系统性优势。Qwen权重开放后,Unsloth可以立即优化量化方案,LM Studio可以快速集成,社区能自发形成"笔记本本地跑SOTA模型"的完整工具链。闭源模型的迭代再快,也绕不过API延迟和成本结构。

反方:一个插图测试说明不了什么

Willison自己承认,"非常怀疑21GB量化版本比Anthropic最新闭源版本更强大或更有用"。

鹈鹕测试的样本量极小,且SVG生成是特定技能。Opus 4.7可能在长文本推理、复杂工具调用、多轮对话一致性等维度全面领先——这些才是企业付费的核心场景。

Anthropic的thinking_level参数设计也耐人寻味。max模式意味着模型会投入更多计算资源做内部推理,但Willison的测试显示"没好多少"。这可能暴露Opus 4.7在视觉-空间理解上的真实短板,也可能只是该参数对插图任务不适用。

更关键的质疑:如果实验室真的针对流行基准做训练,为什么偏偏漏掉Willison的鹈鹕?他的"秘密备份测试"火烈鸟独轮车,Qwen依然胜出——但这只有两个数据点。

我的判断:能力评估的范式正在崩溃

这件事的真正价值,不在于证明Qwen>Opus,而在于暴露了我们根本没有可靠的模型评估体系。

当21GB本地模型能在特定任务击败API旗舰,"参数规模=能力"的叙事就破产了。MoE架构让总参数和激活参数脱钩,量化技术让部署规模和原始性能脱钩,开源生态让迭代速度和发布日期脱钩。

Willison的鹈鹕玩笑之所以有效,恰恰因为它测试的是"未经优化的原始能力"——没有公开训练数据、没有针对性微调、没有提示工程陷阱。这种"野生测试"反而可能比MMLU、HumanEval等标准基准更真实,因为后者已被过度拟合。

对从业者的直接启示:评估模型必须回归具体场景。如果你需要批量生成SVG插图,本地部署的量化Qwen可能是成本最优解;如果你需要处理200页法律文档的跨页引用,Opus的上下文窗口和推理深度可能不可替代。

没有 universal 的更好,只有 contextual 的更适合。

阿里巴巴Qwen团队的开源策略正在收获复利。从Qwen2到Qwen3.6,他们持续释放可商用的权重,允许社区进行二次开发。这种"基础设施化"的定位,与Anthropic的"高端服务"定位形成差异化竞争。

最终,鹈鹕骑自行车的荒谬画面,成了AI行业最诚实的镜子:当技术迭代速度超过评估体系进化速度,所有排名都是临时的,所有结论都是局部的,所有"胜利"都需要加一串限定词才能成立。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026年一季度消费:汽车、彩电、空调全线下跌

2026年一季度消费:汽车、彩电、空调全线下跌

风向观察
2026-04-21 09:27:07
7-3到7-10!19岁小孩哥爆冷失败,无缘1纪录,囧哥脱险会师小钢炮

7-3到7-10!19岁小孩哥爆冷失败,无缘1纪录,囧哥脱险会师小钢炮

刘姚尧的文字城堡
2026-04-21 08:00:02
终极较量!对日反击战,全面打响了!

终极较量!对日反击战,全面打响了!

大嘴说天下
2026-04-20 22:40:03
一场106-96让京深两队狂喜,广东队因祸得福,名利双收

一场106-96让京深两队狂喜,广东队因祸得福,名利双收

小徐讲八卦
2026-04-21 05:55:10
日本一观光直升机坠入火山口,2名中国台湾游客与1名日本机长失踪已3月,日媒称生还可能性极低,拟动用无人机重机具进入火口作业

日本一观光直升机坠入火山口,2名中国台湾游客与1名日本机长失踪已3月,日媒称生还可能性极低,拟动用无人机重机具进入火口作业

大风新闻
2026-04-20 15:11:31
《最强大脑》水哥现状:46岁不上班,住热带雨林,靠脑子年入千万

《最强大脑》水哥现状:46岁不上班,住热带雨林,靠脑子年入千万

子芫伴你成长
2026-04-19 23:08:37
孕晚期女子征婚:接受腹中胎儿,不要彩礼,评论区一点面子都不给

孕晚期女子征婚:接受腹中胎儿,不要彩礼,评论区一点面子都不给

谭谈社会
2026-04-21 00:12:25
罕见!7.7级地震把半个日本都震醒了,日网民:快请发达中国救我

罕见!7.7级地震把半个日本都震醒了,日网民:快请发达中国救我

社会日日鲜
2026-04-21 05:24:33
以前的旧衣服,如今成了“救命稻草”?提醒大家:别再断舍离了!

以前的旧衣服,如今成了“救命稻草”?提醒大家:别再断舍离了!

小谈食刻美食
2026-04-21 07:45:24
宋仲基与宋慧乔离婚6年后,首度携二婚外籍妻子公开亮相

宋仲基与宋慧乔离婚6年后,首度携二婚外籍妻子公开亮相

暖心萌阿菇凉
2026-04-20 10:27:49
美国是如何把孔宋家族收割干净?当时孔祥熙可是全球富豪榜第三名

美国是如何把孔宋家族收割干净?当时孔祥熙可是全球富豪榜第三名

贱议你读史
2026-04-14 18:37:12
这五个号码千万不要接,一旦接听,银行卡里的钱都可能秒没

这五个号码千万不要接,一旦接听,银行卡里的钱都可能秒没

笑熬浆糊111
2026-04-20 00:05:15
人心散了!34分惨败引发内讧,赵继伟发社媒表达不满,怒喷队友

人心散了!34分惨败引发内讧,赵继伟发社媒表达不满,怒喷队友

南海浪花
2026-04-20 23:37:05
李春江是被做掉的?杨毅曝三年前假球内幕:李楠讲义气史琳杰活该

李春江是被做掉的?杨毅曝三年前假球内幕:李楠讲义气史琳杰活该

大嘴爵爷侃球
2026-04-20 20:56:47
16强诞生8席,资格赛选手全部倒下!范争一4-5,吴宜泽创造历史?

16强诞生8席,资格赛选手全部倒下!范争一4-5,吴宜泽创造历史?

郝小小看体育
2026-04-21 07:13:24
鸿蒙操作系统都有18%的份额了,小米OV们为何至今不愿加入?

鸿蒙操作系统都有18%的份额了,小米OV们为何至今不愿加入?

王新喜
2026-04-20 19:07:02
附加赛广东牌运最差!浙江最舒服,8、9名最烫手,辽宁迎关键抉择

附加赛广东牌运最差!浙江最舒服,8、9名最烫手,辽宁迎关键抉择

后仰大风车
2026-04-21 09:45:08
政治上封杀,文化上封神

政治上封杀,文化上封神

最爱历史
2026-04-20 13:07:36
恒大集团许家印坑的最惨的8位大佬

恒大集团许家印坑的最惨的8位大佬

地产微资讯
2026-04-20 19:50:24
震惊!济南一国企总工的优质男,将未接种新冠疫苗列为择偶硬条件

震惊!济南一国企总工的优质男,将未接种新冠疫苗列为择偶硬条件

火山詩话
2026-04-21 08:54:26
2026-04-21 10:59:00
算力游侠
算力游侠
游走在API与报错之间,用魔法(AI)打败魔法的非硬核玩家。
1613文章数 18关注度
往期回顾 全部

科技要闻

重磅官宣:库克卸任,特努斯接任苹果CEO

头条要闻

牛弹琴:特朗普成美伊谈判最大障碍 伊朗果然勃然大怒

头条要闻

牛弹琴:特朗普成美伊谈判最大障碍 伊朗果然勃然大怒

体育要闻

“被优化”8年后,国乒方博决定换一条路重新上场

娱乐要闻

周润发时隔16年再卖楼,变现数亿资产

财经要闻

减速机订单已排到明年!

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

教育
家居
数码
房产
军事航空

教育要闻

“学硕不让读,专硕21.8万!”复旦让普通人看清现实:没钱别硬卷

家居要闻

诗意光影 窥见自然之境

数码要闻

必须收藏!2026年智能垃圾处理器推荐TOP5

房产要闻

大规模商改住!海口西海岸,这波项目要赢麻了!

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版