网易首页 > 网易号 > 正文 申请入驻

21GB模型跑在笔记本上,画图打败了Claude Opus 4.7

0
分享至

一个21GB的量化模型,在MacBook Pro M5上本地运行,画出的鹈鹕骑自行车比Anthropic最新的旗舰模型还好。这听起来像玩笑,但测试者Simon Willison的对比图就摆在那儿。

「鹈鹕测试」到底测的是什么


Willison从去年10月开始用这个基准:让AI画「鹈鹕骑自行车」的矢量图(SVG格式)。初衷是嘲讽——模型评测这件事本身就够荒谬的。

但诡异的是,这个玩笑基准居然管用。早期模型画的鹈鹕是垃圾,后来Gemini 3.1 Pro已经能产出能用的插图。质量曲线和模型实际能力大体正相关。

直到今天被打破了。

Qwen3.6-35B-A3B的量化版(由Unsloth发布的Q4_K_S版本,体积压到20.9GB)在本地跑LM Studio,画出的鹈鹕车架完整、结构合理。Claude Opus 4.7——Anthropic刚发布的闭源旗舰——反而把自行车车架画错了。

Willison不死心,给Opus加了thinking_level: max参数,再测一次。结果「没好多少」。

换题再测:「火烈鸟骑独轮车」。Qwen胜出,加分项是SVG代码里自动加了注释:。

正方:小模型本地跑,特定任务能赢巨头

这件事的冲击力在于场景错位。Anthropic的Opus系列定位是顶级推理能力,API定价也是第一梯队。Qwen3.6-35B-A3B是开源权重、可本地部署的模型,量化后能在消费级硬件运行。

Willison的测试环境很具体:MacBook Pro M5,通过LM Studio加载gguf格式模型,用llm-lmstudio插件调用。总成本是电费和下载时间。

对需要生成SVG插图的用户,这个组合此刻是更优解。不是理论上,是实测结果。

更深一层:Qwen团队在视觉-语言对齐上的投入开始显现。35B激活参数(A3B指激活3B参数的专家混合架构)能在图形结构理解上压过更大的稠密模型,说明架构设计和训练数据配比有针对性优化。

开源生态的工具链也在成熟。Unsloth的量化方案、LM Studio的推理框架、gguf格式的高效加载——这些基础设施让「本地跑大模型」从极客玩具变成生产力选项。

反方:单一基准不能说明能力排序

Willison自己先说了:「我非常尊重Qwen,但很难相信21GB量化版比Anthropic最新闭源模型更强大或更有用。」

鹈鹕测试的样本量极小。两个提示词,各跑1-2次,没有统计意义。Opus 4.7可能在其他视觉任务、长文本推理、代码生成等维度全面领先,只是恰好在这个奇怪的边缘case上翻车。

SVG生成是特殊能力。它要求模型理解图形结构、空间关系、矢量指令,同时遵循自然语言描述。这和通用视觉理解(如识别照片内容)是不同赛道。Qwen可能在这个细分任务上过度优化,而Opus的训练目标更宽泛。

量化损失也要考虑。20.9GB的Q4_K_S版本是4-bit量化,虽然Unsloth的方案口碑不错,但信息损失客观存在。原版Qwen3.6-35B-A3B的完整能力未必能代表,Willison测试的是「压缩后还能用的版本」。

最核心的一点:用户真正需要的是什么?如果任务是写2000行Python处理复杂数据流,Opus 4.7的可靠性可能仍是首选。SVG插图生成是低频、边缘需求,在这个点上胜出不等于产品层面的胜利。

我的判断:能力评估正在碎片化

这件事的重要性不在于Qwen vs Anthropic谁更强,而在于它揭示了模型能力评估的系统性困境。

过去两年,行业依赖几个头部基准(MMLU、HumanEval、GPQA)来排序模型。这些基准有标准化优势,但也在被针对性训练污染。Willison的「荒谬基准」反而成了压力测试——它测的是模型在未经优化的边缘任务上的真实表现。

现在连这种松散的相关性都在瓦解。一个中端本地模型能在特定视觉任务上击败顶级API模型,说明能力分布正在「碎片化」:

不同架构(稠密vs专家混合)、不同部署形态(云端API vs本地量化)、不同优化目标(通用能力 vs特定任务)的模型,正在形成交错的能力矩阵。没有单一的「最强模型」,只有「在X场景下最适合的模型」。

对科技从业者,这改变了选型逻辑。过去是「预算够就上Opus/GPT-4,预算紧用开源替代」。未来可能是:为每个任务匹配最优的模型-部署组合,甚至本地跑多个专用小模型,比调用一个通用大模型更划算。

对模型开发者,这是细分市场的机会。如果能在SVG生成、图表理解、特定领域代码等垂直能力上做到SOTA,即使通用基准落后,也能找到产品空间。

Willison说有人怀疑实验室专门训练他的鹈鹕测试。他半开玩笑地烧了备用测试(火烈鸟骑独轮车),结果Qwen又赢了。这个怀疑本身说明:当评测基准变得知名,它就死了。

真正的信号藏在没人专门优化的奇怪任务里。而找到这些任务,正在成为产品经理的新技能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视再三提醒,绑银行卡的手机,务必开启这两项功能

央视再三提醒,绑银行卡的手机,务必开启这两项功能

另子维爱读史
2026-04-18 22:46:08
中俄关系比传统“联盟”更深厚、更可靠

中俄关系比传统“联盟”更深厚、更可靠

看看新闻Knews
2026-04-19 08:36:10
以色列已失控?以军炮打联合国维和部队,法军牺牲,马克龙表态

以色列已失控?以军炮打联合国维和部队,法军牺牲,马克龙表态

来科点谱
2026-04-19 07:15:46
黄仁勋最怕的事:DeepSeek+华为正在发生

黄仁勋最怕的事:DeepSeek+华为正在发生

固件更新中
2026-04-18 20:04:19
贝森特通告全球,将对中国二级制裁,话音刚落,中国被曝美债余额

贝森特通告全球,将对中国二级制裁,话音刚落,中国被曝美债余额

浮光惊掠影
2026-04-19 10:01:06
世锦赛战报:4-10,赛会第23位冠军出局,中国2位,16强决出3席了

世锦赛战报:4-10,赛会第23位冠军出局,中国2位,16强决出3席了

求球不落谛
2026-04-19 23:35:24
赛力斯车载马桶引争议!每台车向华为交13.6万背后,市值7个月腰斩

赛力斯车载马桶引争议!每台车向华为交13.6万背后,市值7个月腰斩

深蓝财经
2026-04-19 14:13:01
大数据分析,在中国,找个身高1米7年入20万的老公,到底有多难?

大数据分析,在中国,找个身高1米7年入20万的老公,到底有多难?

深度报
2026-04-18 23:37:27
人民日报联合工信部紧急预警:全体iPhone用户,请立刻升级系统!

人民日报联合工信部紧急预警:全体iPhone用户,请立刻升级系统!

小柱解说游戏
2026-04-19 20:52:59
霍尔木兹开放前又现疑似内幕交易,7.6亿美元原油遭抛售

霍尔木兹开放前又现疑似内幕交易,7.6亿美元原油遭抛售

界面新闻
2026-04-19 23:00:32
负债60亿!年销8.4万台豪车的百亿巨头破产,浙商大佬全被套牢

负债60亿!年销8.4万台豪车的百亿巨头破产,浙商大佬全被套牢

青眼财经
2026-04-16 22:01:48
胡锡进以安全代言沃尔沃,是整个社会的耻辱

胡锡进以安全代言沃尔沃,是整个社会的耻辱

黔有虎
2026-04-19 17:34:12
事发浦东机场!女子称两次拒绝帮陌生人带行李,多名网友:我也遇到过!

事发浦东机场!女子称两次拒绝帮陌生人带行李,多名网友:我也遇到过!

上观新闻
2026-04-18 20:28:04
专家呼吁:马上停用5种调味酱,它是肠癌催化剂!再下饭也别沾

专家呼吁:马上停用5种调味酱,它是肠癌催化剂!再下饭也别沾

路医生健康科普
2026-04-18 16:18:55
吹响集结号!欧亚53国达成共识,泽连斯基宣布不再将美国视为盟友

吹响集结号!欧亚53国达成共识,泽连斯基宣布不再将美国视为盟友

史政先锋
2026-04-19 13:45:53
5月1日起全国严查!开车上班、做生意,这些小事别再碰,轻则罚款

5月1日起全国严查!开车上班、做生意,这些小事别再碰,轻则罚款

宝哥精彩赛事
2026-04-19 06:35:05
WCBA总决赛:四川女篮轰20-0大胜山西2-1夺赛点 坎贝奇29+10

WCBA总决赛:四川女篮轰20-0大胜山西2-1夺赛点 坎贝奇29+10

醉卧浮生
2026-04-19 21:21:28
中国航司大面积取消日本航班,武汉已无直飞日本航班

中国航司大面积取消日本航班,武汉已无直飞日本航班

极目新闻
2026-04-19 19:55:25
以军:打死阿里·里达·阿巴斯

以军:打死阿里·里达·阿巴斯

南方都市报
2026-04-19 21:17:31
正大光明官宣!中国舰艇编队过航横当水道

正大光明官宣!中国舰艇编队过航横当水道

武器纵论
2026-04-19 21:56:32
2026-04-20 01:31:00
算力游侠
算力游侠
游走在API与报错之间,用魔法(AI)打败魔法的非硬核玩家。
1581文章数 17关注度
往期回顾 全部

数码要闻

荣耀手表4更新又跳票?官方回应来了

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

教育
手机
数码
家居
公开课

教育要闻

27fall,申请最容易翻车的三所英国大学!

手机要闻

8.8英寸小钢炮!REDMI K Pad 2核心配置揭晓

数码要闻

亚马逊明确:未来Fire TV Stick全换Vega OS

家居要闻

法式线条 时光静淌

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版