只用1/3算力，用35B模型干掉120B的日常主力|推理|编程|维度|新论文

只用1/3算力，用35B模型干掉120B的日常主力

2026-03-01 09:48:19　来源: 我不叫阿哏

广东举报

分享至

快速导读：有人把Qwen 3.5-35B-A3B设为主力模型，替换掉了GPT-OSS-120B。这不是参数的胜利，是架构逻辑的一次重写——更少的激活参数，更快的推理速度，跑在一张5090加一张3090上，100k上下文，128 tok/s。本地部署的性价比天花板，可能刚刚被重新定义。

该图片可能由AI生成

一个能说明问题的测试：把一张填好答案的填字游戏图片扔给模型，要求它用视觉识别字母，再用逻辑推理还原空格的位置。

Qwen3.5-27B做到了，用了8分钟30秒，跑在42 tok/s。

Qwen3.5-35B-A3B也做到了，用了2分35秒，跑在128 tok/s。

两个模型都答对了。但一个让人等到快放弃，另一个让人觉得这台机器终于活过来了。

这就是MoE架构正在做的事：35B的总参数量，每次推理只激活3B。不是在硬件上堆算力，而是在模型设计上做了一次减法——只调用手头的牌，不把整副牌都翻出来看。GPT-OSS-120B激活了5.1B参数，按这个逻辑算，差距比数字本身表现出的要小得多。

有人同时跑了27B和35B的非思考模式，做的是多语言文本处理任务——不是英文摘要，是其他语言的语言结构理解。结论是：35B的非思考模式碾压了27B的非思考模式。27B在这类任务上表现“非常差”，原话。

思考模式（Thinking Mode）这件事在社区里一直有争议。有人觉得模型一直在“但等等……但等等……”地内耗，是噪音。有人觉得那是核心。真实情况更接近后者——但触发条件要对。视觉任务和复杂推理打开思考，日常对话和文本处理关掉，二者不冲突。官方为不同场景给出了四组参数配置，覆盖了通用思考、精准编程、指令任务和推理任务，不同场景用不同的temperature和presence\_penalty，不是一刀切。很多人踩的坑，其实是漏掉了`presence_penalty=1.5`这个参数——模型开始无限循环，不是架构问题，是参数没配对。

还有人把它跑在CPU上：256GB DDR5-6000加9950X3D，8 tok/s，模型占用约20GB内存。对于自动化任务来说，这个速度够用，还不占GPU。

如果你现在用的是云端API，每个月在为token量付费，同时担心自己的代码、数据、业务逻辑以某种方式流入不透明的训练管道——这个配置组合已经把“本地部署够不够用”这个问题的答案推得更远了一些。

剩下的问题是：你的业务里，有多少任务的质量要求，其实一直没你想象的那么高？

简评：

以前本地跑模型是“省钱但将就”，现在是“不知道要将就什么了”。MoE架构最有意思的地方不在于它激活了多少参数，而在于它证明了一件事：规模不是唯一的维度。一个会挑牌打的35B，正在击败一个把所有牌都摊开的老模型。

ref: reddit.com/r/LocalLLaMA/comments/1rh43za/qwen_3535ba3b_is_beyond_expectations_its_replaced

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.