快速导读:有人把Qwen 3.5-35B-A3B设为主力模型,替换掉了GPT-OSS-120B。这不是参数的胜利,是架构逻辑的一次重写——更少的激活参数,更快的推理速度,跑在一张5090加一张3090上,100k上下文,128 tok/s。本地部署的性价比天花板,可能刚刚被重新定义。
该图片可能由AI生成![]()
一个能说明问题的测试:把一张填好答案的填字游戏图片扔给模型,要求它用视觉识别字母,再用逻辑推理还原空格的位置。
Qwen3.5-27B做到了,用了8分钟30秒,跑在42 tok/s。
Qwen3.5-35B-A3B也做到了,用了2分35秒,跑在128 tok/s。
两个模型都答对了。但一个让人等到快放弃,另一个让人觉得这台机器终于活过来了。
这就是MoE架构正在做的事:35B的总参数量,每次推理只激活3B。不是在硬件上堆算力,而是在模型设计上做了一次减法——只调用手头的牌,不把整副牌都翻出来看。GPT-OSS-120B激活了5.1B参数,按这个逻辑算,差距比数字本身表现出的要小得多。
有人同时跑了27B和35B的非思考模式,做的是多语言文本处理任务——不是英文摘要,是其他语言的语言结构理解。结论是:35B的非思考模式碾压了27B的非思考模式。27B在这类任务上表现“非常差”,原话。
思考模式(Thinking Mode)这件事在社区里一直有争议。有人觉得模型一直在“但等等……但等等……”地内耗,是噪音。有人觉得那是核心。真实情况更接近后者——但触发条件要对。视觉任务和复杂推理打开思考,日常对话和文本处理关掉,二者不冲突。官方为不同场景给出了四组参数配置,覆盖了通用思考、精准编程、指令任务和推理任务,不同场景用不同的temperature和presence\_penalty,不是一刀切。很多人踩的坑,其实是漏掉了`presence_penalty=1.5`这个参数——模型开始无限循环,不是架构问题,是参数没配对。
还有人把它跑在CPU上:256GB DDR5-6000加9950X3D,8 tok/s,模型占用约20GB内存。对于自动化任务来说,这个速度够用,还不占GPU。
如果你现在用的是云端API,每个月在为token量付费,同时担心自己的代码、数据、业务逻辑以某种方式流入不透明的训练管道——这个配置组合已经把“本地部署够不够用”这个问题的答案推得更远了一些。
剩下的问题是:你的业务里,有多少任务的质量要求,其实一直没你想象的那么高?
简评:
以前本地跑模型是“省钱但将就”,现在是“不知道要将就什么了”。MoE架构最有意思的地方不在于它激活了多少参数,而在于它证明了一件事:规模不是唯一的维度。一个会挑牌打的35B,正在击败一个把所有牌都摊开的老模型。
ref: reddit.com/r/LocalLLaMA/comments/1rh43za/qwen_3535ba3b_is_beyond_expectations_its_replaced
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.