![]()
阿里在3月28日凌晨扔出一枚深水炸弹。Qwen3.5-35B-A3B(通义千问3.5-350亿参数-A3B激活)以完全开源的姿态上线,不是那种"开源但商用要谈"的半吊子,是Apache 2.0协议——你可以拿去卖,阿里不收一分钱。
更狠的是它的激活参数量。350亿总参数,每次前向传播只激活30亿。这是什么概念?推理成本压到同规模稠密模型的1/70,响应速度却更快。一个类比:以前你雇了350个工程师待命,现在只叫醒3个干活,剩下347个继续睡觉领工资——但活干得一样好。
时间线:从追赶到并跑
2023年4月,阿里首次开源Qwen-7B,社区反应平淡。当时Llama 2刚发布,国内大模型还在"百模大战"的混乱期,参数一个比一个虚高,落地一个比一个困难。
转折点出现在2024年。Qwen2.5系列在HuggingFace下载量突然飙升,海外开发者开始用"Qwen"而不是"通义千问"称呼它。一位在硅谷做AI infra的工程师告诉我,他们内部测试后发现Qwen2.5-72B的代码能力"意外可靠",开始悄悄替换掉部分GPT-4调用。
今年1月,DeepSeek-R1用600万美元训练成本掀翻桌子,证明中国团队能在推理效率上做出世界级成果。阿里显然被刺激到了——Qwen3.5的发布节奏明显加快,从官宣到开源仅用72小时,文档和工具链同步到位,不像某些厂商"代码先扔上来,教程慢慢补"。
3月28日的发布会有个细节:阿里通义实验室负责人林俊旸没有谈"AGI愿景",而是展示了A3B在MacBook Pro上的本地运行视频。13寸笔记本,无独显,生成速度每秒15个token。这不是demo,是可直接复现的Docker镜像。
技术拆解:为什么30亿激活能打
![]()
混合专家模型(MoE,Mixture of Experts)不是新概念,但Qwen3.5-A3B的路由策略做了针对性优化。传统MoE像医院分诊台——病人来了先判断去哪个科室,判断错了全盘皆输。A3B的做法更接近"专家会诊":每个token会激活多个专家,但权重动态分配,避免某些专家被"累死"而另一些"闲死"的负载失衡问题。
训练数据方面,阿里披露了关键数字:18万亿token的预训练数据,其中代码占比35%,数学推理占20%。这个数据配比明显冲着"实用主义"去的——不是刷榜用的,是解决开发者真实痛点用的。
实测数据来自第三方评测平台Artificial Analysis。Qwen3.5-35B-A3B在HumanEval(代码生成基准)上拿到82.3%,超过Llama 3.3-70B的79.1%;在MATH-500数学推理上71.4%,接近GPT-4o的74.6%。考虑到激活参数量只有对方的1/20,这个效率比足够让MLOps团队重新做成本测算。
有个细节被很多人忽略:A3B支持128K上下文窗口,但内存占用控制在24GB以内。这意味着一张RTX 4090就能跑满血版,不需要去租A100。对于想私有化部署的中小团队,这是从"不可能"到"周末就能搞定"的质变。
开源策略:阿里的算盘与社区的回应
阿里这次的开源力度在中文大模型厂商中罕见。除了模型权重,一并放出的包括:
• 完整训练日志(loss曲线、学习率调度、数据配比)
• 支持vLLM、SGLang、llama.cpp的即插即用配置
• 官方提供的GRPO强化学习微调脚本
对比之下,某些厂商的开源像"展示柜里的蛋糕"——能看不能吃。阿里这次更像"把厨房也开放了",连菜谱和火候控制都给你。
![]()
HuggingFace上的反馈来得很快。发布24小时内,模型下载量突破12万次,衍生微调版本开始出现:有开发者做了法律专用版,有人试了医疗问诊场景,最意外的是个日本团队发布了日语优化版——他们原本用Llama 3.1,切换后称"长文本理解明显提升"。
但社区也有冷静声音。一位在GitHub Issues里留言的工程师指出,A3B的MoE路由在batch size较小时效率会下降,"单机跑demo很爽,上生产环境做高并发还需要调优"。这个反馈被阿里团队两小时内回复,承诺下周更新推理优化指南。
商业层面的信号同样明确。阿里云同期宣布,Qwen3.5系列在自家PAI平台的推理价格下调60%,百炼API的35B-A3B定价降到每百万token 0.5元。这不是慈善,是生态打法——用开源占领开发者心智,用云服务收割规模化需求。
35B的野心:中端市场的精准卡位
大模型的参数竞赛正在分化。一头是GPT-4、Gemini Ultra这类万亿级巨兽,靠堆算力换能力;另一头是Phi-4、Llama 3.2-3B这类端侧小模型,牺牲精度换速度。中间地带——也就是70B到400B这个区间——竞争反而没那么激烈。
阿里选35B作为旗舰开源版本,是产品经理式的精准计算。这个规模既能保持接近大模型的能力,又能塞进消费级硬件;既不会让中小企业望而生畏,又留有足够的性能冗余做垂直微调。
一个对比数据:Qwen3.5-35B-A3B的MT-Bench(多轮对话评测)得分8.41,而GPT-4o是8.96。差距在缩小,而成本差了两个数量级。对于需要处理敏感数据、必须本地化部署的金融、政务客户,这个性价比公式足够改写采购决策。
发布会的最后环节,林俊旸被问到"如何应对DeepSeek的竞争"。他的回答没有火药味:「R1证明了推理效率的重要性,我们很高兴行业共识在形成。Qwen3.5-A3B走另一条路——不是用更多算力做推理,而是用更少算力做同样的事。」
开源社区的投票正在发生。截至发稿,Qwen3.5-35B-A3B在HuggingFace的Trending榜单升至第二,第一是它的32B版本——后者参数更小,但激活比例更高,适合极端成本敏感场景。两个型号同时霸榜,这在开源大模型历史上还是第一次。
你的下一台本地AI助手,会姓Qwen吗?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.