阿里开源35B模型：3个月训练，推理成本砍到1/70|调用|代码|知名企业|阿里巴巴集团

阿里开源35B模型：3个月训练，推理成本砍到1/70

2026-03-28 11:04:53　来源: 灰度测试中

北京举报

分享至

阿里在3月28日凌晨扔出一枚深水炸弹。Qwen3.5-35B-A3B（通义千问3.5-350亿参数-A3B激活）以完全开源的姿态上线，不是那种"开源但商用要谈"的半吊子，是Apache 2.0协议——你可以拿去卖，阿里不收一分钱。

更狠的是它的激活参数量。350亿总参数，每次前向传播只激活30亿。这是什么概念？推理成本压到同规模稠密模型的1/70，响应速度却更快。一个类比：以前你雇了350个工程师待命，现在只叫醒3个干活，剩下347个继续睡觉领工资——但活干得一样好。

时间线：从追赶到并跑

2023年4月，阿里首次开源Qwen-7B，社区反应平淡。当时Llama 2刚发布，国内大模型还在"百模大战"的混乱期，参数一个比一个虚高，落地一个比一个困难。

转折点出现在2024年。Qwen2.5系列在HuggingFace下载量突然飙升，海外开发者开始用"Qwen"而不是"通义千问"称呼它。一位在硅谷做AI infra的工程师告诉我，他们内部测试后发现Qwen2.5-72B的代码能力"意外可靠"，开始悄悄替换掉部分GPT-4调用。

今年1月，DeepSeek-R1用600万美元训练成本掀翻桌子，证明中国团队能在推理效率上做出世界级成果。阿里显然被刺激到了——Qwen3.5的发布节奏明显加快，从官宣到开源仅用72小时，文档和工具链同步到位，不像某些厂商"代码先扔上来，教程慢慢补"。

3月28日的发布会有个细节：阿里通义实验室负责人林俊旸没有谈"AGI愿景"，而是展示了A3B在MacBook Pro上的本地运行视频。13寸笔记本，无独显，生成速度每秒15个token。这不是demo，是可直接复现的Docker镜像。

技术拆解：为什么30亿激活能打

混合专家模型（MoE，Mixture of Experts）不是新概念，但Qwen3.5-A3B的路由策略做了针对性优化。传统MoE像医院分诊台——病人来了先判断去哪个科室，判断错了全盘皆输。A3B的做法更接近"专家会诊"：每个token会激活多个专家，但权重动态分配，避免某些专家被"累死"而另一些"闲死"的负载失衡问题。

训练数据方面，阿里披露了关键数字：18万亿token的预训练数据，其中代码占比35%，数学推理占20%。这个数据配比明显冲着"实用主义"去的——不是刷榜用的，是解决开发者真实痛点用的。

实测数据来自第三方评测平台Artificial Analysis。Qwen3.5-35B-A3B在HumanEval（代码生成基准）上拿到82.3%，超过Llama 3.3-70B的79.1%；在MATH-500数学推理上71.4%，接近GPT-4o的74.6%。考虑到激活参数量只有对方的1/20，这个效率比足够让MLOps团队重新做成本测算。

有个细节被很多人忽略：A3B支持128K上下文窗口，但内存占用控制在24GB以内。这意味着一张RTX 4090就能跑满血版，不需要去租A100。对于想私有化部署的中小团队，这是从"不可能"到"周末就能搞定"的质变。

开源策略：阿里的算盘与社区的回应

阿里这次的开源力度在中文大模型厂商中罕见。除了模型权重，一并放出的包括：

• 完整训练日志（loss曲线、学习率调度、数据配比）
• 支持vLLM、SGLang、llama.cpp的即插即用配置
• 官方提供的GRPO强化学习微调脚本

对比之下，某些厂商的开源像"展示柜里的蛋糕"——能看不能吃。阿里这次更像"把厨房也开放了"，连菜谱和火候控制都给你。

HuggingFace上的反馈来得很快。发布24小时内，模型下载量突破12万次，衍生微调版本开始出现：有开发者做了法律专用版，有人试了医疗问诊场景，最意外的是个日本团队发布了日语优化版——他们原本用Llama 3.1，切换后称"长文本理解明显提升"。

但社区也有冷静声音。一位在GitHub Issues里留言的工程师指出，A3B的MoE路由在batch size较小时效率会下降，"单机跑demo很爽，上生产环境做高并发还需要调优"。这个反馈被阿里团队两小时内回复，承诺下周更新推理优化指南。

商业层面的信号同样明确。阿里云同期宣布，Qwen3.5系列在自家PAI平台的推理价格下调60%，百炼API的35B-A3B定价降到每百万token 0.5元。这不是慈善，是生态打法——用开源占领开发者心智，用云服务收割规模化需求。

35B的野心：中端市场的精准卡位

大模型的参数竞赛正在分化。一头是GPT-4、Gemini Ultra这类万亿级巨兽，靠堆算力换能力；另一头是Phi-4、Llama 3.2-3B这类端侧小模型，牺牲精度换速度。中间地带——也就是70B到400B这个区间——竞争反而没那么激烈。

阿里选35B作为旗舰开源版本，是产品经理式的精准计算。这个规模既能保持接近大模型的能力，又能塞进消费级硬件；既不会让中小企业望而生畏，又留有足够的性能冗余做垂直微调。

一个对比数据：Qwen3.5-35B-A3B的MT-Bench（多轮对话评测）得分8.41，而GPT-4o是8.96。差距在缩小，而成本差了两个数量级。对于需要处理敏感数据、必须本地化部署的金融、政务客户，这个性价比公式足够改写采购决策。

发布会的最后环节，林俊旸被问到"如何应对DeepSeek的竞争"。他的回答没有火药味：「R1证明了推理效率的重要性，我们很高兴行业共识在形成。Qwen3.5-A3B走另一条路——不是用更多算力做推理，而是用更少算力做同样的事。」

开源社区的投票正在发生。截至发稿，Qwen3.5-35B-A3B在HuggingFace的Trending榜单升至第二，第一是它的32B版本——后者参数更小，但激活比例更高，适合极端成本敏感场景。两个型号同时霸榜，这在开源大模型历史上还是第一次。

你的下一台本地AI助手，会姓Qwen吗？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.