AI春节档最强杀手锏来了！千问3.5除夕强势亮相，开源SOTA、性价比之王|推理|模态

AI春节档最强杀手锏来了！千问3.5除夕强势亮相，开源SOTA、性价比之王

2026-02-17 11:33:49　来源: 雷峰网

北京举报

分享至

“大模型进入原生多模态时代！”

作者丨刘伟

编辑丨林觉民

这可能是有史以来AI浓度最高的一次春节。千问、豆包、元宝等 C 端 AI助手争相赞助春晚，借红包与补贴快速拉升日活；各家基础大模型也悄然迭代版本，蓄势展开行业角逐。

而这轮AI春节档迎来了最强杀手锏！2 月 16日除夕当天，阿里开源全新一代大模型Qwen3.5-Plus，其性能媲美Gemini-3-pro、GPT-5.2等顶级闭源模型，一举登顶全球最强开源模型宝座。

这款模型在模型架构上全面创新，是旗下首款原生多模态模型，并且在性能和推理效率上均实现大幅提升。此次发布的Qwen3.5-Plus 总参数达 3970 亿，实际激活仅 170 亿，性能却超越万亿参数的 Qwen3-Max 模型；同时部署显存占用降低 60%，最大吞吐量可提升至19倍，真正实现以小胜大。

实测结果显示，千问 3.5 在 MMLU-Pro 认知能力评测中拿下 87.8 分，超越 GPT5.2；在博士级难题 GPQA 测评中斩获 88.4 分，高于 Claude 4.5；在指令遵循 IFBench 评测中以 76.5 分刷新所有模型纪录；在通用 Agent 评测 BFCL-V4、搜索 Agent 评测 Browsecomp 等基准中，表现均超越 Gemini-3-Pro。

这次，阿里还把底层模型架构和AI infra创新的红利释放给了广大企业和开发者，千问 3.5 加量不加价 —— 性能大幅跃升的同时，使用成本再创新低。阿里云百炼上的千问 3.5 API 价格已经出炉：每百万 Token 输入低至 0.8 元，仅为 Gemini-3-pro 的 1/18。

模型架构多项创新，

千问3.5性能、效率大幅提升

过去数年，大模型行业陷入近乎偏执的 “参数崇拜”。从千亿到万亿，参数规模的膨胀被视作性能提升的唯一路径，而这种粗放式发展也存在诸多问题：部署门槛高，推理消耗天价成本…… 技术创新与实际应用之间，形成一道难以跨越的鸿沟。

Qwen3.5-Plus打破了这一固有思路，它不仅在架构层面实现创新，还采用了全新的原生多模态预训练范式，直接打破开源模型的性能天花板。

Qwen3.5-Plus 的技术与架构创新，主要体现在四大核心维度：首先是注意力机制的革新。面对长文本，传统 Transformer 模型需对每个词与所有上下文做全量计算，算力消耗随文本长度指数级增长。Qwen3.5-Plus 引入混合注意力机制，让模型学会 “有详有略地读”，自动识别关键信息精读、非关键部分快读，既大幅降低长文本处理的算力成本，又保障信息处理精度。

其次是架构层面的代际跃迁。Qwen3.5-Plus 采用极致稀疏的混合专家（MoE）架构。传统稠密模型每次推理都要激活全部参数，如同让整个工厂的工人同时作业，无论任务大小；而 MoE 架构恰似一支特种部队，仅根据任务需求调用最相关的 “专家” 子网络。Qwen3.5-Plus 将这一理念做到极致 ——3970 亿总参数中，仅需激活不到 5%（170亿），就能调动全部知识储备，从根本上解决算力浪费问题。

三是原生多Token预测。以往的模型如同打字时每按一个键都要停顿思考下一个字，效率低下；而千问3.5在训练时就学会了 “预判”，能同时规划多个词甚至一整句话的输出并一次性生成。这并非简单的多字打包发送，而是模型在内部真正 “提前规划” 后续内容，让长文本生成、代码补全、多轮对话等高频场景的响应速度近乎翻倍，用户能感受到近乎 “秒出” 的流畅体验。

最后是系统级训练稳定性优化。为让模型在超大规模训练中保持稳定，千问团队完成多项底层优化。根据官方信息，阿里千问团队入选NeurIPS2025最佳论文的注意力门控机制研究这次也被用上了，一年前的前瞻性研究现在已成为打破模型性能天花板的重要一环。在256K超长上下文情况下，千问3.5推理吞吐量最大提升至19倍，推理效率大幅提升。

值得注意的是，和绝大多数多模态模型不同，Qwen3.5-Plus在多模态理解的实现上尝试了新的路径。据介绍，从预训练第一天起，千问模型就在文本和视觉的混合数据上联合学习，让视觉与语言在统一的参数空间内深度融合。这样的技术路径带来的效果显著。

在训练阶段，千问3.5在文本、图像、视频等混合数据训练吞吐量，几近100%持平纯文本基座模型训练，大举降低了原生多模态训练的难度门槛；同时，通过设计精巧的FP8、FP32精度应用策略，在训练稳定扩展到数十万亿个token时，激活内存减少约50% ，训练还能提速10% ，进一步节约了模型训练成本、提升了训练效率。

在推理阶段，测试数据显示，千问3.5在多模态推理（MathVison）、通用视觉问答VQA（RealWorldQA）、文本识别和文件理解（CC_OCR）、空间智能（RefCOCO-avg）、视频理解（MLVU）等众多权威评测中，均斩获最佳性能。

技术红利全面释放，

千问要做人人都能用的AI

如果说技术创新解决了大模型 “能不能用” 和“好不好用”的问题，那么普惠定价则破解了 “用不用得起” 的难题。

长期以来，高昂的 API 调用成本是 AI 技术落地的最大障碍。对于预算有限的中小企业和个人开发者而言，动辄数元的单次调用费用，足以扼杀无数创新想法。

尽管近两年大模型的价格在不断降低，但这轮价格的下调更多来自各大云服务商和模型厂商的商业策略。这次阿里云百炼上给出的Qwen3.5-Plus API 定价同样急剧竞争，每百万 Token 输入仅需 0.8 元，Gemini-3-pro 的 1/18。

这种极致普惠定价的底气，来自阿里在模型和AI基础设施层面的协同创新。

除了上述模型架构的技术创新，千问大模型还可通过阿里云和平头哥自研芯片的加持，进一步提升推理效率。这种模型、芯片和云的软硬件紧密耦合，最终实现了1+1+1>3的效果，不仅能更好发挥芯片的算力潜力，以及集群的算力效率，还能更好有效提升模型训练以及推理的效率。

例如，平头哥真武芯片针对以千问3为代表的主流MoE架构模型做了大量优化，可满足千问大模型对大规模计算的需求。这种通过模型、芯片以及云的协同创新，打破了性能、效率和成本的不可能三角。

另一方面，为让更多群体用上这款SOTA模型，千问3.5还面向全球开发者开源，开发者可在魔搭社区和 HuggingFace 免费下载部署模型，阿里还将陆续开源不同尺寸、不同功能的Qwen3.5系列模型，支持本地、端侧等多场景部署，满足个性化开发需求。

事实上，千问自诞生以来，就一直坚持开源路线，千问系列已开源 400 多个模型，衍生模型数量超 20 万，全球下载量突破 10 亿次，远超美国的 Llama，极大地推动了AI在千行百业普及。

结语

事实上，千问3.5的性能和成本突破，是阿里在云、芯片和模型三大技术领域持续深耕的结果。这种全栈自研带来的价值远不局限于单线业务，三大业务深度协同产生的化学反应，正在释放更大的势能。

最显著的变化是，千问大模型的持续爆火让阿里云再次进入高速增长期。根据市场调研机构 Omdia 数据，2025 年上半年，中国 AI 云整体市场（AI IaaS+PaaS+MaaS）规模达 223 亿元，阿里云占比 35.8 %，超过第二到第四名总和。Omdia 数据还显示，2025年，阿里云在中国云市场的份额从上季度的33％提升至36%，领先优势进一步扩大。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.