![]()
大数据文摘受权转载自AI科技评论
作者丨刘 伟
编辑丨林觉民
这可能是有史以来AI浓度最高的一次春节。千问、豆包、元宝等C端AI助手争相赞助春晚,借红包与补贴快速拉升日活;各家基础大模型也悄然迭代版本,蓄势展开行业角逐。
而这轮AI春节档迎来了最强杀手锏!2 月 16日除夕当天,阿里开源全新一代大模型Qwen3.5-Plus,其性能媲美 Gemini-3-pro、GPT-5.2 等顶级闭源模型,一举登顶全球最强开源模型宝座。
这款模型在模型架构上全面创新,是旗下首款原生多模态模型,并且在性能和推理效率上均实现大幅提升。此次发布的Qwen3.5-Plus 总参数达 3970 亿,实际激活仅 170 亿,性能却超越万亿参数的 Qwen3-Max 模型;同时部署显存占用降低 60%,最大吞吐量可提升至19倍,真正实现以小胜大。
实测结果显示,千问 3.5 在 MMLU-Pro 认知能力评测中拿下 87.8 分,超越 GPT5.2;在博士级难题 GPQA 测评中斩获 88.4 分,高于 Claude 4.5;在指令遵循 IFBench 评测中以 76.5 分刷新所有模型纪录;在通用 Agent 评测 BFCL-V4、搜索 Agent 评测 Browsecomp 等基准中,表现均超越 Gemini-3-Pro。
![]()
这次,阿里还把底层模型架构和AI infra创新的红利释放给了广大企业和开发者,千问 3.5 加量不加价 —— 性能大幅跃升的同时,使用成本再创新低。阿里云百炼上的千问 3.5 API 价格已经出炉:每百万 Token 输入低至 0.8 元,仅为 Gemini-3-pro 的 1/18。
01模型架构多项创新,
千问3.5性能、效率大幅提升
过去数年,大模型行业陷入近乎偏执的 “参数崇拜”。从千亿到万亿,参数规模的膨胀被视作性能提升的唯一路径,而这种粗放式发展也存在诸多问题:部署门槛高,推理消耗天价成本…… 技术创新与实际应用之间,形成一道难以跨越的鸿沟。
Qwen3.5-Plus打破了这一固有思路,它不仅在架构层面实现创新,还采用了全新的原生多模态预训练范式,直接打破开源模型的性能天花板。
Qwen3.5-Plus 的技术与架构创新,主要体现在四大核心维度:首先是注意力机制的革新。面对长文本,传统 Transformer 模型需对每个词与所有上下文做全量计算,算力消耗随文本长度指数级增长。Qwen3.5-Plus 引入混合注意力机制,让模型学会 “有详有略地读”,自动识别关键信息精读、非关键部分快读,既大幅降低长文本处理的算力成本,又保障信息处理精度。
其次是架构层面的代际跃迁。Qwen3.5-Plus 采用极致稀疏的混合专家(MoE)架构。传统稠密模型每次推理都要激活全部参数,如同让整个工厂的工人同时作业,无论任务大小;而 MoE 架构恰似一支特种部队,仅根据任务需求调用最相关的 “专家” 子网络。Qwen3.5-Plus 将这一理念做到极致 ——3970 亿总参数中,仅需激活不到 5%(170亿),就能调动全部知识储备,从根本上解决算力浪费问题。
三是原生多 Token 预测。以往的模型如同打字时每按一个键都要停顿思考下一个字,效率低下;而千问3.5在训练时就学会了 “预判”,能同时规划多个词甚至一整句话的输出并一次性生成。这并非简单的多字打包发送,而是模型在内部真正 “提前规划” 后续内容,让长文本生成、代码补全、多轮对话等高频场景的响应速度近乎翻倍,用户能感受到近乎 “秒出” 的流畅体验。
最后是系统级训练稳定性优化。为让模型在超大规模训练中保持稳定,千问团队完成多项底层优化。根据官方信息,阿里千问团队入选NeurIPS2025最佳论文的注意力门控机制研究这次也被用上了,一年前的前瞻性研究现在已成为打破模型性能天花板的重要一环。在256K超长上下文情况下,千问3.5推理吞吐量最大提升至19倍,推理效率大幅提升。
值得注意的是,和绝大多数多模态模型不同,Qwen3.5-Plus在多模态理解的实现上尝试了新的路径。据介绍,从预训练第一天起,千问模型就在文本和视觉的混合数据上联合学习,让视觉与语言在统一的参数空间内深度融合。这样的技术路径带来的效果显著。
在训练阶段,千问3.5在文本、图像、视频等混合数据训练吞吐量,几近100%持平纯文本基座模型训练,大举降低了原生多模态训练的难度门槛;同时,通过设计精巧的FP8、FP32精度应用策略,在训练稳定扩展到数十万亿个token时,激活内存减少约50% ,训练还能提速10% ,进一步节约了模型训练成本、提升了训练效率。
在推理阶段,测试数据显示,千问3.5在多模态推理(MathVison)、通用视觉问答VQA(RealWorldQA)、文本识别和文件理解(CC_OCR)、空间智能(RefCOCO-avg)、视频理解(MLVU)等众多权威评测中,均斩获最佳性能。
02技术红利全面释放,
千问要做人人都能用的AI
如果说技术创新解决了大模型 “能不能用” 和“好不好用”的问题,那么普惠定价则破解了 “用不用得起” 的难题。
长期以来,高昂的 API 调用成本是 AI 技术落地的最大障碍。对于预算有限的中小企业和个人开发者而言,动辄数元的单次调用费用,足以扼杀无数创新想法。
尽管近两年大模型的价格在不断降低,但这轮价格的下调更多来自各大云服务商和模型厂商的商业策略。这次阿里云百炼上给出的Qwen3.5-Plus API 定价同样急剧竞争,每百万 Token 输入仅需 0.8 元,Gemini-3-pro 的 1/18。
这种极致普惠定价的底气,来自阿里在模型和AI基础设施层面的协同创新。
除了上述模型架构的技术创新,千问大模型还可通过阿里云和平头哥自研芯片的加持,进一步提升推理效率。这种模型、芯片和云的软硬件紧密耦合,最终实现了1+1+1>3的效果,不仅能更好发挥芯片的算力潜力,以及集群的算力效率,还能更好有效提升模型训练以及推理的效率。
例如,平头哥真武芯片针对以千问3为代表的主流MoE架构模型做了大量优化,可满足千问大模型对大规模计算的需求。这种通过模型、芯片以及云的协同创新,打破了性能、效率和成本的不可能三角。
另一方面,为让更多群体用上这款SOTA模型,千问3.5还面向全球开发者开源,开发者可在魔搭社区和 HuggingFace 免费下载部署模型,阿里还将陆续开源不同尺寸、不同功能的Qwen3.5 系列模型,支持本地、端侧等多场景部署,满足个性化开发需求。
事实上,千问自诞生以来,就一直坚持开源路线,千问系列已开源 400 多个模型,衍生模型数量超 20 万,全球下载量突破 10 亿次,远超美国的 Llama,极大地推动了AI在千行百业普及。
03结语
事实上,千问3.5的性能和成本突破,是阿里在云、芯片和模型三大技术领域持续深耕的结果。这种全栈自研带来的价值远不局限于单线业务,三大业务深度协同产生的化学反应,正在释放更大的势能。
最显著的变化是,千问大模型的持续爆火让阿里云再次进入高速增长期。根据市场调研机构 Omdia 数据,2025 年上半年,中国 AI 云整体市场(AI IaaS+PaaS+MaaS)规模达 223 亿元,阿里云占比 35.8 %,超过第二到第四名总和。Omdia 数据还显示,2025年,阿里云在中国云市场的份额从上季度的33%提升至36%,领先优势进一步扩大。
GPU 训练特惠!
H100/H200 GPU算力按秒计费,平均节省开支30%以上!
扫码了解详情☝
点「赞」的人都变好看了哦!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.