阿里卷疯了！Qwen3.5除夕悄悄发布，原生多模态吊打GPT-5.2|千问|推理|新论文|知名企业|阿里巴巴集团

阿里卷疯了！Qwen3.5除夕悄悄发布，原生多模态吊打GPT-5.2

2026-02-16 21:30:03　来源: IT小埋

贵州举报

分享至

作者：小白

刚刚，大模型战局再次变天。

没有漫长的预热，阿里直接甩出王炸：通义千问Qwen3.5-Plus正式发布。

这一次，不仅仅是版本号的简单迭代，而是底层架构的彻底重构。与以往通过“视觉编码器+语言模型”拼接的缝合怪不同，千问3.5实现了真正的原生多模态（Native Multimodal）代际跃迁。

它不再是一个仅仅读过万卷书的“瞎子”，而是一个睁开眼看世界的全能天才。

数据更是吓人：在不到40%的参数量下，它硬是跑出了超过万亿参数基座Qwen3-Max的顶尖性能。在MMLU-Pro、GPQA等硬核评测中，直接按着GPT-5.2和Claude 4.5摩擦。更离谱的是，借助NeurIPS 2025最佳论文同款的门控技术，这颗397B的巨兽在推理时仅需激活17B参数，快得像个轻量级模型。

从纯文本到全模态，从聊天机器到能操控手机电脑的超级Agent，阿里这次不仅要卷死同行，还要重新定义什么才是“下一代大模型”。

一、性能霸榜，千问3.5登顶全球第一梯队

这一代千问最核心的变化，在于“原生”二字。

回顾千问3，它还是在纯文本Tokens上进行预训练，视觉能力更多是“外挂”上去的。而千问3.5则是从零开始，基于视觉和文本混合Token进行预训练。这意味着模型在学习“苹果”这个概念时，不再只是通过文字描述，而是同时看到了红色的圆形物体、咬下去的清脆声音。

为了喂饱这个原生多模态大脑，阿里团队大幅新增了中英文、多语言、STEM（科学、技术、工程、数学）和复杂的推理数据。这种高密度的世界知识注入，让千问3.5的逻辑推理能力发生了质变。

直接看成绩单，全是硬碰硬的权威基准：

在考查极高难度知识推理的MMLU-Pro评测中，千问3.5拿下87.8分。这是什么概念？它已经超越了此前公认的霸主GPT-5.2。

在堪称“博士资格考”的GPQA测评中，千问3.5斩获88.4分，将Claude 4.5甩在身后。要知道，这个榜单的每一分提升，通常都需要数百亿参数的堆砌，而阿里用更巧的方法做到了。

指令遵循能力更是刷新纪录，在IFBench中拿到76.5分，意味着它不仅听得懂人话，还能极其精准地执行那些繁琐、复杂的各种约束条件，不再出现“听懂了但做不对”的幻觉。

原生多模态的优势在视觉任务上展现得淋漓尽致。

以往的模型在处理复杂数学图表或空间定位时往往会“眼花”，但千问3.5在MathVision（多模态推理）、RealWorldQA（通用视觉问答）以及CC_OCR（文本识别）等评测中全部斩获最佳性能。

特别是MLVU视频理解测试，千问3.5不再是“抽帧看图”，而是真正理解了视频中的时间流逝和因果关系。

二、架构突变，397B参数跑出17B的极致效率

千问3.5性能暴涨的背后，不是单纯的“大力出奇迹”，而是对Transformer经典架构动了手术。

这就不得不提那个含金量极高的技术彩蛋：阿里团队自研的门控技术。这项成果刚刚斩获全球AI顶会2025 NeurIPS最佳论文，转头就被直接融入了千问3.5的血液里。

传统的MoE（混合专家模型）虽然快，但在超大规模下容易出现专家负载不均的问题。阿里团队结合了线性注意力机制（Linear Attention）与稀疏混合专家MoE架构，搞出了一套创新的混合架构。

这个架构最恐怖的地方在于极高的参数激活比。

千问3.5的总参数量高达397B（3970亿），是一个不折不扣的庞然大物。但在实际推理时，它每次只需要激活17B参数。

这意味着用户享受着近4000亿参数模型带来的顶级智商，却只消耗了运行一个中型模型的算力成本。这种极致的“降本增效”，让它在Qwen3-Max面前也不落下风，甚至以不到40%的算力开销不仅追平了性能，还带来了推理速度的指数级飞跃。

长文本推理效率的提升更是肉眼可见：

在常用的32K上下文场景中，千问3.5的推理吞吐量直接提升了8.6倍。

当上下文拉长到256K这种超长篇幅（比如扔进去几本小说或财报）时，Qwen3.5的优势更加夸张，吞吐量最大提升至19倍。

过去处理长文档需要等上一杯咖啡的时间，现在几乎是秒出。对于需要处理海量文档的企业级应用来说，这简直是降维打击。

三、 Agent进化，从“对话者”变身“执行者”

如果说推理能力是大模型的大脑，那么Agent能力就是它的手脚。千问3.5在这一点上走得更远，它不再满足于陪你聊天，而是要帮你干活。

在通用Agent评测BFCL-V4和搜索Agent评测Browsecomp中，千问3.5的表现均超越了Gemini 3 Pro和GPT-5.2。这说明它在使用工具、调用API这方面，已经比人类更熟练。

基于这种顶级的视觉和决策能力，阿里打通了从Agent框架到Agent应用的“最后一公里”。

千问3.5现在可以自主操作手机与电脑。

这不是简单的语音助手，而是真正像人一样去点击屏幕、拖拽文件。在移动端，它支持主流APP的复杂指令，比如“帮我点一杯以前常喝的拿铁，送到公司”；在PC端，它能处理跨应用的数据整理，比如“把微信里的表格下载下来，提取数据填到Excel里，再发邮件给老板”。

为了支撑这种大规模的智能体协作，千问团队构建了一个可扩展的Agent异步强化学习框架。

这个框架解决了以往Agent训练慢、协同难的问题，端到端速度加速了3到5倍。更重要的是，它将插件式智能体Agent的支持扩展到了百万级规模。

未来，无论是写代码、订机票，还是复杂的自动化工作流，千问3.5都能通过调用这百万级的插件库，精准匹配最合适的工具来完成任务。

阿里这次，确实是不讲武德。

当同行还在卷参数量、卷榜单分数时，千问3.5直接把战场拉到了“原生多模态”和“极致效率”的维度。更强的性能、更低的成本、更落地的Agent能力，这套组合拳下来，国产大模型的天花板，又被狠狠向上顶了一大截。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.