网易首页 > 网易号 > 正文 申请入驻

阿里卷疯了!Qwen3.5除夕悄悄发布,原生多模态吊打GPT-5.2

0
分享至



作者:小白

刚刚,大模型战局再次变天。

没有漫长的预热,阿里直接甩出王炸:通义千问Qwen3.5-Plus正式发布。

这一次,不仅仅是版本号的简单迭代,而是底层架构的彻底重构。与以往通过“视觉编码器+语言模型”拼接的缝合怪不同,千问3.5实现了真正的原生多模态(Native Multimodal)代际跃迁。

它不再是一个仅仅读过万卷书的“瞎子”,而是一个睁开眼看世界的全能天才。

数据更是吓人:在不到40%的参数量下,它硬是跑出了超过万亿参数基座Qwen3-Max的顶尖性能。在MMLU-Pro、GPQA等硬核评测中,直接按着GPT-5.2和Claude 4.5摩擦。更离谱的是,借助NeurIPS 2025最佳论文同款的门控技术,这颗397B的巨兽在推理时仅需激活17B参数,快得像个轻量级模型。

从纯文本到全模态,从聊天机器到能操控手机电脑的超级Agent,阿里这次不仅要卷死同行,还要重新定义什么才是“下一代大模型”。

一、 性能霸榜,千问3.5登顶全球第一梯队

这一代千问最核心的变化,在于“原生”二字。

回顾千问3,它还是在纯文本Tokens上进行预训练,视觉能力更多是“外挂”上去的。而千问3.5则是从零开始,基于视觉和文本混合Token进行预训练。这意味着模型在学习“苹果”这个概念时,不再只是通过文字描述,而是同时看到了红色的圆形物体、咬下去的清脆声音。

为了喂饱这个原生多模态大脑,阿里团队大幅新增了中英文、多语言、STEM(科学、技术、工程、数学)和复杂的推理数据。这种高密度的世界知识注入,让千问3.5的逻辑推理能力发生了质变。

直接看成绩单,全是硬碰硬的权威基准:

在考查极高难度知识推理的MMLU-Pro评测中,千问3.5拿下87.8分。这是什么概念?它已经超越了此前公认的霸主GPT-5.2。

在堪称“博士资格考”的GPQA测评中,千问3.5斩获88.4分,将Claude 4.5甩在身后。要知道,这个榜单的每一分提升,通常都需要数百亿参数的堆砌,而阿里用更巧的方法做到了。


指令遵循能力更是刷新纪录,在IFBench中拿到76.5分,意味着它不仅听得懂人话,还能极其精准地执行那些繁琐、复杂的各种约束条件,不再出现“听懂了但做不对”的幻觉。

原生多模态的优势在视觉任务上展现得淋漓尽致。

以往的模型在处理复杂数学图表或空间定位时往往会“眼花”,但千问3.5在MathVision(多模态推理)、RealWorldQA(通用视觉问答)以及CC_OCR(文本识别)等评测中全部斩获最佳性能。

特别是MLVU视频理解测试,千问3.5不再是“抽帧看图”,而是真正理解了视频中的时间流逝和因果关系。

二、 架构突变,397B参数跑出17B的极致效率

千问3.5性能暴涨的背后,不是单纯的“大力出奇迹”,而是对Transformer经典架构动了手术。

这就不得不提那个含金量极高的技术彩蛋:阿里团队自研的门控技术。这项成果刚刚斩获全球AI顶会2025 NeurIPS最佳论文,转头就被直接融入了千问3.5的血液里。

传统的MoE(混合专家模型)虽然快,但在超大规模下容易出现专家负载不均的问题。阿里团队结合了线性注意力机制(Linear Attention)与稀疏混合专家MoE架构,搞出了一套创新的混合架构。

这个架构最恐怖的地方在于极高的参数激活比

千问3.5的总参数量高达397B(3970亿),是一个不折不扣的庞然大物。但在实际推理时,它每次只需要激活17B参数。

这意味着用户享受着近4000亿参数模型带来的顶级智商,却只消耗了运行一个中型模型的算力成本。这种极致的“降本增效”,让它在Qwen3-Max面前也不落下风,甚至以不到40%的算力开销不仅追平了性能,还带来了推理速度的指数级飞跃。

长文本推理效率的提升更是肉眼可见:

在常用的32K上下文场景中,千问3.5的推理吞吐量直接提升了8.6倍

当上下文拉长到256K这种超长篇幅(比如扔进去几本小说或财报)时,Qwen3.5的优势更加夸张,吞吐量最大提升至19倍

过去处理长文档需要等上一杯咖啡的时间,现在几乎是秒出。对于需要处理海量文档的企业级应用来说,这简直是降维打击。


三、 Agent进化,从“对话者”变身“执行者”

如果说推理能力是大模型的大脑,那么Agent能力就是它的手脚。千问3.5在这一点上走得更远,它不再满足于陪你聊天,而是要帮你干活

在通用Agent评测BFCL-V4和搜索Agent评测Browsecomp中,千问3.5的表现均超越了Gemini 3 Pro和GPT-5.2。这说明它在使用工具、调用API这方面,已经比人类更熟练。

基于这种顶级的视觉和决策能力,阿里打通了从Agent框架到Agent应用的“最后一公里”。

千问3.5现在可以自主操作手机与电脑

这不是简单的语音助手,而是真正像人一样去点击屏幕、拖拽文件。在移动端,它支持主流APP的复杂指令,比如“帮我点一杯以前常喝的拿铁,送到公司”;在PC端,它能处理跨应用的数据整理,比如“把微信里的表格下载下来,提取数据填到Excel里,再发邮件给老板”。

为了支撑这种大规模的智能体协作,千问团队构建了一个可扩展的Agent异步强化学习框架

这个框架解决了以往Agent训练慢、协同难的问题,端到端速度加速了3到5倍。更重要的是,它将插件式智能体Agent的支持扩展到了百万级规模

未来,无论是写代码、订机票,还是复杂的自动化工作流,千问3.5都能通过调用这百万级的插件库,精准匹配最合适的工具来完成任务。

阿里这次,确实是不讲武德。

当同行还在卷参数量、卷榜单分数时,千问3.5直接把战场拉到了“原生多模态”和“极致效率”的维度。更强的性能、更低的成本、更落地的Agent能力,这套组合拳下来,国产大模型的天花板,又被狠狠向上顶了一大截。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
姐姐工作存了320万,二姑问存款她说4万二,姑:你弟弟买房你出钱

姐姐工作存了320万,二姑问存款她说4万二,姑:你弟弟买房你出钱

奶茶麦子
2026-02-16 22:51:13
难怪俄军进攻磨磨蹭蹭,和乌军交手4年,坦克装甲车损失3万多?

难怪俄军进攻磨磨蹭蹭,和乌军交手4年,坦克装甲车损失3万多?

嫹笔牂牂
2026-02-14 11:34:21
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
金牌难产,一天多个夺金点落空,预测中国队首金在19日诞生

金牌难产,一天多个夺金点落空,预测中国队首金在19日诞生

真理是我亲戚
2026-02-17 09:59:44
王毅好猛,台当局暴怒!日本外交部的一句话,可把中国网友乐坏了

王毅好猛,台当局暴怒!日本外交部的一句话,可把中国网友乐坏了

东极妙严
2026-02-16 15:32:03
庐山会议后,胡乔木评价彭德怀:若不赌气,情况可能不同一些

庐山会议后,胡乔木评价彭德怀:若不赌气,情况可能不同一些

谈古论今历史有道
2026-02-17 07:50:03
王菲水滴耳环再次出圈,网友立刻找到同款!窦靖童发文

王菲水滴耳环再次出圈,网友立刻找到同款!窦靖童发文

每日经济新闻
2026-02-17 00:23:36
新婚女子手臂成亮点,“满眼都是xxx”,难道新郎一点都不在乎?

新婚女子手臂成亮点,“满眼都是xxx”,难道新郎一点都不在乎?

仙仙先生
2026-01-30 09:35:22
美国跟不起了?美国摊牌,根本没有六代机,解放军歼40将无对手

美国跟不起了?美国摊牌,根本没有六代机,解放军歼40将无对手

蔺玄觞
2026-02-16 23:40:19
刘烨老婆,吴彦祖老婆,周华健老婆,明星的外籍妻子都老得好快啊

刘烨老婆,吴彦祖老婆,周华健老婆,明星的外籍妻子都老得好快啊

大铁猫娱乐
2025-12-31 15:25:40
最像人的人形机器人

最像人的人形机器人

喜之春
2026-02-13 07:09:48
央视春晚《贺花神》封神,秦岚、李沁、王楚然超美,没认出刘学义

央视春晚《贺花神》封神,秦岚、李沁、王楚然超美,没认出刘学义

娱君坠星河
2026-02-17 10:00:20
加代不给康哥面子,暴打兵部副总管!叶三哥维护代哥古俊山被革职

加代不给康哥面子,暴打兵部副总管!叶三哥维护代哥古俊山被革职

阿柒故事汇
2026-02-05 16:42:27
马英九言论引关注:统一最后时刻,大陆准备战争,台美需深思

马英九言论引关注:统一最后时刻,大陆准备战争,台美需深思

领悟看世界
2026-02-15 01:21:14
大众汽车大力降本增效,消息称到2028年所有品牌都要减少20%成本

大众汽车大力降本增效,消息称到2028年所有品牌都要减少20%成本

中国能源网
2026-02-17 09:55:37
同样练葵花宝典,为何东方不败超一流水平,岳不群、林平之却很菜

同样练葵花宝典,为何东方不败超一流水平,岳不群、林平之却很菜

武侠百晓生
2026-02-16 22:23:43
跟学历低的妹子谈恋爱是什么体验?如果你被她吸引,不妨放下预设

跟学历低的妹子谈恋爱是什么体验?如果你被她吸引,不妨放下预设

另子维爱读史
2026-01-09 22:06:39
三国最残酷的一场大战,魏死6个大将,蜀死5个大将,吴死3个大将

三国最残酷的一场大战,魏死6个大将,蜀死5个大将,吴死3个大将

铭记历史呀
2026-02-02 04:41:56
除夕夜,陈吉宁“四不两直”检查城市运行保障和节日值班值守,看望慰问一线工作人员

除夕夜,陈吉宁“四不两直”检查城市运行保障和节日值班值守,看望慰问一线工作人员

上观新闻
2026-02-16 23:47:07
“初一五不做,一年无灾祸”,大年初一哪5不做?

“初一五不做,一年无灾祸”,大年初一哪5不做?

乡村大营
2026-02-16 21:03:45
2026-02-17 10:48:49
IT小埋 incentive-icons
IT小埋
爱科技,爱生活,爱吃瓜
1218文章数 1485关注度
往期回顾 全部

科技要闻

春晚这些机器人是怎样做到的?

头条要闻

蔡磊一家三口出镜送祝福 儿子将手放在他手上轻轻抚摸

头条要闻

蔡磊一家三口出镜送祝福 儿子将手放在他手上轻轻抚摸

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

大年初一,这三件事很不寻常

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

数码
本地
房产
健康
公开课

数码要闻

Rosetta 2支持即将终结 苹果macOS Tahoe 26.4开始发出提示

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

房产要闻

三亚新机场,又传出新消息!

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版