网易首页 > 网易号 > 正文 申请入驻

千问 3.5,用第一性原理打破大模型的不可能三角

0
分享至


性能、开源、性价比,千问 3.5 全都要。


作者|Cynthia

编辑|郑玄

大模型行业走到 2026 年,所有人都陷入了集体焦虑。

Scaling Law 的红利彻底见顶,万亿参数模型继续向上的边际收益无限趋近于零,行业陷入了参数越卷越高,落地越来越难的死循环;

闭源巨头牢牢把持着性能天花板,GPT、Claude 的 API 定价一涨再涨,顶级模型的使用成本,成了中小企业和开发者迈不过去的门槛。

开源模型始终跳不出性能追平闭源,就闭源收割;想要极致性价比,就要牺牲性能的怪圈。

久而久之,行业形成了一条无人敢质疑的铁律:顶级性能、完全开源、极致性价比,构成了大模型的不可能三角,三者最多选其二

于是,一到年底,国内外的万亿参数模型就一个接一个发布,但普通企业是否用得上所谓的 SOTA 模型,却不在考虑范围。半年多时间,GPT、Claude 的定价也一涨再涨,哪怕作为顶级牛马的程序员,也需要公司报销,才用得起顶配 200 美金一月的 cursor 与 claude code。


直到,除夕当天阿里千问 Qwen3.5 的发布。

千问 3.5 总参数量仅 3970 亿,激活参数更是只有 170 亿,不到上一代万亿参数模型 Qwen3-Max 的四分之一,性能大幅提升、还顺带实现了原生多模态能力的代际跃迁。

而横向对比同行,千问 3.5 不仅是当下的开源大模型 SOTA,同时也在认知能力、指令遵循、通用 Agent 评测等方面超越了 GPT5.2、Claude 4.5、Gemini-3-Pro 等同期闭源模型。


但成本上,千问 3.5 也做到了每百万 Token 输入低至 0.8 元,是 GPT5.2 的 1/15、Gemini-3-pro 的 1/18。

那么,千问究竟如何做到的?答案藏在大模型的第一性原理中。

01

回到第一性原理,

千问 3.5 如何打破不可能三角?

大模型的第一性原理是什么?

过去三年,答案或许是 Scaling Law。包括上一代 Qwen3-Max,也是阿里是用 36T tokens 的海量预训练数据训练出的暴力美学的成果。

但时至今日,Scaling Law 攀升的代价,已经到了行业难以承受的临界点。紧随其后,架构创新成为新的行业关键词。

剥掉所有参数、算力、跑分的外衣,所有大模型的底层核心,都是 Transformer 架构的attention 注意力 + FFN 前馈网络双塔结构:前者决定了模型的理解能力,后者决定了模型的表达能力。而这两者,也是当前技术红利最集中的突破点。

先看决定理解能力的 attention 层。

一直以来,大模型长上下文落地的最大瓶颈,从来不是窗口能开多大,而是算力成本和性能的平衡。

传统 Transformer 的全局注意力机制,计算复杂度与上下文长度呈O (N²) 关系。翻译过来就是,上下文长度翻 10 倍,算力需求就要翻 100 倍。这就是为什么行业里很多模型号称能支持百万 token 上下文,却根本不敢开放商用:成本高到用户用不起,强行降价就要亏到吐血。

为了解决这个问题,行业做了无数尝试:线性注意力把复杂度降到了 O (N),却损失了长文本的推理精度;稀疏注意力只计算部分 token 的注意力,却无法解决全局语义依赖的问题,泛化能力大幅缩水。

而 千问 3.5 的解法,更像是人类思维模式在大模型上的迁移:既然人对不同事情可以有精力分配的不同,那么对大模型来说,也不是所有 token,都配得上同等的全局注意力。

基于这个最朴素的原理,千问团队打造了全局注意力 + 线性注意力的混合架构

对非关键的冗余信息,采用线性注意力处理,把计算复杂度从 O (N²) 直接砍到 O (N),算力消耗呈指数级下降;

对核心语义、关键逻辑信息,保留标准全局注意力,保证模型的长文本依赖建模能力,推理精度几乎零损失。

这一改动,使得大模型在大幅减少算力消耗的同时,提升了输出的效率,并带来上下文窗口的大幅增加——千问 3.5 的上下文长度已经达到 1M token。约等于把刘慈欣的三体三部曲一起塞给模型,或者在每轮对话 500 字上下的基础上,支持 600~800 轮连续对话不遗忘。

如果说混合注意力解决了理解效率的问题,那么极致稀疏 MoE 架构,就解决了表达成本的痛点。

传统稠密大模型,架构出场天生就带着极致的浪费:不管你输入的是一句早上好,还是一篇十万字的行业报告,模型每次推理都要激活全部参数。

这就意味着,90% 以上的算力,都被白白浪费了。

MoE 混合专家架构的出现,就是把模型拆成多个专家子网络,内容进来,只激活最对口的那几个专家模型,不用全量参数跑一遍。

但行业里绝大多数的 MoE 模型,都陷入了两个死穴:要么专家路由效率低下,激活参数占比过高,成本下降有限;要么专家之间的协同能力不足,模型性能出现滑坡。

而 千问 3.5 的极致稀疏 MoE 架构,直接把这个路线的潜力榨到了极致:总参数量 3970 亿,单次推理的激活参数仅 170 亿,不到总参数的 5%,即可调动全部知识储备,顺便实现部署成本大降 60%,最大推理吞吐量可提升至 19 倍,

到这里,可能又有很多人会问,同样是混合注意力、MoE 架构,为什么只有千问能做到这个程度

答案是,架构创新的潜力,必须靠全栈协同才能彻底释放。阿里独有的阿里云、平头哥自研芯片与千问模型全栈协同能力,是其他厂商根本无法复刻的核心壁垒。

其中,阿里云的 AI 基础设施,为 文本 + 视觉混合预训练数据,提供了稳定、高效的算力支撑,让大规模的架构创新实验得以落地。

平头哥真武 810 芯片,针对 MoE 架构、混合注意力机制做了专项优化,能充分发挥集群算力效率,进一步把模型训练和推理的效率拉到极致。

千问团队的模型架构创新,又反过来给云基础设施、芯片的优化指明了方向,形成了正向循环的闭环。

也正是这套闭环,让千问 3.5 的价格能进一步探底,把 API 成本压到 0.8 元/百万 Token,彻底打破了国外模型的价格垄断,让 sota 模型成为人人可用,阿里云上用的成本还能更低的普惠存在,也让不可能三角成为可能。

02

千问 3.5,全民友好型模型如何练成的?

很多人会问:千问 3.5 把成本打下来,是不是就会牺牲了推理性能?

恰恰相反,千问 3.5 最亮眼的地方就在于,它实现极致性价比的同时,也把性能和体验,拉到了行业的新高度。

对普通用户来说,最直观的体验升级,就是即使用 sota 模型,也能享受流畅的生成体验。

过去,为了给模型生成提速,大部分团队都是在推理阶段加个投机采样的补丁,先猜后面的内容,猜对了就快一点,猜错了就回滚,结果就是要么快但容易错,要么准但还是慢。

而千问 3.5 的解法,是从训练阶段就原生支持多 Token 联合预测,让模型从一个字一个字地想,进化成一次想好几步再说。这个过程类似于人类说话,先想好完整的语义,然后在表达的过程中组织连贯的语言。

这对长文本生成、代码补全、多轮对话等高频场景带来的是质变的体验升级:问一个复杂的科普问题,10 秒内就能给出连贯的回答;写一篇千字短文,几秒就能生成初稿。

另一个被彻底解决的痛点,是大模型的上下文腐烂问题。

过去,大模型输入上下文越长,就会让模型的注意力越分散,有效信息被无效噪声淹没,输出质量直线下降。一个完整的长内容,模型往往只会注意到开头和结尾的内容,中间的关键信息被忽略,或者多轮对话之后,它会忘记你最初的问题或者要求。

针对这个痛点,Qwen3.5 对模型做了系统级的训练稳定性优化,其中最核心的,就是阿里千问团队斩获NeurIPS 2025 最佳论文奖的注意力门控机制。

这个机制,本质上是在注意力层的输出端,加了一个智能降噪开关:它能根据信息的重要程度,智能调控信息的传递,有效信息被放大,无效信息被过滤。

最终的结果是,哪怕是在 1M token 的超长上下文下,模型依然能精准记住所有的关键信息,开发者不用再把长文档拆成十几段反复投喂,用户不用再把需求翻来覆去重复三遍,百万级上下文的全量信息精准调用,终于成为了现实。

除了这些核心痛点的解决,千问 3.5 的细节升级,覆盖了从个人用户到企业开发者的全维度需求。

比如,它首次把支持的语言扩展到了 201 种,预训练数据里大幅新增了中英文、多语言、STEM 和推理类数据,不管是小语种的精准翻译,还是复杂的数理化博士级难题,都能轻松应对。

测试案例:STEM 表现

在 Agent 能力上,千问 3.5 同样实现了生产级的跨越式提升。目前,千问 3.5 在移动端已经与多个主流 APP 与指令打通,PC 端则能处理跨应用数据整理、自动化流程执行等复杂多步骤操作。

更关键的是,千问团队构建了可扩展的 Agent 异步强化学习框架,端到端速度可加速 3 到 5 倍,并将基于插件的智能体支持扩展至百万级规模,为后续 Agent 的规模化落地打下了基础。

如果说其他模型,还停留在开发者友好型,那么千问 3.5,就是全民友好型。它既照顾了开发者对成本、效率的需求,也兼顾了普通用户对体验的期待,让大模型真正走进了日常生活,而不是停留在实验室里的黑科技。

03

原生多模态,

千问 3.5 开始能读懂复杂世界

如果说性能、成本、体验的全面升级,是千问 3.5 在解决当下大模型落地过程中的困境,那么统一多模态,就是 千问 3.5 把大模型推向 AGI 的重要一步探索。

长期以来,业界都有一个共识:统一多模态,是通往通用人工智能(AGI)的必经之路。但直到今天,行业里绝大多数的多模态模型,都还是伪多模态:先训好一个纯语言大模型,再外挂一个视觉编码器,靠适配层把两个模块粘在一起,本质上就是两个语言不通的人靠翻译聊天,信息传递必然出现折损。

千问 3.5 的不同之处在于,从预训练第一天起,就是在文本+视觉混合数据上联合学习,让视觉与语言在统一的参数空间内深度融合。

简单说,它看到一张图,就能自然理解图中的语义,不用先把图像转换成文本再进行理解;读到一段文字,就能在脑中构建出对应的画面,就像人一样,真正具备了跨模态的直觉理解力。

测试案例:输入一张电影截图,千问 3.5 就能生成图文并茂的电影解析

为了实现这种原生的多模态融合,千问 3.5 对整个训练架构都做了革新:它让视觉和语言模态,各走各的最优路径,只在关键节点上高效汇合,既保证了两个模态各自的性能上限,又实现了真正的协同工作,大幅提升了多模态混合训练的效率。

这种原生融合的架构,带来的是视觉能力的飞跃式提升:在多模态推理(MathVison)、通用视觉问答 VQA(RealWorldQA)、文本识别和文件理解(CC_OCR)、空间智能(RefCOCO-avg)、视频理解(MLVU)等众多权威评测中,Qwen3.5 均斩获最佳性能,碾压同类开源模型,甚至比肩顶级闭源模型。

测试案例:通用视觉问答

还有一个容易被忽略,却至关重要的细节优化,是精度策略的设计:千问 3.5 采用了 FP8/FP32 的精度策略,在保证模型性能零损失的前提下,把激活内存减少了约 50%,训练速度提升了 10%。更关键的是,这套方案被统一部署到了强化学习训练和推理的全流程里,全面降低了多模态模型扩展的成本和复杂度。

这些性能提升,最终都转化成了实实在在的生产力:

在学科解题、空间推理上,它比千问此前的专项多模态模型 Qwen3-VL 表现还要更优,空间定位、带图推理的精度大幅提升。

在视频理解上,它支持长达 2 小时的视频直接输入,刚好对应 1M token 的上下文窗口,会议录像、课程视频、直播素材,一次性投喂就能完成核心内容提取、脚本生成、待办梳理。

通过视觉与代码的原生融合,手绘的 APP 界面草图,也能直接转化为可运行的前端代码;机械图纸、建筑结构图、几何题目,全都能精准拆解空间关系、完成推理计算。

测试案例:复杂网页生成

而这,也是让大模型从能聊天的工具,变成看懂现实世界的基座,最终通往 AGI 乃至 ASI 的关键一步。

04

尾声

如果说架构与多模态的创新,让 千问 3.5 打破了不可能三角的技术枷锁,那么开源生态,让千问 3.5 彻底颠覆了行业对开源模型的固有偏见。

在此之前,开源模型在行业里的定位,永远是闭源模型的替代品:性能追不上闭源,体验打不过闭源,只能作为开发者的练手工具,无法进入核心生产环境。

现在千问 3.5 的问世,彻底打破了这种偏见——它用开源的身份,实现了超越同级闭源模型的性能,再加上极致的性价比和完善的生态支持,让开源、高性价比、最强的不可能三角成为可能。

一组可验证的数据,足以证明千问开源生态的行业影响力:截至目前,阿里已开源 400 余个千问模型,覆盖全尺寸、全模态、全场景,全球下载量突破 10 亿次;全球开发者基于千问开发的衍生模型超 20 万个。

而站在千问生态的肩膀上,中小企业不用再为顶级模型的 API 支付高昂的费用,用极低的成本就能落地自己的 AI 应用;

个人开发者不用再被闭源模型的商用权限锁死,基于开源的千问 3.5,就能打造创新的 AI 产品;

科研机构不用再重复造轮子,基于开源的底座,就能专注于前沿技术的创新。

从此,AI 不再是巨头的专属游戏,而是变成了全行业、全开发者都能参与的创新浪潮。

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待千问 3.5 ?


黄仁勋:我从来都不带手表,我习惯于等事情自然发生。

点赞关注极客公园视频号,


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法国专家:中国电力已经让世界畏惧!为何中国人自己却浑然不知?

法国专家:中国电力已经让世界畏惧!为何中国人自己却浑然不知?

行者聊官
2026-01-23 09:26:28
春晚主持人比拼!龙洋口红没涂匀 刘心悦风格像董卿 小尼满脸是眼

春晚主持人比拼!龙洋口红没涂匀 刘心悦风格像董卿 小尼满脸是眼

安海客
2026-02-16 20:38:40
天空:海廷加等3名助教离开热刺,图多尔带了自己的教练组

天空:海廷加等3名助教离开热刺,图多尔带了自己的教练组

懂球帝
2026-02-16 23:00:17
狗粮!杨瀚森晒与漂亮女友共度情人节,搂着女友蜂腰脸贴着脸秀恩爱

狗粮!杨瀚森晒与漂亮女友共度情人节,搂着女友蜂腰脸贴着脸秀恩爱

818体育
2026-02-16 17:54:07
蔡磊近照曝光,一家三口送新年祝福!曾称科研实现多维突破

蔡磊近照曝光,一家三口送新年祝福!曾称科研实现多维突破

南方都市报
2026-02-16 21:41:43
成吉思汗打败花剌子模时,俘虏女人50万,后来是如何处置的?

成吉思汗打败花剌子模时,俘虏女人50万,后来是如何处置的?

铭记历史呀
2026-02-11 12:13:17
郑智携8教练上任,黄博文辅助 西海岸签4大U21新星 培养下个李昊

郑智携8教练上任,黄博文辅助 西海岸签4大U21新星 培养下个李昊

替补席看球
2026-02-16 15:43:14
春晚这一幕,太震撼!宇树机器人,进化就像开了倍速!

春晚这一幕,太震撼!宇树机器人,进化就像开了倍速!

都市快报橙柿互动
2026-02-16 21:38:19
美防长怒不可遏,美国特警被四川女警轻松甩开

美防长怒不可遏,美国特警被四川女警轻松甩开

奇思妙想生活家
2026-02-16 04:50:28
结节8年从3mm到浸润癌!我跑遍北上广,最终败给了时间…

结节8年从3mm到浸润癌!我跑遍北上广,最终败给了时间…

王二哥老搞笑
2026-02-14 15:04:59
豆包暂停视频通话功能

豆包暂停视频通话功能

上观新闻
2026-02-16 17:25:04
全明星正赛总得分王:詹姆斯力压科比领跑,哈登挤掉保罗上榜

全明星正赛总得分王:詹姆斯力压科比领跑,哈登挤掉保罗上榜

谢说篮球
2026-02-16 15:40:03
重庆小伙怕堵车,开飞机从成都回老家:油费花了200元,飞机是120万买的

重庆小伙怕堵车,开飞机从成都回老家:油费花了200元,飞机是120万买的

大象新闻
2026-02-16 11:51:03
前中兴副总:中国采用穷举法跟美国打科技战,把整个产业链全干光

前中兴副总:中国采用穷举法跟美国打科技战,把整个产业链全干光

无情有思可
2026-02-12 08:19:46
一夜输光、跳楼身亡!2月15日中国驻岘港总领馆紧急警告

一夜输光、跳楼身亡!2月15日中国驻岘港总领馆紧急警告

小虎新车推荐员
2026-02-16 19:44:15
毛主席对尼泊尔首相说:你想把珠峰全部划归贵国?还有更好的办法

毛主席对尼泊尔首相说:你想把珠峰全部划归贵国?还有更好的办法

鹤羽说个事
2025-10-30 15:53:46
阿斯利康全新机制降压药在华申报上市

阿斯利康全新机制降压药在华申报上市

医药魔方
2026-02-13 11:18:45
又一车企业绩暴跌!

又一车企业绩暴跌!

电动知家
2026-02-14 11:34:01
国乒6人组或已锁定洛杉矶!孙颖莎樊振东领衔,混双双保险稳了

国乒6人组或已锁定洛杉矶!孙颖莎樊振东领衔,混双双保险稳了

郝小小看体育
2026-02-15 23:01:59
2026除夕祝福语,句句暖心,句句走心,挑一句惊艳你的朋友圈

2026除夕祝福语,句句暖心,句句走心,挑一句惊艳你的朋友圈

无情有思ss
2026-02-16 08:45:20
2026-02-16 23:16:49
极客公园
极客公园
让最棒的创新成为头条
11805文章数 78761关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

伊朗抛出新谈判手段:联合开发油气田 采购美民用飞机

头条要闻

伊朗抛出新谈判手段:联合开发油气田 采购美民用飞机

体育要闻

遭针对?谷爱凌炮轰国际雪联安排

娱乐要闻

2026春晚开始 蔡明和机器人蔡明同框

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

旅游
教育
时尚
亲子
军事航空

旅游要闻

上海:短途年夜饭线路集中出发 重塑新春团圆体验

教育要闻

国家急需20万“造芯人”!高中生选对这5个专业,毕业即抢手

记录最近收获很大的一次深度链接

亲子要闻

非常赞同!自己在家人的不耐下被迫变聪明!网友:这样对大家都好

军事要闻

慕安会美国角色逆转 中国议题"打满全场"

无障碍浏览 进入关怀版