网易首页 > 网易号 > 正文 申请入驻

千问 3.5,用第一性原理打破大模型的不可能三角

0
分享至

来源:市场资讯

(来源:极客公园)


性能、开源、性价比,千问 3.5 全都要。

作者|Cynthia

编辑|郑玄

大模型行业走到 2026 年,所有人都陷入了集体焦虑。

Scaling Law 的红利彻底见顶,万亿参数模型继续向上的边际收益无限趋近于零,行业陷入了参数越卷越高,落地越来越难的死循环;

闭源巨头牢牢把持着性能天花板,GPT、Claude 的 API 定价一涨再涨,顶级模型的使用成本,成了中小企业和开发者迈不过去的门槛。

开源模型始终跳不出性能追平闭源,就闭源收割;想要极致性价比,就要牺牲性能的怪圈。

久而久之,行业形成了一条无人敢质疑的铁律:顶级性能、完全开源、极致性价比,构成了大模型的不可能三角,三者最多选其二。

于是,一到年底,国内外的万亿参数模型就一个接一个发布,但普通企业是否用得上所谓的 SOTA 模型,却不在考虑范围。半年多时间,GPT、Claude 的定价也一涨再涨,哪怕作为顶级牛马的程序员,也需要公司报销,才用得起顶配 200 美金一月的 cursor 与 claude code。


直到,除夕当天阿里千问 Qwen3.5 的发布。

千问 3.5 总参数量仅 3970 亿,激活参数更是只有 170 亿,不到上一代万亿参数模型 Qwen3-Max 的四分之一,性能大幅提升、还顺带实现了原生多模态能力的代际跃迁。

而横向对比同行,千问 3.5 不仅是当下的开源大模型 SOTA,同时也在认知能力、指令遵循、通用 Agent 评测等方面超越了 GPT5.2、Claude 4.5、Gemini-3-Pro 等同期闭源模型。


但成本上,千问 3.5 也做到了每百万 Token 输入低至 0.8 元,是 GPT5.2 的 1/15、Gemini-3-pro 的 1/18。

那么,千问究竟如何做到的?答案藏在大模型的第一性原理中。

01

回到第一性原理,

千问 3.5 如何打破不可能三角?

大模型的第一性原理是什么?

过去三年,答案或许是 Scaling Law。包括上一代 Qwen3-Max,也是阿里是用 36T tokens 的海量预训练数据训练出的暴力美学的成果。

但时至今日,Scaling Law 攀升的代价,已经到了行业难以承受的临界点。紧随其后,架构创新成为新的行业关键词。

剥掉所有参数、算力、跑分的外衣,所有大模型的底层核心,都是 Transformer 架构的attention 注意力 + FFN 前馈网络双塔结构:前者决定了模型的理解能力,后者决定了模型的表达能力。而这两者,也是当前技术红利最集中的突破点。

先看决定理解能力的 attention 层。

一直以来,大模型长上下文落地的最大瓶颈,从来不是窗口能开多大,而是算力成本和性能的平衡。

传统 Transformer 的全局注意力机制,计算复杂度与上下文长度呈O (N²) 关系。翻译过来就是,上下文长度翻 10 倍,算力需求就要翻 100 倍。这就是为什么行业里很多模型号称能支持百万 token 上下文,却根本不敢开放商用:成本高到用户用不起,强行降价就要亏到吐血。

为了解决这个问题,行业做了无数尝试:线性注意力把复杂度降到了 O (N),却损失了长文本的推理精度;稀疏注意力只计算部分 token 的注意力,却无法解决全局语义依赖的问题,泛化能力大幅缩水。

而 千问 3.5 的解法,更像是人类思维模式在大模型上的迁移:既然人对不同事情可以有精力分配的不同,那么对大模型来说,也不是所有 token,都配得上同等的全局注意力。

基于这个最朴素的原理,千问团队打造了全局注意力 + 线性注意力的混合架构:

对非关键的冗余信息,采用线性注意力处理,把计算复杂度从 O (N²) 直接砍到 O (N),算力消耗呈指数级下降;

对核心语义、关键逻辑信息,保留标准全局注意力,保证模型的长文本依赖建模能力,推理精度几乎零损失。

这一改动,使得大模型在大幅减少算力消耗的同时,提升了输出的效率,并带来上下文窗口的大幅增加——千问 3.5 的上下文长度已经达到 1M token。约等于把刘慈欣的三体三部曲一起塞给模型,或者在每轮对话 500 字上下的基础上,支持 600~800 轮连续对话不遗忘。

如果说混合注意力解决了理解效率的问题,那么极致稀疏 MoE 架构,就解决了表达成本的痛点。

传统稠密大模型,架构出场天生就带着极致的浪费:不管你输入的是一句早上好,还是一篇十万字的行业报告,模型每次推理都要激活全部参数。

这就意味着,90% 以上的算力,都被白白浪费了。

MoE 混合专家架构的出现,就是把模型拆成多个专家子网络,内容进来,只激活最对口的那几个专家模型,不用全量参数跑一遍。

但行业里绝大多数的 MoE 模型,都陷入了两个死穴:要么专家路由效率低下,激活参数占比过高,成本下降有限;要么专家之间的协同能力不足,模型性能出现滑坡。

而 千问 3.5 的极致稀疏 MoE 架构,直接把这个路线的潜力榨到了极致:总参数量 3970 亿,单次推理的激活参数仅 170 亿,不到总参数的 5%,即可调动全部知识储备,顺便实现部署成本大降 60%,最大推理吞吐量可提升至 19 倍,

到这里,可能又有很多人会问,同样是混合注意力、MoE 架构,为什么只有千问能做到这个程度?

答案是,架构创新的潜力,必须靠全栈协同才能彻底释放。阿里独有的阿里云、平头哥自研芯片与千问模型全栈协同能力,是其他厂商根本无法复刻的核心壁垒。

其中,阿里云的 AI 基础设施,为 文本 + 视觉混合预训练数据,提供了稳定、高效的算力支撑,让大规模的架构创新实验得以落地。

平头哥真武 810 芯片,针对 MoE 架构、混合注意力机制做了专项优化,能充分发挥集群算力效率,进一步把模型训练和推理的效率拉到极致。

千问团队的模型架构创新,又反过来给云基础设施、芯片的优化指明了方向,形成了正向循环的闭环。

也正是这套闭环,让千问 3.5 的价格能进一步探底,把 API 成本压到 0.8 元/百万 Token,彻底打破了国外模型的价格垄断,让 sota 模型成为人人可用,阿里云上用的成本还能更低的普惠存在,也让不可能三角成为可能。

02

千问 3.5,全民友好型模型如何练成的?

很多人会问:千问 3.5 把成本打下来,是不是就会牺牲了推理性能?

恰恰相反,千问 3.5 最亮眼的地方就在于,它实现极致性价比的同时,也把性能和体验,拉到了行业的新高度。

对普通用户来说,最直观的体验升级,就是即使用 sota 模型,也能享受流畅的生成体验。

过去,为了给模型生成提速,大部分团队都是在推理阶段加个投机采样的补丁,先猜后面的内容,猜对了就快一点,猜错了就回滚,结果就是要么快但容易错,要么准但还是慢。

而千问 3.5 的解法,是从训练阶段就原生支持多 Token 联合预测,让模型从一个字一个字地想,进化成一次想好几步再说。这个过程类似于人类说话,先想好完整的语义,然后在表达的过程中组织连贯的语言。

这对长文本生成、代码补全、多轮对话等高频场景带来的是质变的体验升级:问一个复杂的科普问题,10 秒内就能给出连贯的回答;写一篇千字短文,几秒就能生成初稿。

另一个被彻底解决的痛点,是大模型的上下文腐烂问题。

过去,大模型输入上下文越长,就会让模型的注意力越分散,有效信息被无效噪声淹没,输出质量直线下降。一个完整的长内容,模型往往只会注意到开头和结尾的内容,中间的关键信息被忽略,或者多轮对话之后,它会忘记你最初的问题或者要求。

针对这个痛点,Qwen3.5 对模型做了系统级的训练稳定性优化,其中最核心的,就是阿里千问团队斩获NeurIPS 2025 最佳论文奖的注意力门控机制。

这个机制,本质上是在注意力层的输出端,加了一个智能降噪开关:它能根据信息的重要程度,智能调控信息的传递,有效信息被放大,无效信息被过滤。

最终的结果是,哪怕是在 1M token 的超长上下文下,模型依然能精准记住所有的关键信息,开发者不用再把长文档拆成十几段反复投喂,用户不用再把需求翻来覆去重复三遍,百万级上下文的全量信息精准调用,终于成为了现实。

除了这些核心痛点的解决,千问 3.5 的细节升级,覆盖了从个人用户到企业开发者的全维度需求。

比如,它首次把支持的语言扩展到了 201 种,预训练数据里大幅新增了中英文、多语言、STEM 和推理类数据,不管是小语种的精准翻译,还是复杂的数理化博士级难题,都能轻松应对。

测试案例:STEM 表现

在 Agent 能力上,千问 3.5 同样实现了生产级的跨越式提升。目前,千问 3.5 在移动端已经与多个主流 APP 与指令打通,PC 端则能处理跨应用数据整理、自动化流程执行等复杂多步骤操作。

更关键的是,千问团队构建了可扩展的 Agent 异步强化学习框架,端到端速度可加速 3 到 5 倍,并将基于插件的智能体支持扩展至百万级规模,为后续 Agent 的规模化落地打下了基础。

如果说其他模型,还停留在开发者友好型,那么千问 3.5,就是全民友好型。它既照顾了开发者对成本、效率的需求,也兼顾了普通用户对体验的期待,让大模型真正走进了日常生活,而不是停留在实验室里的黑科技。

03

原生多模态,

千问 3.5 开始能读懂复杂世界

如果说性能、成本、体验的全面升级,是千问 3.5 在解决当下大模型落地过程中的困境,那么统一多模态,就是 千问 3.5 把大模型推向 AGI 的重要一步探索。

长期以来,业界都有一个共识:统一多模态,是通往通用人工智能(AGI)的必经之路。但直到今天,行业里绝大多数的多模态模型,都还是伪多模态:先训好一个纯语言大模型,再外挂一个视觉编码器,靠适配层把两个模块粘在一起,本质上就是两个语言不通的人靠翻译聊天,信息传递必然出现折损。

千问 3.5 的不同之处在于,从预训练第一天起,就是在文本+视觉混合数据上联合学习,让视觉与语言在统一的参数空间内深度融合。

简单说,它看到一张图,就能自然理解图中的语义,不用先把图像转换成文本再进行理解;读到一段文字,就能在脑中构建出对应的画面,就像人一样,真正具备了跨模态的直觉理解力。

测试案例:输入一张电影截图,千问 3.5 就能生成图文并茂的电影解析

为了实现这种原生的多模态融合,千问 3.5 对整个训练架构都做了革新:它让视觉和语言模态,各走各的最优路径,只在关键节点上高效汇合,既保证了两个模态各自的性能上限,又实现了真正的协同工作,大幅提升了多模态混合训练的效率。

这种原生融合的架构,带来的是视觉能力的飞跃式提升:在多模态推理(MathVison)、通用视觉问答 VQA(RealWorldQA)、文本识别和文件理解(CC_OCR)、空间智能(RefCOCO-avg)、视频理解(MLVU)等众多权威评测中,Qwen3.5 均斩获最佳性能,碾压同类开源模型,甚至比肩顶级闭源模型。

测试案例:通用视觉问答

还有一个容易被忽略,却至关重要的细节优化,是精度策略的设计:千问 3.5 采用了 FP8/FP32 的精度策略,在保证模型性能零损失的前提下,把激活内存减少了约 50%,训练速度提升了 10%。更关键的是,这套方案被统一部署到了强化学习训练和推理的全流程里,全面降低了多模态模型扩展的成本和复杂度。

这些性能提升,最终都转化成了实实在在的生产力:

在学科解题、空间推理上,它比千问此前的专项多模态模型 Qwen3-VL 表现还要更优,空间定位、带图推理的精度大幅提升。

在视频理解上,它支持长达 2 小时的视频直接输入,刚好对应 1M token 的上下文窗口,会议录像、课程视频、直播素材,一次性投喂就能完成核心内容提取、脚本生成、待办梳理。

通过视觉与代码的原生融合,手绘的 APP 界面草图,也能直接转化为可运行的前端代码;机械图纸、建筑结构图、几何题目,全都能精准拆解空间关系、完成推理计算。

测试案例:复杂网页生成

而这,也是让大模型从能聊天的工具,变成看懂现实世界的基座,最终通往 AGI 乃至 ASI 的关键一步。

04

尾声

如果说架构与多模态的创新,让 千问 3.5 打破了不可能三角的技术枷锁,那么开源生态,让千问 3.5 彻底颠覆了行业对开源模型的固有偏见。

在此之前,开源模型在行业里的定位,永远是闭源模型的替代品:性能追不上闭源,体验打不过闭源,只能作为开发者的练手工具,无法进入核心生产环境。

现在千问 3.5 的问世,彻底打破了这种偏见——它用开源的身份,实现了超越同级闭源模型的性能,再加上极致的性价比和完善的生态支持,让开源、高性价比、最强的不可能三角成为可能。

一组可验证的数据,足以证明千问开源生态的行业影响力:截至目前,阿里已开源 400 余个千问模型,覆盖全尺寸、全模态、全场景,全球下载量突破 10 亿次;全球开发者基于千问开发的衍生模型超 20 万个。

而站在千问生态的肩膀上,中小企业不用再为顶级模型的 API 支付高昂的费用,用极低的成本就能落地自己的 AI 应用;

个人开发者不用再被闭源模型的商用权限锁死,基于开源的千问 3.5,就能打造创新的 AI 产品;

科研机构不用再重复造轮子,基于开源的底座,就能专注于前沿技术的创新。

从此,AI 不再是巨头的专属游戏,而是变成了全行业、全开发者都能参与的创新浪潮。

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待千问 3.5 ?


黄仁勋:我从来都不带手表,我习惯于等事情自然发生。

点赞关注极客公园视频号,

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
除夕夜,陈吉宁“四不两直”检查城市运行保障和节日值班值守,看望慰问一线工作人员

除夕夜,陈吉宁“四不两直”检查城市运行保障和节日值班值守,看望慰问一线工作人员

澎湃新闻
2026-02-16 23:38:28
他是原副总理,1975年被永远开除党籍,1979年当选为副主席

他是原副总理,1975年被永远开除党籍,1979年当选为副主席

老范谈史
2026-02-13 08:38:33
黄晓明连发5条微博!公开力挺杨幂、刘诗诗、沈腾、吴京、易烊千玺、朱一龙、王鹤棣……

黄晓明连发5条微博!公开力挺杨幂、刘诗诗、沈腾、吴京、易烊千玺、朱一龙、王鹤棣……

极目新闻
2026-02-15 11:29:03
苏州太湖新城,房价从2015年8600涨到28600,当前价格回落盘整

苏州太湖新城,房价从2015年8600涨到28600,当前价格回落盘整

石辰搞笑日常
2026-02-16 20:22:57
马年春晚节目好尴尬,语言类节目一塌糊涂,热巴因妆容上热

马年春晚节目好尴尬,语言类节目一塌糊涂,热巴因妆容上热

辣条叨叨叨
2026-02-16 23:21:48
中国旅客不去日本!外媒曝25万大军“改冲这国”,刷爆3.3亿美元不手软

中国旅客不去日本!外媒曝25万大军“改冲这国”,刷爆3.3亿美元不手软

星岛记事
2026-02-14 14:18:00
大部分成年人根本没心情过年!

大部分成年人根本没心情过年!

黯泉
2026-02-16 21:38:07
这个乌克兰亿万富翁没有逃跑,他的部队在库皮扬斯克重创普京

这个乌克兰亿万富翁没有逃跑,他的部队在库皮扬斯克重创普京

无所畏惧之人
2026-01-18 10:40:04
央视春晚王菲备受关注,亮相后眉毛被吐槽!复刻95年妆容冲上热搜

央视春晚王菲备受关注,亮相后眉毛被吐槽!复刻95年妆容冲上热搜

白宸侃片
2026-02-17 05:09:43
为什么这5样“电器”突然没人买了?缺点太多了,白送都没人要!

为什么这5样“电器”突然没人买了?缺点太多了,白送都没人要!

家居设计师苏哥
2025-12-27 14:36:28
2月14日俄乌最新:历史性的演讲

2月14日俄乌最新:历史性的演讲

西楼饮月
2026-02-14 16:44:27
何晴之子许何发文回应:父亲许亚军跟继母张澍才是妈妈最大的依靠

何晴之子许何发文回应:父亲许亚军跟继母张澍才是妈妈最大的依靠

民间平哥
2026-01-14 16:22:37
世体:CTA认定维尼修斯对皇社第二粒点球是误判,VAR可能受罚

世体:CTA认定维尼修斯对皇社第二粒点球是误判,VAR可能受罚

懂球帝
2026-02-17 00:46:11
山西天星能源产业集团及董事长武强发布严正声明 信息量巨大堪比商战电视剧!

山西天星能源产业集团及董事长武强发布严正声明 信息量巨大堪比商战电视剧!

创作者_IE2295
2026-02-16 21:29:01
宇树机器人亮相2026总台春晚,大秀武术、跑酷

宇树机器人亮相2026总台春晚,大秀武术、跑酷

IT之家
2026-02-16 21:29:44
被打脸!除夕,《匿杀》等票房要哭,《镖人》等预售破5亿!

被打脸!除夕,《匿杀》等票房要哭,《镖人》等预售破5亿!

星夜涟漪
2026-02-17 02:13:30
笑死!老一辈总能精准找到最贵的随手用,网友:简直一模一样

笑死!老一辈总能精准找到最贵的随手用,网友:简直一模一样

夜深爱杂谈
2025-12-19 15:40:30
不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

凡知
2025-08-16 09:25:44
看一下台独分子“吴思瑶”家庭情况及背景!

看一下台独分子“吴思瑶”家庭情况及背景!

达文西看世界
2026-02-15 19:37:44
原来春晚才是中国人的《黑镜》

原来春晚才是中国人的《黑镜》

果壳
2026-02-16 12:09:35
2026-02-17 06:27:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2224282文章数 5489关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

体育要闻

短道男子接力半决赛失误后 刘少昂多次说"抱歉"

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

亲子
数码
家居
本地
公开课

亲子要闻

小孩收到压岁钱,该怎么办?枕头底下垫红包

数码要闻

苹果可能多年不会对iPad Pro进行重大升级

家居要闻

中古雅韵 乐韵伴日常

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版