网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

华为新架构砍了Transformer大动脉！任意模型推理能力原地飙升

2025-12-06 21:41:29　来源: 量子位

北京举报

0

分享至

金磊发自凹非寺
量子位 | 公众号 QbitAI

是时候给Transformer的大动脉动刀子了。

因为即便它享有当下AI世界基石的地位，但自身问题也是非常明显：

一旦遇到复杂的数学题或者需要多步逻辑推理的时候，就开始一本正经地胡说八道了……

问题究竟出在了哪里？

答案就藏在Transformer的核心机制里——Attention。

传统Attention机制本质上像是一种配对比较：每个词只和另一个词直接发生关系，生成一个注意力权重。

这种架构虽然擅长捕捉长距离依赖，但在建模复杂、多跳、多点之间的逻辑关系时却显得力不从心了。

例如它能轻松理解“A认识B”，但如果要它理解“张三通过李四认识了王五”，即多跳、多点之间的复杂、间接关系，它的脑回路就显得不够深，推理能力的天花板瞬间触顶。

现在，这个天花板，被华为诺亚方舟实验室捅破了！

因为就在最近，团队祭出了一种全新架构，叫做Nexus，即高阶注意力机制（Higher-Order Attention Mechanism）。

它可以说是直接狙击了Attention机制的核心痛点，使用更高阶注意力，就能有效地建模多跳、多点之间的复杂关联。

并且从实验结果来看，效果也是有点惊艳在身上的。

只要换上Nexus这个新架构，模型在数学和科学等复杂推理任务上的能力，都能立马实现大幅飙升，而且还是参数零增的那种。

妙哉，着实妙哉。

接下来，就让我们一同来深入了解一下Nexus的精妙一刀。

高阶注意力机制砍出的精妙一刀

要理解高阶的意义，我们必须先回顾传统自注意力机制的根本缺陷。

标准的自注意力机制本质上是将输入序列X分别通过三个线性变换WQ，WK，WV生成Query（Q）、Key（K）、Value（V），再通过softmax计算注意力权重：

但这里就出现了一个关键的问题：Q和K都是静态的、与上下文无关的线性投影。

也就是说，某个token的Query向量仅由它自己决定，无法感知其他token的存在；这导致注意力权重只能反映两两之间的直接关系。

精妙第一刀：Q和K的革新

华为诺亚方舟实验室的第一个刀法，就精妙地砍在了这里：Nexus让Q和K的生成过程本身也变成一个注意力操作。

换句话说，token在计算最终的Q和K之前，会先进行一次“预推理”；这个过程，其实就是一个嵌套的自注意力机制。

Token首先通过这个内部循环，从全局上下文中聚合信息，形成一个更加精炼、更具上下文感知能力的表示，然后再用这个表示去计算最终的Q和K。

这就好比，在你问我答（Q和K计算Attention）之前，每个token都先在内部进行了深思熟虑，充分吸收了它在整个序列中的环境信息。

这样生成的Q和K，自然就摆脱了线性投影的僵硬，具备了捕捉复杂关系的动态性。

精妙第二刀：巧用递归框架

Nexus架构最精妙之处，还在于它的递归框架（Recursive Framework）。

这个内部注意力循环可以被递归地来嵌套。

如果我们将一层Attention视为一阶关系（A认识B），那么将Attention的输出作为下一层Attention的输入，就可以构建二阶关系（张三通过李四认识王五），乃至更高阶的关系。

在Nexus中，这种递归嵌套被巧妙地集成在一个单层结构中，形成了一个层次化的推理链。

论文进一步将上述过程递归化，定义第m阶注意力为：

其中，m=1就是标准注意力；m=2表示Q和K由一次内层注意力生成；m=3表示Q和K由二阶注意力生成，相当于“注意力的注意力的注意力”。

这种结构天然支持多跳推理链，就像人在解一道数学题时，先理解题干中的关键变量（第1层），再思考它们之间的公式关系（第2层），最后验证整体逻辑是否自洽（第3层）。

精妙第三刀：不增参数

复杂架构往往意味着更高的计算开销和更多的参数量，但Nexus通过精巧的设计，完全规避了这些问题——权重共享策略。

具体来说，无论是内层还是外层的注意力模块，都复用同一组投影权重WQ，WK，WV。

这意味着，尽管计算路径更复杂，但模型参数量和原始Transformer完全一致。

这种设计背后有一个关键假设：无论处于递归的哪一层，将token投影为Query或Key的语义变换方式是相似的。

团队通过实验证明，这一假设是成立的。

在Pythia-70M的消融实验中，使用权重共享的Nexus-QK-Shared版本，平均准确率仍比基线高出近1个百分点，而参数量毫无增加。

这就让Nexus成为了一种极其高效的表达密度提升器——用相同的参数，实现更强的推理能力。

只要换上Nexus，推理效果立竿见影

那么Nexus的效果到底如何？

论文在两个维度做了验证：从零训练的小模型，以及对已有大模型的架构改造。

小模型全面领先

研究团队在 Pythia 系列（70M 到 1B）上从头训练 Nexus，并在六个标准推理数据集上评估：ARC-C、ARC-E、HellaSwag、LogiQA、PiQA和SciQ。

结果非常一致：Nexus 在所有规模上都优于原始Transformer。

尤其在需要多步推理或科学常识的任务中提升显著。例如：

在SciQ（科学问答）上，70M模型准确率从61.5%提升至68.5%，提升7个百分点；
在PiQA（物理常识推理）上，1B模型从62.5%提升至63.6%。

这说明Nexus特别擅长处理那些不能靠表面模式匹配解决的问题，是真的有在做推理。

大模型改装即用

面对规模更大的模型，Nexus还体现出了即插即用的能力。

团队将Qwen2.5的1.5B和7B版本的标准注意力层直接替换为Nexus结构，仅在SFT（监督微调）阶段进行训练，未改动预训练权重。

结果表明，在三个高难度数学推理基准上（MATH-500、AIME24、GPQA-Diamond），Nexus 均带来稳定提升：

Qwen2.5-1.5B在MATH-500上准确率从78.6% → 80.1%；
Qwen2.5-7B在AIME24上从 45.2% → 47.5%。

尤其值得注意的是AIME24的提升，因为这类题目要求严格的多步逻辑推导，错误一步就全盘皆输。Nexus 的改进说明，它确实在内部构建了更连贯的推理链。

从这一层面来看，Nexus不仅是一个新训练范式，还是一套架构升级套件。你不用重新训练一个千亿模型，只需在微调阶段替换注意力层，就能解锁更强的推理能力。

推理能力可内生于架构

虽然Nexus目前聚焦于语言模型，但其思想具有普适性。

高阶关系建模在视觉、图神经网络、多模态任务中同样关键；例如，在视频理解中，“A看到B打了C” 就是一个典型的三元关系，传统Attention难以直接捕捉。

华为诺亚团队表示，下一步将探索Nexus在视觉Transformer和多模态大模型中的应用，并优化其计算效率。

Transformer 的智商天花板，或许从来不在参数量，而在其注意力机制的表达能力。华为诺亚的 Nexus，用一种优雅而高效的方式，为这一核心模块注入了高阶推理能力。

它不靠堆料，不靠提示工程，而是从架构底层重构了模型的思考方式。

因此，Nexus也提醒了我们：有时候，聪明的架构比规模的大小更重要。

声明：包含AI生成内容

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

与阿里、DeepSeek同台竞技，K2.5进化Agent集群，杨植麟为Kimi锁定系统智能主赛道

每日经济新闻 2026-01-28 14:11:08
0 跟贴 0
Transformer作者：DeepSeek才有搞头，OpenAI指望不上了

量子位 2025-09-12 11:07:58
143 跟贴 143

谷歌创始人布林：当年发完Transformer论文，我们太不当回事了

机器之心Pro 2025-12-15 10:18:00
42 跟贴 42

高效智能体幕后推手是谁？一篇综述带你从记忆×工具学习×规划看透

机器之心Pro 2026-01-27 15:24:36
0 跟贴 0
Gemini 3「开眼」像素级操控！谷歌回应DeepSeek-OCR2

新智元 2026-01-28 17:51:48
0 跟贴 0

Transformer作者创办日本最贵AI独角兽，如今又被谷歌投资

DeepTech深科技 2026-01-26 16:48:19
10 跟贴 10

搜狗要用AI重做输入法

华尔街见闻官方 2026-01-28 16:28:55
8 跟贴 8
蚂蚁具身智能明牌了：做大脑，和宇树们错位竞争

量子位 2026-01-28 19:04:04
0 跟贴 0

蚂蚁出手VLA，就是开源超越Pi0.5的基座模型

机器之心Pro 2026-01-28 14:27:13
0 跟贴 0
基于ASPP-Swin Transformer模型的加密流量识别方法

通信世界 2025-10-28 11:31:02
0 跟贴 0
行业最大规模具身数据集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟贴 0
首个熊猫人形机器人在成都发布

每日经济新闻 2026-01-28 19:27:06
0 跟贴 0
行业最大规模具身数据集！出自简智机器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟贴 0
陶哲轩：AI看似在推理，其实是在背答案

量子位 2026-01-05 09:20:21
0 跟贴 0
高通万卫星谈终端大模型优势：个性化与数据推理

量子位 2025-12-11 03:38:41
0 跟贴 0
启幕“十五五”|北邮教授曾剑秋：AI新视角，从量变到质变

通信世界 2026-01-28 18:36:28
0 跟贴 0
90后“稚晖君”，任上纬新材董事长！他是原华为天才少年

每日经济新闻 2025-11-26 14:49:35
0 跟贴 0
深圳最狠的地方：每隔十年，就亲手“杀死”自己一次

饭统戴老板 2026-01-09 17:54:56
0 跟贴 0
尚界还没焐热，华为的第六界就要来了，车圈真的是热闹了

欢乐段子手 2026-01-28 10:37:18
1 跟贴 1
用两年都不卡，华为手机怎么做到的？

爱范儿 2025-12-26 19:10:05
0 跟贴 0
一键直达？华为乾崑智驾®️车位到车位 2.0有多强？

阿Test正经比比 2026-01-24 14:12:59
39 跟贴 39
小米双车屠榜，华为系还敢称王？

一文热点捕手 2026-01-27 08:52:57
14 跟贴 14
百年豪华的抉择，与华为乾崑的标准输出

财联社 2025-11-28 16:10:34
0 跟贴 0
华为 X3 Pro 日照金山开箱体验：有这么好看的路由器摆在桌面上

爱范儿 2025-11-26 17:29:45
0 跟贴 0
背刺中国，出卖孟晚舟的真凶被挖出来后，如今遭到了哪些报应

互联鱼 2026-01-28 13:32:30
0 跟贴 0
华为乾崑智驾ADS 4、HarmonySpace 5新版本官宣即将推送

IT之家 2026-01-28 18:39:05
0 跟贴 0
华为问界M6来了，颜值帅到爆炸

科技头版Pro 2026-01-28 15:26:57
0 跟贴 0
华为手机被凿穿了一个洞，居然不影响正常使用

探山城 2026-01-27 10:49:26
0 跟贴 0
新能源汽车最逆袭厂家，战略签约中国电信！刘桂清亲自出席！

运营商段子手 2026-01-27 13:33:01
0 跟贴 0
华为三折叠开售日，现场没有现货，网友：不要玩合资车那套！

斯卡拉生活 2026-01-28 08:43:57
0 跟贴 0
女生参加公司年会，抽奖送平板居然抽到自己，网友：姐，公司还招人不？

青岛资讯 2026-01-28 18:45:34
0 跟贴 0
华为乾崑｜奕境这次就是冲底盘去的！

Mr刘然 2026-01-27 06:32:35
2 跟贴 2
曦望发布推理GPU S3：All-in推理的国产GPU，开始算单位Token成本

量子位 2026-01-27 22:38:53
0 跟贴 0
华为车遇上比亚迪，一个原地掉头一个倒车，伤害不大侮辱极强！

欢乐翻天 2026-01-24 14:51:22
3 跟贴 3
我姐从华为离职了，今天终于敢说出她对华为的真实评价

家哥 2026-01-26 14:28:35
0 跟贴 0
外网看中国华为mate70发布，韩国网友吃了酸葡萄！

极品颜值控 2026-01-26 14:33:40
0 跟贴 0
在华为工作7年了，现在工资有多少？

家哥 2026-01-26 14:32:14
0 跟贴 0
华为真的做到了让灯光拐弯

懒大王教剪辑 2026-01-24 03:46:54
1 跟贴 1
在未受污染的数学竞赛中评估大语言模型

CreateAMind 2026-01-27 19:45:59
0 跟贴 0
24万竟拿下奥迪豪华轿跑？奥迪A5L实拍，华为智驾+204马力太惊喜

汽车有文化 2026-01-25 12:08:28
4 跟贴 4

66岁的黑木瞳保养太好了，看着还像2，30岁！

66岁的黑木瞳保养太好了，看着还像2，30岁！

日本物语

2026-01-27 20:53:05

还没完！退脏衣女记者后续：入职任职方式遭质疑，知情人透露更多

还没完！退脏衣女记者后续：入职任职方式遭质疑，知情人透露更多

阿纂看事

2026-01-26 10:03:51

同一赛季3胜16负后收获16胜3负快船成为NBA历史首队

同一赛季3胜16负后收获16胜3负快船成为NBA历史首队

北青网-北京青年报

2026-01-28 18:46:05

大牛股，封死跌停！

中国基金报

2026-01-28 10:41:20

黄金只是开胃菜！2026年这5样东西注定涨价，关系每个家庭的钱包

黄金只是开胃菜！2026年这5样东西注定涨价，关系每个家庭的钱包

趣味萌宠的日常

2026-01-28 16:11:42

落后榜首10分！穆帅委屈了，19轮不败也白搭，踢法保守恐下课

落后榜首10分！穆帅委屈了，19轮不败也白搭，踢法保守恐下课

阿泰希特

2026-01-28 12:34:07

网友评选的20款最难抽香烟！

马蹄烫嘴说美食

2026-01-27 00:42:20

中美上桌谈判前，特朗普通知中国，一个不变，白宫已踢走两名官员

中美上桌谈判前，特朗普通知中国，一个不变，白宫已踢走两名官员

通文知史

2026-01-27 18:15:03

中国足球真相：不是14亿人选不出11个，而是10万个有钱人的游戏

中国足球真相：不是14亿人选不出11个，而是10万个有钱人的游戏

小郑说史

2026-01-28 00:25:03

德媒：印欧达成自贸协定对中国的影响

德媒：印欧达成自贸协定对中国的影响

达文西看世界

2026-01-28 15:09:39

吉比特：预计2025年年度净利润为16.9亿元~18.6亿元，同比增加79%~97%

吉比特：预计2025年年度净利润为16.9亿元~18.6亿元，同比增加79%~97%

每日经济新闻

2026-01-28 17:34:09

赖清德想向大陆叫板，蒋万安一句“我是台湾市市长”，让绿营急了

赖清德想向大陆叫板，蒋万安一句“我是台湾市市长”，让绿营急了

DS北风

2026-01-27 18:50:04

13年烧50亿为续命！车王舒马赫苏醒，外媒却称：妻子在转移财产？

13年烧50亿为续命！车王舒马赫苏醒，外媒却称：妻子在转移财产？

壹只灰鸽子

2026-01-28 14:24:02

从5胜16负，到16胜8负，全联盟找不到下家！NBA传奇球星该退役了

从5胜16负，到16胜8负，全联盟找不到下家！NBA传奇球星该退役了

老梁体育漫谈

2026-01-28 00:04:41

陈道明戳破养老真相：所谓养老，不过是清醒时自渡，糊涂前自在

陈道明戳破养老真相：所谓养老，不过是清醒时自渡，糊涂前自在

青苹果sht

2026-01-20 05:51:45

A股：周四稳了！盘面突发“王炸信号”，这几个板块将直接起飞

A股：周四稳了！盘面突发“王炸信号”，这几个板块将直接起飞

夜深爱杂谈

2026-01-28 18:02:28

什么是性成瘾？患者自述：比烟瘾、酒瘾厉害多了，比戒毒还难

什么是性成瘾？患者自述：比烟瘾、酒瘾厉害多了，比戒毒还难

泠泠说史

2025-10-30 15:20:45

什么是牢A的“三通一达”？解释清楚了！

什么是牢A的“三通一达”？解释清楚了！

雪中风车

2026-01-27 19:50:37

央媒发文，高调官宣62岁甄子丹喜讯，他让李连杰和所有人刮目相看

央媒发文，高调官宣62岁甄子丹喜讯，他让李连杰和所有人刮目相看

梦史

2026-01-28 09:40:38

胆大包天！国家军队内部反腐打贪力度这么大，竟然还有人顶风作案

胆大包天！国家军队内部反腐打贪力度这么大，竟然还有人顶风作案

百态人间

2026-01-28 15:39:47

追踪人工智能动态

12077文章数 176367关注度

往期回顾全部

科技要闻

它是神也是毒！Clawdbot改名卷入千万诈骗

头条要闻

知名企业家熊海涛被留置被指与成都主要领导违纪有关

头条要闻

知名企业家熊海涛被留置被指与成都主要领导违纪有关

体育要闻

没天赋的CBA第一小前锋，秘诀只有一个字

娱乐要闻

王祖贤入驻某音：一条7秒视频吸粉55万

财经要闻

从万科退休20天后，郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点关键时刻真能保命

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

健康

旅游

艺术

房产

教育要闻

高二上学期，期中英语80多，有没有人现身说法自己如何逆袭?

耳石症分类型，症状大不同

旅游要闻

2026年，中国入境游最热方式或是“医疗+旅游”？

艺术要闻

震撼！19世纪油画巨匠的作品美得不可思议！

房产要闻

实景兑现在即！绿城，在海棠湾重新定义终极旅居想象！

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版