网易首页 > 网易号 > 正文 申请入驻

华为新架构砍了Transformer大动脉!任意模型推理能力原地飙升

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

是时候给Transformer的大动脉动刀子了。

因为即便它享有当下AI世界基石的地位,但自身问题也是非常明显:

一旦遇到复杂的数学题或者需要多步逻辑推理的时候,就开始一本正经地胡说八道了……



问题究竟出在了哪里?

答案就藏在Transformer的核心机制里——Attention

传统Attention机制本质上像是一种配对比较:每个词只和另一个词直接发生关系,生成一个注意力权重。

这种架构虽然擅长捕捉长距离依赖,但在建模复杂、多跳、多点之间的逻辑关系时却显得力不从心了。

例如它能轻松理解“A认识B”,但如果要它理解“张三通过李四认识了王五”,即多跳、多点之间的复杂、间接关系,它的脑回路就显得不够深,推理能力的天花板瞬间触顶。

现在,这个天花板,被华为诺亚方舟实验室捅破了!

因为就在最近,团队祭出了一种全新架构,叫做Nexus,即高阶注意力机制(Higher-Order Attention Mechanism)。



它可以说是直接狙击了Attention机制的核心痛点,使用更高阶注意力,就能有效地建模多跳、多点之间的复杂关联。

并且从实验结果来看,效果也是有点惊艳在身上的。

只要换上Nexus这个新架构,模型在数学和科学等复杂推理任务上的能力,都能立马实现大幅飙升,而且还是参数零增的那种。

妙哉,着实妙哉。

接下来,就让我们一同来深入了解一下Nexus的精妙一刀。

高阶注意力机制砍出的精妙一刀

要理解高阶的意义,我们必须先回顾传统自注意力机制的根本缺陷。

标准的自注意力机制本质上是将输入序列X分别通过三个线性变换WQ,WK,WV生成Query(Q)、Key(K)、Value(V),再通过softmax计算注意力权重:



但这里就出现了一个关键的问题:Q和K都是静态的、与上下文无关的线性投影。

也就是说,某个token的Query向量仅由它自己决定,无法感知其他token的存在;这导致注意力权重只能反映两两之间的直接关系。

精妙第一刀:Q和K的革新

华为诺亚方舟实验室的第一个刀法,就精妙地砍在了这里:Nexus让Q和K的生成过程本身也变成一个注意力操作。

换句话说,token在计算最终的Q和K之前,会先进行一次“预推理”;这个过程,其实就是一个嵌套的自注意力机制

Token首先通过这个内部循环,从全局上下文中聚合信息,形成一个更加精炼、更具上下文感知能力的表示,然后再用这个表示去计算最终的Q和K。

这就好比,在你问我答(Q和K计算Attention)之前,每个token都先在内部进行了深思熟虑,充分吸收了它在整个序列中的环境信息。

这样生成的Q和K,自然就摆脱了线性投影的僵硬,具备了捕捉复杂关系的动态性。



精妙第二刀:巧用递归框架

Nexus架构最精妙之处,还在于它的递归框架(Recursive Framework)。

这个内部注意力循环可以被递归地来嵌套。

如果我们将一层Attention视为一阶关系(A认识B),那么将Attention的输出作为下一层Attention的输入,就可以构建二阶关系(张三通过李四认识王五),乃至更高阶的关系。

在Nexus中,这种递归嵌套被巧妙地集成在一个单层结构中,形成了一个层次化的推理链。

论文进一步将上述过程递归化,定义第m阶注意力为:



其中,m=1就是标准注意力;m=2表示Q和K由一次内层注意力生成;m=3表示Q和K由二阶注意力生成,相当于“注意力的注意力的注意力”。

这种结构天然支持多跳推理链,就像人在解一道数学题时,先理解题干中的关键变量(第1层),再思考它们之间的公式关系(第2层),最后验证整体逻辑是否自洽(第3层)。

精妙第三刀:不增参数

复杂架构往往意味着更高的计算开销和更多的参数量,但Nexus通过精巧的设计,完全规避了这些问题——权重共享策略

具体来说,无论是内层还是外层的注意力模块,都复用同一组投影权重WQ,WK,WV。

这意味着,尽管计算路径更复杂,但模型参数量和原始Transformer完全一致。

这种设计背后有一个关键假设:无论处于递归的哪一层,将token投影为Query或Key的语义变换方式是相似的。

团队通过实验证明,这一假设是成立的。



在Pythia-70M的消融实验中,使用权重共享的Nexus-QK-Shared版本,平均准确率仍比基线高出近1个百分点,而参数量毫无增加。

这就让Nexus成为了一种极其高效的表达密度提升器——用相同的参数,实现更强的推理能力。

只要换上Nexus,推理效果立竿见影

那么Nexus的效果到底如何?

论文在两个维度做了验证:从零训练的小模型,以及对已有大模型的架构改造。

小模型全面领先

研究团队在 Pythia 系列(70M 到 1B)上从头训练 Nexus,并在六个标准推理数据集上评估:ARC-C、ARC-E、HellaSwag、LogiQA、PiQA和SciQ。

结果非常一致:Nexus 在所有规模上都优于原始Transformer。

尤其在需要多步推理或科学常识的任务中提升显著。例如:

  • 在SciQ(科学问答)上,70M模型准确率从61.5%提升至68.5%,提升7个百分点;
  • 在PiQA(物理常识推理)上,1B模型从62.5%提升至63.6%。



这说明Nexus特别擅长处理那些不能靠表面模式匹配解决的问题,是真的有在做推理。

大模型改装即用

面对规模更大的模型,Nexus还体现出了即插即用的能力。

团队将Qwen2.5的1.5B和7B版本的标准注意力层直接替换为Nexus结构,仅在SFT(监督微调)阶段进行训练,未改动预训练权重。

结果表明,在三个高难度数学推理基准上(MATH-500、AIME24、GPQA-Diamond),Nexus 均带来稳定提升:

  • Qwen2.5-1.5B在MATH-500上准确率从78.6% → 80.1%;
  • Qwen2.5-7B在AIME24上从 45.2% → 47.5%。



尤其值得注意的是AIME24的提升,因为这类题目要求严格的多步逻辑推导,错误一步就全盘皆输。Nexus 的改进说明,它确实在内部构建了更连贯的推理链。

从这一层面来看,Nexus不仅是一个新训练范式,还是一套架构升级套件。你不用重新训练一个千亿模型,只需在微调阶段替换注意力层,就能解锁更强的推理能力。

推理能力可内生于架构

虽然Nexus目前聚焦于语言模型,但其思想具有普适性。

高阶关系建模在视觉、图神经网络、多模态任务中同样关键;例如,在视频理解中,“A看到B打了C” 就是一个典型的三元关系,传统Attention难以直接捕捉。

华为诺亚团队表示,下一步将探索Nexus在视觉Transformer和多模态大模型中的应用,并优化其计算效率。

Transformer 的智商天花板,或许从来不在参数量,而在其注意力机制的表达能力。华为诺亚的 Nexus,用一种优雅而高效的方式,为这一核心模块注入了高阶推理能力。

它不靠堆料,不靠提示工程,而是从架构底层重构了模型的思考方式。

因此,Nexus也提醒了我们:有时候,聪明的架构比规模的大小更重要。

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
66岁的黑木瞳保养太好了,看着还像2,30岁!

66岁的黑木瞳保养太好了,看着还像2,30岁!

日本物语
2026-01-27 20:53:05
还没完!退脏衣女记者后续:入职任职方式遭质疑,知情人透露更多

还没完!退脏衣女记者后续:入职任职方式遭质疑,知情人透露更多

阿纂看事
2026-01-26 10:03:51
同一赛季3胜16负后收获16胜3负 快船成为NBA历史首队

同一赛季3胜16负后收获16胜3负 快船成为NBA历史首队

北青网-北京青年报
2026-01-28 18:46:05
大牛股,封死跌停!

大牛股,封死跌停!

中国基金报
2026-01-28 10:41:20
黄金只是开胃菜!2026年这5样东西注定涨价,关系每个家庭的钱包

黄金只是开胃菜!2026年这5样东西注定涨价,关系每个家庭的钱包

趣味萌宠的日常
2026-01-28 16:11:42
落后榜首10分!穆帅委屈了,19轮不败也白搭,踢法保守恐下课

落后榜首10分!穆帅委屈了,19轮不败也白搭,踢法保守恐下课

阿泰希特
2026-01-28 12:34:07
网友评选的20款最难抽香烟!

网友评选的20款最难抽香烟!

马蹄烫嘴说美食
2026-01-27 00:42:20
中美上桌谈判前,特朗普通知中国,一个不变,白宫已踢走两名官员

中美上桌谈判前,特朗普通知中国,一个不变,白宫已踢走两名官员

通文知史
2026-01-27 18:15:03
中国足球真相:不是14亿人选不出11个,而是10万个有钱人的游戏

中国足球真相:不是14亿人选不出11个,而是10万个有钱人的游戏

小郑说史
2026-01-28 00:25:03
德媒:印欧达成自贸协定对中国的影响

德媒:印欧达成自贸协定对中国的影响

达文西看世界
2026-01-28 15:09:39
吉比特:预计2025年年度净利润为16.9亿元~18.6亿元,同比增加79%~97%

吉比特:预计2025年年度净利润为16.9亿元~18.6亿元,同比增加79%~97%

每日经济新闻
2026-01-28 17:34:09
赖清德想向大陆叫板,蒋万安一句“我是台湾市市长”,让绿营急了

赖清德想向大陆叫板,蒋万安一句“我是台湾市市长”,让绿营急了

DS北风
2026-01-27 18:50:04
13年烧50亿为续命!车王舒马赫苏醒,外媒却称:妻子在转移财产?

13年烧50亿为续命!车王舒马赫苏醒,外媒却称:妻子在转移财产?

壹只灰鸽子
2026-01-28 14:24:02
从5胜16负,到16胜8负,全联盟找不到下家!NBA传奇球星该退役了

从5胜16负,到16胜8负,全联盟找不到下家!NBA传奇球星该退役了

老梁体育漫谈
2026-01-28 00:04:41
陈道明戳破养老真相:所谓养老,不过是清醒时自渡,糊涂前自在

陈道明戳破养老真相:所谓养老,不过是清醒时自渡,糊涂前自在

青苹果sht
2026-01-20 05:51:45
A股:周四稳了!盘面突发“王炸信号”,这几个板块将直接起飞

A股:周四稳了!盘面突发“王炸信号”,这几个板块将直接起飞

夜深爱杂谈
2026-01-28 18:02:28
什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

泠泠说史
2025-10-30 15:20:45
什么是牢A的“三通一达”?解释清楚了!

什么是牢A的“三通一达”?解释清楚了!

雪中风车
2026-01-27 19:50:37
央媒发文,高调官宣62岁甄子丹喜讯,他让李连杰和所有人刮目相看

央媒发文,高调官宣62岁甄子丹喜讯,他让李连杰和所有人刮目相看

梦史
2026-01-28 09:40:38
胆大包天!国家军队内部反腐打贪力度这么大,竟然还有人顶风作案

胆大包天!国家军队内部反腐打贪力度这么大,竟然还有人顶风作案

百态人间
2026-01-28 15:39:47
2026-01-28 19:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12077文章数 176367关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

知名企业家熊海涛被留置 被指与成都主要领导违纪有关

头条要闻

知名企业家熊海涛被留置 被指与成都主要领导违纪有关

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

王祖贤入驻某音:一条7秒视频吸粉55万

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

教育
健康
旅游
艺术
房产

教育要闻

高二上学期,期中英语80多,有没有人现身说法自己如何逆袭?

耳石症分类型,症状大不同

旅游要闻

2026年,中国入境游最热方式或是“医疗+旅游”?

艺术要闻

震撼!19世纪油画巨匠的作品美得不可思议!

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

无障碍浏览 进入关怀版