网易首页 > 网易号 > 正文 申请入驻

AI解数学题只靠最后一个token

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

大语言模型在解心算题时,只依赖最后一个token?



最近,来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现:在心算任务中,几乎所有实际的数学计算都集中在序列的最后一个token上完成,而不是分散在所有token中。

这意味着,相较于在Transformer和多层感知机(MLP)中常见的全局信息访问——即每个token在预测时都能查询并利用整个上文信息——在诸如心算这样的特定任务中,全局访问其实并不是必需的。

这是怎么一回事?

心算只要最后一个token?!

总的来说,研究人员采用了上下文感知平均消融(Context-Aware Mean Ablation, CAMA)基于注意力的窥视(attention-based peeking)技术对Llama-3-8B等Transformer架构的模型进行了一系列的消融实验。

这些实验通过系统性地移除或改变模型的一部分,探究能让模型依然表现良好的“最少计算量”

在这一过程中,研究人员发现模型内部会形成一个稀疏子图(sparse subgraph)——他们把它称为“人人为我”(All-for-One, AF1)。

这个子图通过最少的计算层和最有限的信息传递,让模型高效完成运算。



在“人人为我”中,输入Transformer前几层(L_wait)的token并没有做跟“自己数值”相关的计算,而是“等待”,并主要承担一些通用的准备工作(比如识别token、结构编码、预测下一步所需的通用表示)。

然后,在中间的两层(L_transfer)里,它们就将信息传递给最后一个token。

之后,最后一个token独自完成计算并给出答案。

  • 这一过程表明,模型内部将任务通用型计算(如 token 识别、数值与结构编码)与输入特定型计算(如实际算术运算)是分开的。

(注:这篇研究聚焦于心算任务,即涉及两个或三个操作数的算术问题(例如42+20−15),这些问题可以通过单个token的输出解决,而无需模型进行显式的链式思维推理。)

接下来,我们具体来看。

众所周知,大语言模型在许多计算任务上表现出色,而其中一个重要原因是其采用了Transformer架构。

与RNN不同,Transformer允许任意token通过自注意力机制立即访问所有先前的token以传递信息,并使每个token能够通过多层感知机(MLP)并行执行各自的独立计算。

但即便如此,模型内部的信息流和计算过程仍然是不透明的。

因此,为了揭开大语言模型的“黑箱”,研究人员采用了以下三个步骤来进行探索。

首先,在模型的初始层抑制token针对特定输入的计算

研究人员发现,在传统Transformer的每一层中,token都能访问所有之前的token,但对于简单的心算任务,每个token可能未必从一开始就要获得全局信息。

由此,研究人员引入了等待期(L_wait):让在前面的L_wait层中的token独立计算,只执行任务通用操作(如理解数字、识别算术结构),而不访问其他token。



为了实现这一点,他们使用了上下文感知平均消融(CAMA)

CAMA的作用是屏蔽掉token之间的输入特定信息,同时保留每个token的普遍计算能力,使模型能够在不依赖具体输入的情况下完成基础准备工作。



接下来,在少数几层中限制跨token位置的信息传递路径。只让最后token在L_transfer层中访问所有token,其余层只关注自己。

最后,在剩余的层中强制所有计算都在最后一个token上发生

由于CAMA只能从第一层开始,因此,研究人员引入了一种可以在任意层控制信息访问的方法——基于注意力的窥视(ABP)

它通过修改注意力掩码(attention mask),精确指定每个“查询”(query)token可以关注哪些“键”(key)。

在这篇论文中,研究人员主要使用了以下两种模式:

  • 完全窥探 (Full-peeking):token可以关注所有在它之前的token,这是标准的因果注意力。在AF1的传递阶段,最后一个token使用此模式来收集信息。
  • 自我窥探 (Self-peeking):token只能关注它自己,在传递和计算阶段,所有非末尾的token都使用此模式;在计算阶段,最后一个token也切换到此模式。

实验验证

在完成方法和操作流程的构建后,研究者进行了一系列实验来发现、验证和分析AF1子图。这里主要涉及到Llama-3-8B和Llama-3.1-8B,以及在Pythia和GPT-J模型上的验证。

首先,通过三阶段消融与窥视实验,研究人员发现Llama-3-8B在A+B+C任务中只需前14层做任务通用计算(CAMA 层),然后通过2层信息传输让最后的token获取全局信息,剩余层仅进行最后token的自计算。



这个几乎保留全部性能的子图被命名为AF1_llama

接下来,研究人员又进一步验证了AF1_llama在Llama-3-8B和Llama-3.1-8B上的表现。

实验表明,AF1_llama在八个任务中总体表现出高忠实度。



更进一步,实验进一步验证了第15和16层的信息传输在Llama-3-8B中的重要性。

研究表明,仅少数注意力头对算术计算关键,即使移除近60个头部,模型仍能保持约95%的准确率,表明大部分注意力头冗余,而关键头集中在少数层。



此外,为了探究AF1_llama是否可以在Llama-3-8B上泛化到表示A+B和A−B运算的其他算术形式,研究进一步将口头描述运算以及将运算嵌入到应用题或Python代码中。

实验表明,AF1_llama在不包含额外语义上下文的直接算术任务中仍保持了相当高的准确率。

然而,它在需要语义理解的任务上,如应用题和Python代码,完全失败了,这表明它需要额外的组件来处理其他能力,比如理解自然语言或Python程序输入。



最后,研究人员在Pythia和GPT-J中也发现了类似AF1的子图,但与Llama不同,这些模型的等待期更短(L_wait ≈ 9–11)、信息传输层更长,且性能边界不如Llama清晰。

尽管忠实度普遍低于Llama,但对二元运算任务的子图仍能恢复超过一半的原始模型准确率。



总体而言,这项工作为大语言模型中的算术推理和跨token计算的机制理解做出了贡献。此外,它通过CAMA和ABP提供了方法论上的创新,可服务于算术任务之外的更广泛应用。

[1]https://x.com/rohanpaul_ai/status/1966788202238448101

[2]https://www.arxiv.org/pdf/2509.09650

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苹果加它是超强肝脏解毒水,连着喝3天,排出身体多年肝脏毒素

苹果加它是超强肝脏解毒水,连着喝3天,排出身体多年肝脏毒素

江江食研社
2026-01-26 10:30:08
广州没想到,深圳没想到,如今的中国东莞,已成为全国的焦点!

广州没想到,深圳没想到,如今的中国东莞,已成为全国的焦点!

蓝色海边
2026-01-28 16:52:39
单赛季欧冠打入12球,姆巴佩成历史第10人

单赛季欧冠打入12球,姆巴佩成历史第10人

懂球帝
2026-01-29 04:43:09
“尼帕病毒”来者不善!调查发现:感染病毒的人,有6个共同点

“尼帕病毒”来者不善!调查发现:感染病毒的人,有6个共同点

笔墨V
2026-01-29 03:53:12
192:233!高市支持率猛跌,日本大选杀出黑马,对华态度坚决

192:233!高市支持率猛跌,日本大选杀出黑马,对华态度坚决

比利
2026-01-27 19:04:53
58岁那天,我找了个搭伙老伴,刚住过去,他3个儿子全家都搬了过来

58岁那天,我找了个搭伙老伴,刚住过去,他3个儿子全家都搬了过来

程哥讲堂
2026-01-28 18:16:02
伊能静真人又矮又胖,臀部好宽大

伊能静真人又矮又胖,臀部好宽大

TVB的四小花
2026-01-07 01:18:53
人民日报怒批!炫富、偷税749万、跑国外,现又来“割内地韭菜”

人民日报怒批!炫富、偷税749万、跑国外,现又来“割内地韭菜”

小熊侃史
2026-01-18 07:20:09
新加坡地产大亨赴华求医,老中医把完脉后,开口一句令对方愣了

新加坡地产大亨赴华求医,老中医把完脉后,开口一句令对方愣了

五元讲堂
2026-01-27 08:55:03
贾玲在意大利逛奢侈品店!大波浪卷发买包好洋气,比时装周上好看

贾玲在意大利逛奢侈品店!大波浪卷发买包好洋气,比时装周上好看

孤酒老巷QA
2026-01-28 15:09:41
美国华人直言:中国手机扫码支付是最不智能的发明!

美国华人直言:中国手机扫码支付是最不智能的发明!

阿伧说事
2026-01-20 12:53:01
国产车企的忧虑,电车销量暴跌,油车后花园被外资车偷家!

国产车企的忧虑,电车销量暴跌,油车后花园被外资车偷家!

柏铭锐谈
2026-01-28 23:51:27
晋级澳网四强!辛纳:期待与德约在半决赛对决,他是我的榜样

晋级澳网四强!辛纳:期待与德约在半决赛对决,他是我的榜样

懂球帝
2026-01-28 21:52:49
特朗普留下的“烂摊子”:仅18%欧盟民众愿与美结盟!

特朗普留下的“烂摊子”:仅18%欧盟民众愿与美结盟!

老马拉车莫少装
2026-01-28 23:56:49
中美新默契,让人很不适!欧洲到了最危险的阶段

中美新默契,让人很不适!欧洲到了最危险的阶段

超级学爸蛋总
2026-01-28 09:30:04
儿子和侄子都考上985,公婆让我给侄子8万红包,我一句话他们愣住

儿子和侄子都考上985,公婆让我给侄子8万红包,我一句话他们愣住

泽泽先生
2025-08-16 06:30:03
罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

来科点谱
2026-01-23 11:08:02
大连英博再次官宣重量级新援加盟,已有多条大鱼入队,值得期待

大连英博再次官宣重量级新援加盟,已有多条大鱼入队,值得期待

懂个球
2026-01-29 00:02:06
罚球护航!亚历山大连续118场20+,距张伯伦神迹仅8场之遥

罚球护航!亚历山大连续118场20+,距张伯伦神迹仅8场之遥

大眼瞄世界
2026-01-28 22:41:18
全世界都被特朗普耍了!打击伊朗只是个幌子,真正目标已布局四年

全世界都被特朗普耍了!打击伊朗只是个幌子,真正目标已布局四年

兴史兴谈
2026-01-27 05:18:52
2026-01-29 06:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
12078文章数 176367关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

中国代表:支持伊朗国家稳定 武力解决不了问题

头条要闻

中国代表:支持伊朗国家稳定 武力解决不了问题

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

本地
旅游
家居
公开课
军事航空

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

旅游要闻

冬日鎏金!比全国早3个月,贵州兴义藏着冬日黄金花海

家居要闻

跃式别墅 包络石木为生

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗竖起巨幅宣传画:一艘美军航母被炸

无障碍浏览 进入关怀版