网易首页 > 网易号 > 正文 申请入驻

AI解数学题只靠最后一个token

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

大语言模型在解心算题时,只依赖最后一个token?



最近,来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现:在心算任务中,几乎所有实际的数学计算都集中在序列的最后一个token上完成,而不是分散在所有token中。

这意味着,相较于在Transformer和多层感知机(MLP)中常见的全局信息访问——即每个token在预测时都能查询并利用整个上文信息——在诸如心算这样的特定任务中,全局访问其实并不是必需的。

这是怎么一回事?

心算只要最后一个token?!

总的来说,研究人员采用了上下文感知平均消融(Context-Aware Mean Ablation, CAMA)基于注意力的窥视(attention-based peeking)技术对Llama-3-8B等Transformer架构的模型进行了一系列的消融实验。

这些实验通过系统性地移除或改变模型的一部分,探究能让模型依然表现良好的“最少计算量”

在这一过程中,研究人员发现模型内部会形成一个稀疏子图(sparse subgraph)——他们把它称为“人人为我”(All-for-One, AF1)。

这个子图通过最少的计算层和最有限的信息传递,让模型高效完成运算。



在“人人为我”中,输入Transformer前几层(L_wait)的token并没有做跟“自己数值”相关的计算,而是“等待”,并主要承担一些通用的准备工作(比如识别token、结构编码、预测下一步所需的通用表示)。

然后,在中间的两层(L_transfer)里,它们就将信息传递给最后一个token。

之后,最后一个token独自完成计算并给出答案。

  • 这一过程表明,模型内部将任务通用型计算(如 token 识别、数值与结构编码)与输入特定型计算(如实际算术运算)是分开的。

(注:这篇研究聚焦于心算任务,即涉及两个或三个操作数的算术问题(例如42+20−15),这些问题可以通过单个token的输出解决,而无需模型进行显式的链式思维推理。)

接下来,我们具体来看。

众所周知,大语言模型在许多计算任务上表现出色,而其中一个重要原因是其采用了Transformer架构。

与RNN不同,Transformer允许任意token通过自注意力机制立即访问所有先前的token以传递信息,并使每个token能够通过多层感知机(MLP)并行执行各自的独立计算。

但即便如此,模型内部的信息流和计算过程仍然是不透明的。

因此,为了揭开大语言模型的“黑箱”,研究人员采用了以下三个步骤来进行探索。

首先,在模型的初始层抑制token针对特定输入的计算

研究人员发现,在传统Transformer的每一层中,token都能访问所有之前的token,但对于简单的心算任务,每个token可能未必从一开始就要获得全局信息。

由此,研究人员引入了等待期(L_wait):让在前面的L_wait层中的token独立计算,只执行任务通用操作(如理解数字、识别算术结构),而不访问其他token。



为了实现这一点,他们使用了上下文感知平均消融(CAMA)

CAMA的作用是屏蔽掉token之间的输入特定信息,同时保留每个token的普遍计算能力,使模型能够在不依赖具体输入的情况下完成基础准备工作。



接下来,在少数几层中限制跨token位置的信息传递路径。只让最后token在L_transfer层中访问所有token,其余层只关注自己。

最后,在剩余的层中强制所有计算都在最后一个token上发生

由于CAMA只能从第一层开始,因此,研究人员引入了一种可以在任意层控制信息访问的方法——基于注意力的窥视(ABP)

它通过修改注意力掩码(attention mask),精确指定每个“查询”(query)token可以关注哪些“键”(key)。

在这篇论文中,研究人员主要使用了以下两种模式:

  • 完全窥探 (Full-peeking):token可以关注所有在它之前的token,这是标准的因果注意力。在AF1的传递阶段,最后一个token使用此模式来收集信息。
  • 自我窥探 (Self-peeking):token只能关注它自己,在传递和计算阶段,所有非末尾的token都使用此模式;在计算阶段,最后一个token也切换到此模式。

实验验证

在完成方法和操作流程的构建后,研究者进行了一系列实验来发现、验证和分析AF1子图。这里主要涉及到Llama-3-8B和Llama-3.1-8B,以及在Pythia和GPT-J模型上的验证。

首先,通过三阶段消融与窥视实验,研究人员发现Llama-3-8B在A+B+C任务中只需前14层做任务通用计算(CAMA 层),然后通过2层信息传输让最后的token获取全局信息,剩余层仅进行最后token的自计算。



这个几乎保留全部性能的子图被命名为AF1_llama

接下来,研究人员又进一步验证了AF1_llama在Llama-3-8B和Llama-3.1-8B上的表现。

实验表明,AF1_llama在八个任务中总体表现出高忠实度。



更进一步,实验进一步验证了第15和16层的信息传输在Llama-3-8B中的重要性。

研究表明,仅少数注意力头对算术计算关键,即使移除近60个头部,模型仍能保持约95%的准确率,表明大部分注意力头冗余,而关键头集中在少数层。



此外,为了探究AF1_llama是否可以在Llama-3-8B上泛化到表示A+B和A−B运算的其他算术形式,研究进一步将口头描述运算以及将运算嵌入到应用题或Python代码中。

实验表明,AF1_llama在不包含额外语义上下文的直接算术任务中仍保持了相当高的准确率。

然而,它在需要语义理解的任务上,如应用题和Python代码,完全失败了,这表明它需要额外的组件来处理其他能力,比如理解自然语言或Python程序输入。



最后,研究人员在Pythia和GPT-J中也发现了类似AF1的子图,但与Llama不同,这些模型的等待期更短(L_wait ≈ 9–11)、信息传输层更长,且性能边界不如Llama清晰。

尽管忠实度普遍低于Llama,但对二元运算任务的子图仍能恢复超过一半的原始模型准确率。



总体而言,这项工作为大语言模型中的算术推理和跨token计算的机制理解做出了贡献。此外,它通过CAMA和ABP提供了方法论上的创新,可服务于算术任务之外的更广泛应用。

[1]https://x.com/rohanpaul_ai/status/1966788202238448101

[2]https://www.arxiv.org/pdf/2509.09650

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
火箭140-116大胜开拓者 球员评价:5人满分,4人及格,伊森低迷

火箭140-116大胜开拓者 球员评价:5人满分,4人及格,伊森低迷

篮球资讯达人
2025-11-15 11:42:47
A股:刚刚,央行、证监会最新消息,8000亿下场,要绝地反击了?

A股:刚刚,央行、证监会最新消息,8000亿下场,要绝地反击了?

云鹏叙事
2025-11-15 08:10:28
深夜利好,机器人第一股即将登录A股,三大赛道开始沸腾

深夜利好,机器人第一股即将登录A股,三大赛道开始沸腾

财报翻译官
2025-11-15 10:24:56
全运会乒乓球:王楚钦旗开得胜!首局5平后连得4分,樊振东输7-11

全运会乒乓球:王楚钦旗开得胜!首局5平后连得4分,樊振东输7-11

刘姚尧的文字城堡
2025-11-15 12:50:56
震惊!北大研究发现,男性每增加一个亲生子女,死亡风险降低4%

震惊!北大研究发现,男性每增加一个亲生子女,死亡风险降低4%

火山诗话
2025-11-13 11:37:14
卓伟曝著名男星离婚已不可挽回,更多猛料曝光网友顺藤摸瓜,炸了

卓伟曝著名男星离婚已不可挽回,更多猛料曝光网友顺藤摸瓜,炸了

娱乐小丸子
2025-11-15 09:20:05
55分!19篮板!16助攻!联盟第1!SGA别大意,他要抢MVP

55分!19篮板!16助攻!联盟第1!SGA别大意,他要抢MVP

世界体育圈
2025-11-15 09:43:05
安世中国:仍有能力、有信心发放全体员工足额工资和福利

安世中国:仍有能力、有信心发放全体员工足额工资和福利

界面新闻
2025-11-14 17:39:20
女歌手“阿珍”意外身亡,很多剧院都有的电动座椅竟如此危险?业内人士推测:事发时可能忘切电源

女歌手“阿珍”意外身亡,很多剧院都有的电动座椅竟如此危险?业内人士推测:事发时可能忘切电源

都市快报橙柿互动
2025-11-14 18:40:55
惹怒中国后,高市宣布参加G20峰会,或与中方当面沟通台海问题

惹怒中国后,高市宣布参加G20峰会,或与中方当面沟通台海问题

我心纵横天地间
2025-11-14 13:37:31
好兄弟!马鲁阿奇5中2得到9分4板2助2断3帽,正负值-16全场最低

好兄弟!马鲁阿奇5中2得到9分4板2助2断3帽,正负值-16全场最低

懂球帝
2025-11-15 13:01:43
埃隆·马斯克被23岁女歌手爆粗口,“可悲又自私”,引发争议

埃隆·马斯克被23岁女歌手爆粗口,“可悲又自私”,引发争议

译言
2025-11-14 08:43:50
混双颁奖礼:刘诗雯笑容灿烂,陈垣宇蒯曼失落,大迪动作太有趣了

混双颁奖礼:刘诗雯笑容灿烂,陈垣宇蒯曼失落,大迪动作太有趣了

湘楚风云
2025-11-15 03:02:03
好莱坞传奇女星去世,终年84岁

好莱坞传奇女星去世,终年84岁

环球网资讯
2025-11-12 15:01:04
成都警方全面开展“亮剑”专项行动

成都警方全面开展“亮剑”专项行动

爱看头条
2025-11-15 10:23:04
混双颁奖礼:刘诗雯笑容灿烂,陈垣宇蒯曼失落,大迪动作太有趣了

混双颁奖礼:刘诗雯笑容灿烂,陈垣宇蒯曼失落,大迪动作太有趣了

好乒乓
2025-11-15 11:55:05
打不过就加入!库里被安德玛放弃后穿耐克球鞋!示好耐克?

打不过就加入!库里被安德玛放弃后穿耐克球鞋!示好耐克?

氧气是个地铁
2025-11-15 10:53:00
梅根蹭凯特热度“翻车”,身着黑裙参加卡戴珊母亲生日派对惹非议

梅根蹭凯特热度“翻车”,身着黑裙参加卡戴珊母亲生日派对惹非议

桑葚爱动画
2025-11-15 13:40:28
坎通纳:现在的防守球员背着手像企鹅一样,我一个赛季能进60球

坎通纳:现在的防守球员背着手像企鹅一样,我一个赛季能进60球

懂球帝
2025-11-14 19:29:07
没劲,这就怂了?知道事情闹大了,高市早苗慌忙找补:我就是假设

没劲,这就怂了?知道事情闹大了,高市早苗慌忙找补:我就是假设

飞花逐月大帝
2025-11-14 10:40:56
2025-11-15 14:27:00
量子位 incentive-icons
量子位
追踪人工智能动态
11682文章数 176330关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

女子认养动物园的东北虎2年 续费才知虎已死亡2个多月

头条要闻

女子认养动物园的东北虎2年 续费才知虎已死亡2个多月

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

争议!评委张艺谋被质疑保送易烊千玺

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

旅游
时尚
教育
家居
军事航空

旅游要闻

此刻的河南,美成了调色盘

“贝果夹克”今年冬天爆火,怎么搭都时髦!

教育要闻

南京期中考试成绩已出!最新版本!

家居要闻

现代简逸 寻找生活的光

军事要闻

解密福建舰电磁弹射背后的硬核支撑

无障碍浏览 进入关怀版