网易首页 > 网易号 > 正文 申请入驻

AI解数学题只靠最后一个token

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

大语言模型在解心算题时,只依赖最后一个token?

最近,来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现:在心算任务中,几乎所有实际的数学计算都集中在序列的最后一个token上完成,而不是分散在所有token中。

这意味着,相较于在Transformer和多层感知机(MLP)中常见的全局信息访问——即每个token在预测时都能查询并利用整个上文信息——在诸如心算这样的特定任务中,全局访问其实并不是必需的。

这是怎么一回事?

心算只要最后一个token?!

总的来说,研究人员采用了上下文感知平均消融(Context-Aware Mean Ablation, CAMA)基于注意力的窥视(attention-based peeking)技术对Llama-3-8B等Transformer架构的模型进行了一系列的消融实验。

这些实验通过系统性地移除或改变模型的一部分,探究能让模型依然表现良好的“最少计算量”

在这一过程中,研究人员发现模型内部会形成一个稀疏子图(sparse subgraph)——他们把它称为“人人为我”(All-for-One, AF1)。

这个子图通过最少的计算层和最有限的信息传递,让模型高效完成运算。

在“人人为我”中,输入Transformer前几层(L_wait)的token并没有做跟“自己数值”相关的计算,而是“等待”,并主要承担一些通用的准备工作(比如识别token、结构编码、预测下一步所需的通用表示)。

然后,在中间的两层(L_transfer)里,它们就将信息传递给最后一个token。

之后,最后一个token独自完成计算并给出答案。

  • 这一过程表明,模型内部将任务通用型计算(如 token 识别、数值与结构编码)与输入特定型计算(如实际算术运算)是分开的。

(注:这篇研究聚焦于心算任务,即涉及两个或三个操作数的算术问题(例如42+20−15),这些问题可以通过单个token的输出解决,而无需模型进行显式的链式思维推理。)

接下来,我们具体来看。

众所周知,大语言模型在许多计算任务上表现出色,而其中一个重要原因是其采用了Transformer架构。

与RNN不同,Transformer允许任意token通过自注意力机制立即访问所有先前的token以传递信息,并使每个token能够通过多层感知机(MLP)并行执行各自的独立计算。

但即便如此,模型内部的信息流和计算过程仍然是不透明的。

因此,为了揭开大语言模型的“黑箱”,研究人员采用了以下三个步骤来进行探索。

首先,在模型的初始层抑制token针对特定输入的计算

研究人员发现,在传统Transformer的每一层中,token都能访问所有之前的token,但对于简单的心算任务,每个token可能未必从一开始就要获得全局信息。

由此,研究人员引入了等待期(L_wait):让在前面的L_wait层中的token独立计算,只执行任务通用操作(如理解数字、识别算术结构),而不访问其他token。

为了实现这一点,他们使用了上下文感知平均消融(CAMA)

CAMA的作用是屏蔽掉token之间的输入特定信息,同时保留每个token的普遍计算能力,使模型能够在不依赖具体输入的情况下完成基础准备工作。

接下来,在少数几层中限制跨token位置的信息传递路径。只让最后token在L_transfer层中访问所有token,其余层只关注自己。

最后,在剩余的层中强制所有计算都在最后一个token上发生

由于CAMA只能从第一层开始,因此,研究人员引入了一种可以在任意层控制信息访问的方法——基于注意力的窥视(ABP)

它通过修改注意力掩码(attention mask),精确指定每个“查询”(query)token可以关注哪些“键”(key)。

在这篇论文中,研究人员主要使用了以下两种模式:

  • 完全窥探 (Full-peeking):token可以关注所有在它之前的token,这是标准的因果注意力。在AF1的传递阶段,最后一个token使用此模式来收集信息。
  • 自我窥探 (Self-peeking):token只能关注它自己,在传递和计算阶段,所有非末尾的token都使用此模式;在计算阶段,最后一个token也切换到此模式。

实验验证

在完成方法和操作流程的构建后,研究者进行了一系列实验来发现、验证和分析AF1子图。这里主要涉及到Llama-3-8B和Llama-3.1-8B,以及在Pythia和GPT-J模型上的验证。

首先,通过三阶段消融与窥视实验,研究人员发现Llama-3-8B在A+B+C任务中只需前14层做任务通用计算(CAMA 层),然后通过2层信息传输让最后的token获取全局信息,剩余层仅进行最后token的自计算。

这个几乎保留全部性能的子图被命名为AF1_llama

接下来,研究人员又进一步验证了AF1_llama在Llama-3-8B和Llama-3.1-8B上的表现。

实验表明,AF1_llama在八个任务中总体表现出高忠实度。

更进一步,实验进一步验证了第15和16层的信息传输在Llama-3-8B中的重要性。

研究表明,仅少数注意力头对算术计算关键,即使移除近60个头部,模型仍能保持约95%的准确率,表明大部分注意力头冗余,而关键头集中在少数层。

此外,为了探究AF1_llama是否可以在Llama-3-8B上泛化到表示A+B和A−B运算的其他算术形式,研究进一步将口头描述运算以及将运算嵌入到应用题或Python代码中。

实验表明,AF1_llama在不包含额外语义上下文的直接算术任务中仍保持了相当高的准确率。

然而,它在需要语义理解的任务上,如应用题和Python代码,完全失败了,这表明它需要额外的组件来处理其他能力,比如理解自然语言或Python程序输入。

最后,研究人员在Pythia和GPT-J中也发现了类似AF1的子图,但与Llama不同,这些模型的等待期更短(L_wait ≈ 9–11)、信息传输层更长,且性能边界不如Llama清晰。

尽管忠实度普遍低于Llama,但对二元运算任务的子图仍能恢复超过一半的原始模型准确率。

总体而言,这项工作为大语言模型中的算术推理和跨token计算的机制理解做出了贡献。此外,它通过CAMA和ABP提供了方法论上的创新,可服务于算术任务之外的更广泛应用。

[1]https://x.com/rohanpaul_ai/status/1966788202238448101

[2]https://www.arxiv.org/pdf/2509.09650

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
判了!柯文哲所涉京华城案、政治献金案一审宣判,直接判了17年

判了!柯文哲所涉京华城案、政治献金案一审宣判,直接判了17年

军武咖
2026-03-26 15:07:33
再造一个拼多多!新拼姆是尊什么神?

再造一个拼多多!新拼姆是尊什么神?

ZAKER新闻
2026-03-26 18:32:34
特朗普:台湾属于中国,武统是中方的自由,但一动手美国会不高兴

特朗普:台湾属于中国,武统是中方的自由,但一动手美国会不高兴

共工之锚
2026-03-22 00:48:09
美国内政部长:美方近期从委内瑞拉“带回”价值1亿美元的黄金,将用于商业及消费;有网友直言“就是在抢劫”

美国内政部长:美方近期从委内瑞拉“带回”价值1亿美元的黄金,将用于商业及消费;有网友直言“就是在抢劫”

大风新闻
2026-03-26 15:51:37
山东小伙娶乌克兰女硕士,首次到丈人家成土豪,10万元花不完

山东小伙娶乌克兰女硕士,首次到丈人家成土豪,10万元花不完

小聪明说科普
2026-03-11 18:18:43
女排超级联赛冠军争夺,江苏对决上海,胜负几几开?

女排超级联赛冠军争夺,江苏对决上海,胜负几几开?

老高说体育
2026-03-26 11:08:44
闹大了!美军东太平洋再开火!打爆44艘运输船,150人被打死!

闹大了!美军东太平洋再开火!打爆44艘运输船,150人被打死!

爱吃醋的猫咪
2026-03-25 20:19:15
“重大转变”!外媒:特朗普改变立场,将接受民主党提议重启美国土安全部部分部门

“重大转变”!外媒:特朗普改变立场,将接受民主党提议重启美国土安全部部分部门

环球网资讯
2026-03-25 23:13:02
原来他们是夫妻,《冬去春来》他中年大火,与妻因戏生情恩爱17年

原来他们是夫妻,《冬去春来》他中年大火,与妻因戏生情恩爱17年

揽星河的笔记
2026-03-25 19:31:09
柯文哲案一审宣判牵动台政坛

柯文哲案一审宣判牵动台政坛

环球时报国际
2026-03-26 14:09:09
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
德转列世预赛附加赛最贵11人:居莱尔领衔,意大利五人入选

德转列世预赛附加赛最贵11人:居莱尔领衔,意大利五人入选

懂球帝
2026-03-26 16:09:08
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
鹅蛋营养价值惊人,发现:常吃鹅蛋的人,不用多久,或有4个改善

鹅蛋营养价值惊人,发现:常吃鹅蛋的人,不用多久,或有4个改善

垚垚分享健康
2026-03-23 17:30:11
江西铜业:2025年净利润同比增长2.41% 拟10派6元

江西铜业:2025年净利润同比增长2.41% 拟10派6元

证券时报
2026-03-26 18:22:05
30万!不是工资,是汪峰每个月要给的抚养费

30万!不是工资,是汪峰每个月要给的抚养费

小光侃娱乐
2026-03-25 16:45:05
山东小伙横店演“公公”走红!行情好时日入四位数,没戏拍就去送外卖

山东小伙横店演“公公”走红!行情好时日入四位数,没戏拍就去送外卖

闪电新闻
2026-03-26 16:10:52
中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

澎湃新闻
2026-03-25 19:52:29
唐尚珺发文悼念张雪峰:不论功与过 仅此缅怀

唐尚珺发文悼念张雪峰:不论功与过 仅此缅怀

可乐谈情感
2026-03-26 18:24:44
张雪峰生前忠告:普通学生不要碰的20个专业,大家千万别忘记!

张雪峰生前忠告:普通学生不要碰的20个专业,大家千万别忘记!

教育导向分享
2026-03-25 22:28:37
2026-03-26 19:15:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
亲子
健康
旅游
军事航空

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

上海美华妇儿医院"康复中心"完成全面升级并正式焕新启幕

转头就晕的耳石症,能开车上班吗?

旅游要闻

世界那么大,来安美如画丨「与V四季行」倒计时1天,这份春日请柬请查收→

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版