网易首页 > 网易号 > 正文 申请入驻

o1方法性能无上限!姚班马腾宇等数学证明:推理token够多,就能解决任意问题

0
分享至

来源:量子位 | 公众号 QbitAI克雷西 发自 凹非寺

OpenAI用o1开启推理算力Scaling Law,能走多远?

数学证明来了:没有上限

斯隆奖得主马腾宇以及Google Brain推理团队创建者Denny Zhou联手证明,只要思维链足够长,Transformer就可以解决任何问题!

通过数学方法,他们证明了Transformer有能力模拟任意多项式大小的数字电路,论文已入选ICLR 2024。

用网友的话来说,CoT的集成缩小了Transformer与图灵机之间的差距,为Transformer实现图灵完备提供了可能。

这意味着,神经网络理论上可以高效解决复杂问题。

再说得直白些的话:Compute is all you need!

CoT让Transformer运行更高效

首先需要说明的是,“可以解决任何问题”是一个通俗化的表述,严格来说,论文的核心结论是思维链(CoT)能够显著提升Transformer的表达能力。

作者首先通过理论分析,提出对于固定深度、多项式宽度、常数精度的Transformer模型,如果不使用CoT,其表达能力将受限于AC0问题类别。(AC0是一类可以在并行计算中高效解决的问题,但不包括需要复杂序列化计算的问题。)

在固定指数位的情况下,固定深度、对数精度的Transformer模型即使引入了正确的舍入操作,其表达能力也仅限于TC0问题类别。

但当引入CoT时,固定深度、常数精度的Transformer模型就能够解决任何由大小为T的布尔电路解决的问题。

这表明CoT显著扩展了模型的表达能力,使其能够处理更复杂的问题。

为了验证理论分析,论文在四个核心问题上进行了实验,考虑了基础(base)、CoT和提示(hint)三种不同的训练设置:

  • 模运算(Modular Addition):并行计算问题,论文展示了CoT如何提高模型在这个问题上的准确性;

  • 置换群组合(Permutation Composition):需要序列化计算的问题,论文证明了CoT在解决这类问题上的有效性;

  • 迭代平方(Iterated Squaring):典型的序列化计算问题,论文展示了CoT如何使模型能够有效地解决这类问题;

  • 电路值问题(Circuit Value Problem):这是一个P完全问题,论文证明了即使是在模型深度较低的情况下,CoT也能使模型能够解决这类问题。

首先在可并行的模运算问题上,输入是若干个模7的数,输出是它们的模7和。

实验结果表明,所有设置下的Transformer都能够学习模加;但在较长序列(如n=16)上,CoT的优势更加明显。

这说明即使是可并行问题,CoT也能带来一定的效率提升。

在内在串行的置换群复合任务上,输入是S_5置换群中的若干个置换,输出是它们的复合结果。

结果,CoT提高了低深度模型的准确性——

不使用CoT的Transformer即使深度较大也难以学习该任务(准确率约20%),而使用CoT后即使是1层Transformer也能轻松学习(准确率100%)。

对于迭代平方任务,输入是一个质数p、一个整数r和若干个“^2”符号,输出是r^(2^k) mod p。

实验结果与置换群复合任务相似:不使用CoT时。即使16层Transformer也难以学习;而使用CoT后。1层Transformer就能完美求解。

这再次验证了理论分析,即迭代平方是内在串行的,需要CoT来提供必要的计算能力。

最后的电路值问题,输入是一个随机布尔电路的描述,输出是电路的最终输出值。

实验结果表明,在基准设置下,4层Transformer的准确率约为50%,8层约为90%,16层接近100%;

而使用CoT后,1层Transformer就能达到接近100%的准确率。

这验证了理论结果,即CoT赋予了Transformer任意电路的模拟能力,使其能够解决电路值问题这一P完全问题。

CoT+Transformer模拟门电路

除了上述实验,作者还对以下结论进行了理论证明:

对于任意一个可以用多项式大小的布尔电路计算的函数,都存在一个仅有常数层数的Transformer,可以通过足够多步数的思维链(CoT)来模拟电路的计算过程,从而计算出这个函数。

证明的思路是先将布尔电路视为一系列逻辑门的组合,然后利用Transformer中的位置编码为每个逻辑门及其状态分配一个独特的表示,进而通过逐步计算来模拟整个电路的执行过程。

这个证明的关键,在于利用CoT来逐步模拟电路中每个门的计算。

具体而言,对于一个有T(n)个门的电路,作者设计了一个4T(n)个token的输入序列。

这个序列包含了电路的完整描述,每个门用4个连续的token表示:门类型、两个输入门的索引和当前门的索引,并用输入序列中的第一个token指示了电路的输入值。

然后,作者构造了一个常数深度的Transformer,这个Transformer的嵌入维度只需要O(log n),就足以对T(n)个门进行编码。

在第一层,Transformer读取输入序列,并将电路的描述信息存储到其位置嵌入中。

接下来是关键的CoT步骤。Transformer逐步生成4T(n)个token的思维链,每4个token对应电路中的一个门。

对于第i个门,Transformer执行以下操作:

  • 利用注意力机制获取两个输入门的计算结果:如果输入门是电路的输入,可以直接从输入序列中读取;如果输入门是前面计算过的中间结果,则可以从思维链的对应位置读取。

  • 根据门的类型(与、或、非等),用前馈网络计算当前门的输出。

  • 将当前门的输出写回到思维链中,作为后续门的输入。

通过这一过程,Transformer逐步模拟了电路中每一个门的计算,并将中间结果存储在思维链中。在生成完整个思维链后,最后一个门的输出就对应了电路的最终输出。

也就是说,通过将电路“展开”为一个长度为O(T(n))的思维链,即使固有深度很浅,Transformer也可以逐步执行电路中的计算。

在此基础上,作者进一步证明,具有O(T(n))长度CoT的常数深度Transformer,可以模拟任意T(n)大小的电路,因此其计算能力等价于多项式大小电路。

理论打通了,实际可行吗?

能够模拟电路的计算过程,意味着CoT+Transformer能够解决可计算问题。

同时,这也说明只要有足够的CoT思考时间,大模型不需要扩展尺寸也能解决复杂问题。

有专业人士用一篇长文解释了CoT和图灵完备性之间的关系:

如果没有CoT,Transformer仅限于执行AC0复杂度类中的可并行任务; CoT推理从根本上改变了这一格局,它使Transformer能够通过中间推理token处理串行计算,从而增加计算深度并允许模型模拟AC0以外的更深层次的电路。 这一进步将Transformer带入了P/poly领域,即多项式大小电路可以解决的问题类型。 理论上,只要有足够的CoT步骤,Transformer就可以模拟多项式大小电路可以执行的任何计算,从而缩小了Transformer与图灵机之间的差距。 但实际限制仍然存在,例如有限的上下文窗口和计算资源。要充分利用这一潜力,需要仔细的模型设计和优化。

还有人把这项成果和OpenAI的“草莓”,也就是爆火的超强模型o1联系到了一起——

草莓同样也是思考的时间越长,准确性越高,按照这个思路,只要有好的模型,就能解决人类面临的一系列难题。

甚至有人表示,如果这项研究是真的,那么AGI就已经在到来的路上了……

不过也有人认为,这只是一个理论性的结果,距离实际应用还存在很大差距。

即使抛开理论与实际条件的不同,时间和成本问题就是一个重要的限制因素。

而且实验的一个假设是模型权重被正确设置,但实际模型的训练很难达到这一程度。

还有人指出,这种模拟门电路运算,并不是大模型实际学习和工作的方式。

换言之,如何将实际问题用布尔电路表示,是Transformer从能解决运算问题到能够解决实际问题的一个关键。

但现实中,诸如“如何治疗癌症”这样的问题,很难以电路的形式去描述。

虽然距离实际应用还有一系列问题要解决,但这项研究至少揭开了CoT的巨大潜力。

作者简介

本论文一共有四名作者,全部都是华人。

按署名顺序,第一位作者为清华姚班校友李志远,是马腾宇已毕业的博士生,现为芝加哥丰田技术学院(TTIC)的终身教授助理教授。

第二位作者是Hong Liu,也是马腾宇的博士生,现在在读,本科就读于清华,曾获得特等奖学金及优秀毕业生荣誉。

第三位是Google Brain推理团队创建者Denny Zhou,中科院博士,2017年加入Google前在微软担任了11年的高级研究员。

最后是2021年斯隆奖得主、斯坦福大学助理教授马腾宇,他是姚班校友、陈丹琦的同班同学。

论文地址:
https://arxiv.org/abs/2402.12875
参考链接:
[1]https://x.com/denny_zhou/status/1835761801453306089
[2]https://www.reddit.com/r/singularity/comments/1fiemv4/denny_zhou_founded_lead_reasoning_team_at_google/

未来知识库是“ 欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝杭州“宋城第一美女”小豆子去世!知情人透露原因,遗体已火化

曝杭州“宋城第一美女”小豆子去世!知情人透露原因,遗体已火化

青梅侃史啊
2026-06-28 07:13:50
全国唯一健在长征女红军在四川过105岁生日,“红军的火把,是她见过最亮的光”

全国唯一健在长征女红军在四川过105岁生日,“红军的火把,是她见过最亮的光”

封面新闻
2026-06-28 04:44:16
终于拔管 韩国正式宣告世界杯小组出局 煎熬3天等待:连收7个噩耗

终于拔管 韩国正式宣告世界杯小组出局 煎熬3天等待:连收7个噩耗

我爱英超
2026-06-28 09:40:10
巴媒:佛得角队长瑞安-门德斯涉嫌强奸,新西兰警方正在调查

巴媒:佛得角队长瑞安-门德斯涉嫌强奸,新西兰警方正在调查

懂球帝
2026-06-28 01:36:06
倒闭潮来袭!一深耕东莞15年、近500员工的大型电子厂宣告解散

倒闭潮来袭!一深耕东莞15年、近500员工的大型电子厂宣告解散

火山詩话
2026-06-28 07:42:30
北大哲学系主任毕业致辞:请原谅我不敢用堆砌起来的一组形容词来祝福你们

北大哲学系主任毕业致辞:请原谅我不敢用堆砌起来的一组形容词来祝福你们

新民周刊
2026-06-27 13:33:58
阿根廷奥地利阿尔及利亚三队出线,伊朗被淘汰了

阿根廷奥地利阿尔及利亚三队出线,伊朗被淘汰了

澎湃新闻
2026-06-28 12:02:27
一场3-1逆转,改变世界杯4队命运!从濒临淘汰到榜首,韩国被群嘲

一场3-1逆转,改变世界杯4队命运!从濒临淘汰到榜首,韩国被群嘲

阿纂看事
2026-06-28 11:06:06
以色列,终于活成世人讨厌的样子

以色列,终于活成世人讨厌的样子

春夫杂谈
2026-06-27 18:30:43
特朗普突然情绪失控,当着众人的面大声咆哮,中国是最后一根稻草

特朗普突然情绪失控,当着众人的面大声咆哮,中国是最后一根稻草

菲儿爱追电影
2026-06-28 06:06:13
哥伦比亚葡萄牙刚果(金)三队出线,韩国被淘汰了

哥伦比亚葡萄牙刚果(金)三队出线,韩国被淘汰了

澎湃新闻
2026-06-28 09:34:27
启境GT7:一辆被华为乾崑六大技术全面赋能的猎装车

启境GT7:一辆被华为乾崑六大技术全面赋能的猎装车

汽车预言家
2026-06-28 10:43:31
韩国出局痛失11亿韩元巨奖!韩媒怒斥:号称黄金一代却成史上最差

韩国出局痛失11亿韩元巨奖!韩媒怒斥:号称黄金一代却成史上最差

我爱英超
2026-06-28 09:57:59
肯佩斯:没想到本届世界杯梅西表现这么好,对于他我已经词穷

肯佩斯:没想到本届世界杯梅西表现这么好,对于他我已经词穷

懂球帝
2026-06-28 08:19:15
能顶峰相见吗,葡萄牙落位上半区,梅西和C罗决赛前无法相遇

能顶峰相见吗,葡萄牙落位上半区,梅西和C罗决赛前无法相遇

懂球帝
2026-06-28 09:34:49
12秒99夺冠!吴艳妮称破13秒很轻松,早上睡过导致“没机会化妆”

12秒99夺冠!吴艳妮称破13秒很轻松,早上睡过导致“没机会化妆”

里芃芃体育
2026-06-28 08:44:25
日本这下是真慌了,翻出18年前的协议求和,中国不给面子明确拒绝

日本这下是真慌了,翻出18年前的协议求和,中国不给面子明确拒绝

闻识
2026-06-28 09:47:37
中国铁路很多年没见过这么严峻的形势了

中国铁路很多年没见过这么严峻的形势了

吃货的分享
2026-06-26 20:07:18
世界杯32强对阵:巴西vs日本、葡萄牙vs克罗地亚、阿根廷vs佛得角

世界杯32强对阵:巴西vs日本、葡萄牙vs克罗地亚、阿根廷vs佛得角

懂球帝
2026-06-28 12:03:42
日本队3-2逆转世界第3,豪取7连胜全队欢庆

日本队3-2逆转世界第3,豪取7连胜全队欢庆

小哆说体育
2026-06-28 02:11:16
2026-06-28 12:40:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4848文章数 37482关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

三队出线世界杯32强席位正式落定 伊朗在最后一刻出局

头条要闻

三队出线世界杯32强席位正式落定 伊朗在最后一刻出局

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

白玉兰奖落幕,唯她被骂惨

财经要闻

两只股票撑起的韩国股市,半年熔断 33 次

汽车要闻

蔚来ES大五座体验 全场景行李舱让你带着生活出发

态度原创

健康
教育
时尚
艺术
本地

“无糖汤圆”是否隐藏着健康陷阱?

教育要闻

特级教师陈红梅:锻造“讲故事+演讲”引领力

今年夏天被“这件单品”刷屏,时髦又气质!

艺术要闻

15幅 乔治·莫兰迪的静物花卉特辑

本地新闻

世界杯球迷节:比球赛更好玩的派对

无障碍浏览 进入关怀版