网易首页 > 网易号 > 正文 申请入驻

耶鲁大学破解AI推理难题:让机器像侦探一样层层递进思考

0
分享至


这项由耶鲁大学统计与数据科学系的Awni Altabaa、Siyu Chen、John Lafferty和Zhuoran Yang组成的研究团队完成的突破性研究,于2025年10月发表在arXiv预印本平台上,论文编号为arXiv:2510.14095v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当下的人工智能就像一个聪明但有些死板的学生,它能在熟悉的题型上表现出色,但一旦遇到比训练时更复杂的问题,就容易手足无措。比如一个AI模型在做简单的数学题时游刃有余,但当题目的复杂度超出训练范围时,准确率就会急剧下降。这种现象被称为"分布外泛化"问题,是当前AI领域的一个核心难题。

耶鲁大学的这支研究团队决定像破案一样解决这个问题。他们选择了一个看似简单但实际很有挑战性的测试场景:让AI在计算图上进行模运算。这就好比给侦探一个复杂的案件网络,每个节点都是一条线索,而AI需要按照特定的规则逐步推理出最终答案。

研究团队发现,传统的思维链(Chain-of-Thought)训练方法就像教学生背诵解题步骤,虽然在熟悉题型上效果不错,但遇到更复杂的问题时就容易出错。为了解决这个问题,他们提出了四个核心的改进机制,就像给AI侦探配备了四种专业工具。

**一、循环推理:让AI学会持续思考**

第一个改进就像教会AI如何进行持续性思考。传统的AI模型处理问题时,计算深度是固定的,就像一个侦探只能调查固定的几个步骤就必须得出结论。而新方法让AI能够根据问题的复杂程度自动调整思考的深度。

具体来说,研究团队引入了循环变换器块的概念。这就像给AI配备了一个可以重复使用的思维工具包。当面对简单问题时,AI只需要运行几轮思考;当遇到复杂问题时,它可以自动增加思考轮数。这种适应性计算让AI能够为不同难度的问题分配恰当的计算资源。

在他们的实验中,AI模型学会了逐层计算图中的数值。第一轮计算处理最基础的变量,第二轮处理依赖于第一轮结果的变量,以此类推。这种层层递进的方式让AI的推理过程变得更加系统和可靠。

**二、算法监督:手把手教会正确的推理路径**

第二个改进机制就像为AI配备了一位经验丰富的导师。传统的训练方法只告诉AI最终答案对错,就像只告诉学生考试成绩却不指出具体错在哪里。新方法则在AI的每一个思考步骤都提供指导。

研究团队设计了一套巧妙的监督系统。在AI进行循环推理的每一轮中,系统都会检查AI在当前步骤应该计算出的所有变量是否正确。这就像一位老师在学生解题过程中不断提醒:"现在你应该能算出这几个变量的值了,让我看看你做得对不对。"

这种细致的监督让AI能够学会正确的推理模式。当AI在第t轮思考时,它被要求正确计算出计算图中深度不超过t的所有节点的值。这种渐进式的监督确保了AI在每一步都走在正确的路径上。

**三、离散锚定:给AI的思维状态设置检查点**

第三个机制解决了一个关键问题:当AI进行长时间的循环推理时,它的内部表示可能会逐渐偏离正确轨道,就像一个指南针在长途旅行中可能出现累积偏差。

研究团队的解决方案就像为AI的思维过程设置了检查点系统。在每轮推理结束后,AI的连续内部状态被强制转换为离散的符号表示,然后重新嵌入为下一轮的输入。这个过程就像每走一段路就重新校准指南针一样。

这种离散化机制基于一个精心设计的四因子结构:语法类型、变量身份、数值和操作类型。比如当AI处理"17=x42"这样的表达式时,系统会将其分解为:数值因子(17)、等号因子、变量因子(x42)等。随着推理的进行,AI会逐步填充这些因子的具体值。

**四、错误纠正:让AI学会从错误中恢复**

第四个机制就像教会AI如何处理推理过程中的意外情况。在实际应用中,AI可能会在某个步骤出错,如果没有纠错能力,一个小错误就会导致整个推理链的崩塌。

研究团队通过一种巧妙的训练策略解决了这个问题。在训练过程中,他们会故意在AI的推理过程中引入随机错误,然后要求AI在后续步骤中识别并纠正这些错误。这就像故意在侦探的推理过程中植入错误线索,训练侦探识别和排除干扰信息的能力。

这种训练让AI具备了强大的鲁棒性。即使在长时间的推理过程中出现偶然错误,AI也能在后续步骤中发现并修正,确保最终得出正确结论。

**实验结果展现惊人效果**

研究团队在一个专门设计的数学推理任务上测试了他们的方法。这个任务要求AI在计算图上进行模23运算,计算图的复杂度可以通过节点数量精确控制。

实验结果令人印象深刻。传统的端到端训练方法在面对超出训练范围的复杂问题时几乎完全失效,准确率接近零。标准的思维链方法表现稍好,但在问题复杂度增加时性能也快速下降。

相比之下,结合了四种改进机制的新方法表现出色。在训练时只见过不超过32个节点的问题,但在测试时面对128个节点的复杂问题(复杂度提升了四倍)时,新方法仍能保持接近完美的准确率。这种跨越式的泛化能力在AI领域是非常罕见的成就。

更有趣的是,研究团队发现AI可以通过增加推理轮数来解决更复杂的问题。就像给侦探更多时间调查复杂案件一样,AI能够通过延长思考时间来攻克更难的挑战。实验显示,随着推理轮数的增加,AI能够解决的问题复杂度也相应提升。

**揭秘AI内部的推理机制**

研究团队还进行了一项独特的"大脑扫描"实验,通过机制可解释性分析深入了解AI内部的推理过程。他们发现,训练后的AI模型内部形成了一套精巧的信息处理流水线。

在第一层注意力机制中,AI学会了识别和复制变量名称。不同的注意力头分工明确,有些专门处理第一个变量,有些处理第二个变量,形成了专业化的分组模式。这就像一个侦探团队中每个人负责收集特定类型的线索。

第二层注意力机制则负责获取变量的具体数值。AI通过一种类似"归纳头"的机制,先找到变量名,然后检索该变量在之前计算中得出的数值。这个过程展现了AI在信息检索和组合方面的精巧设计。

最令人惊讶的是最后的前馈层的工作机制。研究团队通过频域分析发现,AI实际上是在频率空间中进行模运算的。它利用三角函数的周期性质自然地处理模运算,这与一些理论研究中预期的机制高度吻合。

**对未来AI发展的深远意义**

这项研究的意义远超过解决一个具体的数学问题。它为AI系统的设计提供了重要启示:真正强大的AI需要具备适应性推理能力,能够根据问题复杂度调整计算资源,并在推理过程中保持稳定性和纠错能力。

从更广泛的角度看,这项工作展示了如何让AI系统学会真正的算法思维,而不仅仅是模式匹配。通过循环推理、精确监督、状态锚定和错误纠正,AI能够在其潜在表示空间中进行原生推理,这比传统的逐词生成方式更加高效和可靠。

研究团队承认,他们选择的合成数学任务虽然为深入分析提供了便利,但未来还需要将这些原理扩展到更多样化、结构化程度较低的多任务场景中。这为AI推理能力的进一步提升指明了方向。

说到底,这项研究向我们展示了AI推理能力提升的一条可行路径。通过让AI学会像经验丰富的侦探一样系统性思考——保持专注、逐步推进、及时纠错、适应复杂度——我们或许能够构建出真正具备强大推理能力的智能系统。这不仅对AI技术发展具有重要意义,也为我们理解智能本身提供了新的视角。未来,这种能够在潜在空间中进行递归推理的AI架构,可能会在更多需要复杂推理的任务中发挥重要作用,从科学研究到工程设计,从医疗诊断到教育辅导,都有望受益于这种更加智能和可靠的推理能力。

Q&A

Q1:什么是分布外泛化问题?

A:分布外泛化问题是指AI模型在面对比训练时更复杂或不同类型的问题时性能急剧下降的现象。就像一个只做过简单数学题的学生,遇到复杂题目就不会做了。这是当前AI领域的核心挑战之一。

Q2:耶鲁大学提出的四种改进机制具体是什么?

A:四种机制包括:循环推理(让AI根据问题复杂度自动调整思考深度)、算法监督(在每个推理步骤提供指导)、离散锚定(为AI思维状态设置检查点防止偏离)、错误纠正(训练AI识别和修正推理过程中的错误)。

Q3:这项研究的实验效果有多好?

A:实验结果非常出色。新方法在只训练32节点问题的情况下,面对128节点的复杂问题(复杂度提升四倍)时仍能保持接近完美的准确率,而传统方法在这种情况下几乎完全失效,准确率接近零。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝乌克兰地面部队攻击莫斯科!摧毁俄军防空阵地

曝乌克兰地面部队攻击莫斯科!摧毁俄军防空阵地

项鹏飞
2026-01-12 21:45:02
恭喜接财!1月16日起这3个生肖被财神盯上,横财滚滚富到过年

恭喜接财!1月16日起这3个生肖被财神盯上,横财滚滚富到过年

毅谈生肖
2026-01-15 11:54:09
钱再多有什么用?44岁演唱会上站不起来的周渝民,给所有人提了醒

钱再多有什么用?44岁演唱会上站不起来的周渝民,给所有人提了醒

动物奇奇怪怪
2026-01-15 10:58:36
54岁黎姿太平山跑步被偶遇!穿塑身裤遛狗,身材线条惊艳全网

54岁黎姿太平山跑步被偶遇!穿塑身裤遛狗,身材线条惊艳全网

行者聊官
2026-01-15 09:03:50
一位资深班主任发现,那些悄悄变好的孩子,父母都在做这4件事

一位资深班主任发现,那些悄悄变好的孩子,父母都在做这4件事

新东方家庭教育
2026-01-06 10:06:36
杨本芬:60年婚姻有性无爱,丈夫不出轨无家暴,却被精神凌虐

杨本芬:60年婚姻有性无爱,丈夫不出轨无家暴,却被精神凌虐

跳跳历史
2026-01-10 11:36:59
国务院国资委披露80多家央企负责人2024年度薪酬信息

国务院国资委披露80多家央企负责人2024年度薪酬信息

新京报
2026-01-14 19:52:03
董路,孙继海一较高下的方式,面向全国青训教练直播训练示范课

董路,孙继海一较高下的方式,面向全国青训教练直播训练示范课

足球分析员
2026-01-15 11:05:03
伊朗宣布暂时关闭领空,外媒预警:美军或24小时内采取军事行动

伊朗宣布暂时关闭领空,外媒预警:美军或24小时内采取军事行动

凤凰卫视
2026-01-15 10:15:06
广州放开摩托加油,就离解禁不远了?

广州放开摩托加油,就离解禁不远了?

楼市前线
2026-01-14 21:01:16
米亚托维奇:皇马最大的症结不在于教练,而是球队缺少主心骨

米亚托维奇:皇马最大的症结不在于教练,而是球队缺少主心骨

懂球帝
2026-01-15 07:41:06
最新民调出炉,江启臣大胜杨琼璎;张亚中刚被重用,就炮轰郑丽文

最新民调出炉,江启臣大胜杨琼璎;张亚中刚被重用,就炮轰郑丽文

临云史策
2026-01-14 18:04:47
泰国铁路工地事故已致32人死亡 当地公司表态担责

泰国铁路工地事故已致32人死亡 当地公司表态担责

新京报
2026-01-15 08:11:13
火箭4连败,杜兰特11中4低迷,申京13+4+5难挽败局

火箭4连败,杜兰特11中4低迷,申京13+4+5难挽败局

小犙拍客在北漂
2026-01-14 11:08:09
姚振华实名举报常熟市相关人员及单位,80亿资产被“骨折价”拍卖!

姚振华实名举报常熟市相关人员及单位,80亿资产被“骨折价”拍卖!

A活着
2026-01-14 16:22:02
美国政府批准 向中国出口 英伟达H200芯片

美国政府批准 向中国出口 英伟达H200芯片

每日经济新闻
2026-01-14 08:12:01
51票对50票!美国参议院否决限制特朗普战争权议案

51票对50票!美国参议院否决限制特朗普战争权议案

新京报
2026-01-15 08:28:04
开拓者官宣,再次下放杨瀚森!后脑勺已无大碍,迫切想证明自己!

开拓者官宣,再次下放杨瀚森!后脑勺已无大碍,迫切想证明自己!

篮球看比赛
2026-01-15 11:46:37
你老公“免死金牌”怎么来的?网友:跟婆婆吵多凶 都感恩一辈子

你老公“免死金牌”怎么来的?网友:跟婆婆吵多凶 都感恩一辈子

夜深爱杂谈
2025-12-24 16:45:13
杨勇儿子披露:父亲晚年经常梦到毛主席,梦中高呼‘毛主席万岁’

杨勇儿子披露:父亲晚年经常梦到毛主席,梦中高呼‘毛主席万岁’

大运河时空
2026-01-14 12:25:02
2026-01-15 12:51:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6880文章数 546关注度
往期回顾 全部

科技要闻

千问接入淘宝支付宝,大模型开卷办事能力

头条要闻

银币半年暴涨20倍 杭州有人一口气花30万买15公斤银砖

头条要闻

银币半年暴涨20倍 杭州有人一口气花30万买15公斤银砖

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

“疯狂的白银”,还能走多远?

汽车要闻

今年推出超40款新车,BBA要把失去的夺回来

态度原创

手机
房产
旅游
健康
艺术

手机要闻

苹果称王,三星郁闷,国产第一还是小米

房产要闻

热销17亿后!天正·三亚湾壹号,被爆违建!

旅游要闻

北非摩洛哥纪行:哈桑二世清真寺,大西洋畔的伊斯兰建筑奇迹(6)

血常规3项异常,是身体警报!

艺术要闻

历代书家集字春联大集合

无障碍浏览 进入关怀版