网易首页 > 网易号 > 正文 申请入驻

耶鲁大学破解AI推理难题:让机器像侦探一样层层递进思考

0
分享至


这项由耶鲁大学统计与数据科学系的Awni Altabaa、Siyu Chen、John Lafferty和Zhuoran Yang组成的研究团队完成的突破性研究,于2025年10月发表在arXiv预印本平台上,论文编号为arXiv:2510.14095v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当下的人工智能就像一个聪明但有些死板的学生,它能在熟悉的题型上表现出色,但一旦遇到比训练时更复杂的问题,就容易手足无措。比如一个AI模型在做简单的数学题时游刃有余,但当题目的复杂度超出训练范围时,准确率就会急剧下降。这种现象被称为"分布外泛化"问题,是当前AI领域的一个核心难题。

耶鲁大学的这支研究团队决定像破案一样解决这个问题。他们选择了一个看似简单但实际很有挑战性的测试场景:让AI在计算图上进行模运算。这就好比给侦探一个复杂的案件网络,每个节点都是一条线索,而AI需要按照特定的规则逐步推理出最终答案。

研究团队发现,传统的思维链(Chain-of-Thought)训练方法就像教学生背诵解题步骤,虽然在熟悉题型上效果不错,但遇到更复杂的问题时就容易出错。为了解决这个问题,他们提出了四个核心的改进机制,就像给AI侦探配备了四种专业工具。

**一、循环推理:让AI学会持续思考**

第一个改进就像教会AI如何进行持续性思考。传统的AI模型处理问题时,计算深度是固定的,就像一个侦探只能调查固定的几个步骤就必须得出结论。而新方法让AI能够根据问题的复杂程度自动调整思考的深度。

具体来说,研究团队引入了循环变换器块的概念。这就像给AI配备了一个可以重复使用的思维工具包。当面对简单问题时,AI只需要运行几轮思考;当遇到复杂问题时,它可以自动增加思考轮数。这种适应性计算让AI能够为不同难度的问题分配恰当的计算资源。

在他们的实验中,AI模型学会了逐层计算图中的数值。第一轮计算处理最基础的变量,第二轮处理依赖于第一轮结果的变量,以此类推。这种层层递进的方式让AI的推理过程变得更加系统和可靠。

**二、算法监督:手把手教会正确的推理路径**

第二个改进机制就像为AI配备了一位经验丰富的导师。传统的训练方法只告诉AI最终答案对错,就像只告诉学生考试成绩却不指出具体错在哪里。新方法则在AI的每一个思考步骤都提供指导。

研究团队设计了一套巧妙的监督系统。在AI进行循环推理的每一轮中,系统都会检查AI在当前步骤应该计算出的所有变量是否正确。这就像一位老师在学生解题过程中不断提醒:"现在你应该能算出这几个变量的值了,让我看看你做得对不对。"

这种细致的监督让AI能够学会正确的推理模式。当AI在第t轮思考时,它被要求正确计算出计算图中深度不超过t的所有节点的值。这种渐进式的监督确保了AI在每一步都走在正确的路径上。

**三、离散锚定:给AI的思维状态设置检查点**

第三个机制解决了一个关键问题:当AI进行长时间的循环推理时,它的内部表示可能会逐渐偏离正确轨道,就像一个指南针在长途旅行中可能出现累积偏差。

研究团队的解决方案就像为AI的思维过程设置了检查点系统。在每轮推理结束后,AI的连续内部状态被强制转换为离散的符号表示,然后重新嵌入为下一轮的输入。这个过程就像每走一段路就重新校准指南针一样。

这种离散化机制基于一个精心设计的四因子结构:语法类型、变量身份、数值和操作类型。比如当AI处理"17=x42"这样的表达式时,系统会将其分解为:数值因子(17)、等号因子、变量因子(x42)等。随着推理的进行,AI会逐步填充这些因子的具体值。

**四、错误纠正:让AI学会从错误中恢复**

第四个机制就像教会AI如何处理推理过程中的意外情况。在实际应用中,AI可能会在某个步骤出错,如果没有纠错能力,一个小错误就会导致整个推理链的崩塌。

研究团队通过一种巧妙的训练策略解决了这个问题。在训练过程中,他们会故意在AI的推理过程中引入随机错误,然后要求AI在后续步骤中识别并纠正这些错误。这就像故意在侦探的推理过程中植入错误线索,训练侦探识别和排除干扰信息的能力。

这种训练让AI具备了强大的鲁棒性。即使在长时间的推理过程中出现偶然错误,AI也能在后续步骤中发现并修正,确保最终得出正确结论。

**实验结果展现惊人效果**

研究团队在一个专门设计的数学推理任务上测试了他们的方法。这个任务要求AI在计算图上进行模23运算,计算图的复杂度可以通过节点数量精确控制。

实验结果令人印象深刻。传统的端到端训练方法在面对超出训练范围的复杂问题时几乎完全失效,准确率接近零。标准的思维链方法表现稍好,但在问题复杂度增加时性能也快速下降。

相比之下,结合了四种改进机制的新方法表现出色。在训练时只见过不超过32个节点的问题,但在测试时面对128个节点的复杂问题(复杂度提升了四倍)时,新方法仍能保持接近完美的准确率。这种跨越式的泛化能力在AI领域是非常罕见的成就。

更有趣的是,研究团队发现AI可以通过增加推理轮数来解决更复杂的问题。就像给侦探更多时间调查复杂案件一样,AI能够通过延长思考时间来攻克更难的挑战。实验显示,随着推理轮数的增加,AI能够解决的问题复杂度也相应提升。

**揭秘AI内部的推理机制**

研究团队还进行了一项独特的"大脑扫描"实验,通过机制可解释性分析深入了解AI内部的推理过程。他们发现,训练后的AI模型内部形成了一套精巧的信息处理流水线。

在第一层注意力机制中,AI学会了识别和复制变量名称。不同的注意力头分工明确,有些专门处理第一个变量,有些处理第二个变量,形成了专业化的分组模式。这就像一个侦探团队中每个人负责收集特定类型的线索。

第二层注意力机制则负责获取变量的具体数值。AI通过一种类似"归纳头"的机制,先找到变量名,然后检索该变量在之前计算中得出的数值。这个过程展现了AI在信息检索和组合方面的精巧设计。

最令人惊讶的是最后的前馈层的工作机制。研究团队通过频域分析发现,AI实际上是在频率空间中进行模运算的。它利用三角函数的周期性质自然地处理模运算,这与一些理论研究中预期的机制高度吻合。

**对未来AI发展的深远意义**

这项研究的意义远超过解决一个具体的数学问题。它为AI系统的设计提供了重要启示:真正强大的AI需要具备适应性推理能力,能够根据问题复杂度调整计算资源,并在推理过程中保持稳定性和纠错能力。

从更广泛的角度看,这项工作展示了如何让AI系统学会真正的算法思维,而不仅仅是模式匹配。通过循环推理、精确监督、状态锚定和错误纠正,AI能够在其潜在表示空间中进行原生推理,这比传统的逐词生成方式更加高效和可靠。

研究团队承认,他们选择的合成数学任务虽然为深入分析提供了便利,但未来还需要将这些原理扩展到更多样化、结构化程度较低的多任务场景中。这为AI推理能力的进一步提升指明了方向。

说到底,这项研究向我们展示了AI推理能力提升的一条可行路径。通过让AI学会像经验丰富的侦探一样系统性思考——保持专注、逐步推进、及时纠错、适应复杂度——我们或许能够构建出真正具备强大推理能力的智能系统。这不仅对AI技术发展具有重要意义,也为我们理解智能本身提供了新的视角。未来,这种能够在潜在空间中进行递归推理的AI架构,可能会在更多需要复杂推理的任务中发挥重要作用,从科学研究到工程设计,从医疗诊断到教育辅导,都有望受益于这种更加智能和可靠的推理能力。

Q&A

Q1:什么是分布外泛化问题?

A:分布外泛化问题是指AI模型在面对比训练时更复杂或不同类型的问题时性能急剧下降的现象。就像一个只做过简单数学题的学生,遇到复杂题目就不会做了。这是当前AI领域的核心挑战之一。

Q2:耶鲁大学提出的四种改进机制具体是什么?

A:四种机制包括:循环推理(让AI根据问题复杂度自动调整思考深度)、算法监督(在每个推理步骤提供指导)、离散锚定(为AI思维状态设置检查点防止偏离)、错误纠正(训练AI识别和修正推理过程中的错误)。

Q3:这项研究的实验效果有多好?

A:实验结果非常出色。新方法在只训练32节点问题的情况下,面对128节点的复杂问题(复杂度提升四倍)时仍能保持接近完美的准确率,而传统方法在这种情况下几乎完全失效,准确率接近零。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中东最大港口暂停运营

中东最大港口暂停运营

时间财经
2026-03-02 16:17:05
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
国内将逐渐停止“CT检查”?做完人就废了?医生告诉您真相!

国内将逐渐停止“CT检查”?做完人就废了?医生告诉您真相!

荆医生科普
2026-02-28 23:05:03
关窗!关窗!即将抵达江苏

关窗!关窗!即将抵达江苏

最江阴
2026-03-02 14:33:29
演都不演了!刚复出就开演唱会,票价卖到1280,到底谁给的自信

演都不演了!刚复出就开演唱会,票价卖到1280,到底谁给的自信

乐悠悠娱乐
2026-03-01 10:27:25
美以刺杀伊朗最高领袖和总统失败

美以刺杀伊朗最高领袖和总统失败

财联社
2026-02-28 18:48:32
美以袭击致伊朗555人死亡

美以袭击致伊朗555人死亡

财联社
2026-03-02 16:29:05
A股:大家要做好心理准备,明天(3月3日),股市或将这样变化

A股:大家要做好心理准备,明天(3月3日),股市或将这样变化

财经大拿
2026-03-02 14:09:44
内贾德死亡真相

内贾德死亡真相

哲空空
2026-03-02 07:50:14
明星过年大型 “卸妆现场”!全员恢复出厂设置,最接地气竟是他

明星过年大型 “卸妆现场”!全员恢复出厂设置,最接地气竟是他

艺能八卦局
2026-03-01 09:00:30
巴拿马变天,大清算开始了!真正的大国力量,有人根本一无所知!

巴拿马变天,大清算开始了!真正的大国力量,有人根本一无所知!

阿讯说天下
2026-03-01 14:33:45
难以置信!网传深圳一数学名师一年靠补课能挣500万,一节课900元

难以置信!网传深圳一数学名师一年靠补课能挣500万,一节课900元

火山詩话
2026-03-02 09:07:10
记者:上海队延长李弘权假期,让新晋奶爸享受初为人父的喜悦

记者:上海队延长李弘权假期,让新晋奶爸享受初为人父的喜悦

懂球帝
2026-03-02 14:20:07
白宫紧急叫停,伊朗不战而胜,美专家:特朗普还有另一场硬仗要打

白宫紧急叫停,伊朗不战而胜,美专家:特朗普还有另一场硬仗要打

兵说
2026-03-01 21:13:28
一个U盘装走180亿,200万人的血汗钱48小时人间蒸发

一个U盘装走180亿,200万人的血汗钱48小时人间蒸发

流苏晚晴
2026-03-01 16:54:18
伊朗发出警告:如果伊朗石油和天然气设施遭袭击,作为回应,该地区所有国家的油气设施都将被摧毁

伊朗发出警告:如果伊朗石油和天然气设施遭袭击,作为回应,该地区所有国家的油气设施都将被摧毁

大象新闻
2026-03-02 15:50:38
国际金价节节攀升 多家金店暂停投资金条销售 “预计短期内不会再销售投资金条”

国际金价节节攀升 多家金店暂停投资金条销售 “预计短期内不会再销售投资金条”

每日经济新闻
2026-03-02 18:00:18
再年轻也没用!江苏22岁樊宸铄去世,死因曝光,母亲含泪写悼文!

再年轻也没用!江苏22岁樊宸铄去世,死因曝光,母亲含泪写悼文!

阿纂看事
2026-03-01 16:52:47
外交部:一名中国公民在德黑兰遇难 ,对遇难同胞表示哀悼

外交部:一名中国公民在德黑兰遇难 ,对遇难同胞表示哀悼

每日经济新闻
2026-03-02 17:20:01
基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

混沌录
2026-03-02 17:15:04
2026-03-02 20:39:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7408文章数 553关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

特朗普称对伊行动还要打四周 学者:达成目标需"补枪"

头条要闻

特朗普称对伊行动还要打四周 学者:达成目标需"补枪"

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

美伊以冲突爆发,多位明星被困中东

财经要闻

金银大涨 市场仍在评估冲突会否长期化

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

健康
本地
手机
公开课
军事航空

转头就晕的耳石症,能开车上班吗?

本地新闻

津南好·四时总相宜

手机要闻

卢伟冰回应小米新机海外售价1.6万元:有信心冲击iPhone!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国中央司令部透露对伊朗动武全部武器装备清单

无障碍浏览 进入关怀版