网易首页 > 网易号 > 正文 申请入驻

大模型推理的天花板在哪里?

0
分享至

摘要

近期新一代前沿语言模型引入了大型推理模型(Large Reasoning Models,LRMs),这些模型在给出最终答案之前,会先生成详尽的思考过程。尽管它们在各类推理基准上的表现显著提升,其基本能力、规模化特性及内在局限性仍未得到充分理解。目前的评估主要聚焦于既有的数学和编码基准,强调最终答案的准确率;然而,这种评估范式往往受到数据污染的影响,且无法深入剖析推理痕迹(reasoning traces)的结构与质量。在此背景下,本文借助可控谜题环境,系统地填补这些认知空白:该环境既可精确操控组合复杂度,又保持逻辑结构一致,不仅可以评估最终答案,也能追踪并分析模型内部的推理轨迹,以洞见LRMs的“思考”方式。通过对多种谜题任务进行大规模实验证明,当前前沿LRMs在超过某一复杂度阈值后会出现准确率的完全崩溃;更令人意外的是,它们的推理努力随着问题复杂度上升而增加,但在达到临界点后即便拥有充足的推理token预算也会骤然下降,展现出一种反直觉的规模化极限。我们还将LRMs与标准大型语言模型(LLMs)在相同推理计算预算下进行对比,识别出三种性能区间:(1)在低复杂度任务上,标准模型反而意外地优于LRMs;(2)在中等复杂度任务上,LRMs因额外的思考环节而表现出优势;(3)在高复杂度任务上,二者皆陷入完全崩溃。此外,我们发现LRMs在精确计算方面存在明显局限:它们无法可靠地执行显式算法,在不同谜题任务中的推理表现也极不一致。进一步深入分析推理痕迹时,我们研究了模型探索解空间的模式并剖析了其计算行为,揭示了LRMs的优势与短板,并最终对其真正的推理能力提出了关键质疑。

关键词:Large Reasoning Models (LRMs)、问题复杂度 ,可控谜题环境 (controllable puzzle environments)、思维痕迹 (reasoning traces)、过度思考 (overthinking)、推理计算预算 (inference compute budget)

来源:启元洞见

编译:彭晨

作者:集智编辑部

论文题目:The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity 发表时间:2024年10月22日 论文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

近年来,随着大型语言模型(LLMs)的飞速发展,一类专门针对推理任务进行优化的“大型推理模型”(Large Reasoning Models, LRMs)应运而生。与传统仅输出答案的LLM不同,LRM通过“链式思维”(chain‐of‐thought, CoT)或自我反思机制,先生成详尽的思考过程再给出答案。尽管在诸多数学与编码基准上表现优异,其真正的推理能力、规模化性能及内在局限尚未得到系统评估。近期苹果公司发表论文,借助可控谜题环境(经典Tower of Hanoi、Checkers Jumping、River Crossing、Blocks World等),深入剖析LRM在不同复杂度下的表现,并揭示其“推理崩溃”与“过度思考”现象。

LRM的崛起与研究动机

随着OpenAI o1/o3、Anthropic Claude 3.7 Sonnet Thinking、Google Gemini Thinking等LRM的横空出世,研究者纷纷将其视作通向更通用人工智能的关键一步。早期LLM在推理基准上表现不佳,研究者尝试通过规模化训练数据及推理时计算(inference compute budget)来提升性能。思维链(CoT)与自我校验(self‐verification)策略,虽能在一定程度上提高准确率,却带来了所谓的“过度思考”(overthinking)——在找到正确思路后仍持续无效探索,浪费推理预算。

在模型的评估测试方面,大多只是聚焦于推理模型最终给出答案的准确率。此外,测试所使用的大量经典数学基准,如MATH-500、AIME系列常存在样本泄露或缺乏复杂度可控性等问题,难以分辨模型是凭借记忆还是算法推理。因此,本研究在此基础上,构建可精细控制复杂度且规则明晰的测试环境,同时检验模型的答案与思维痕迹,并通过模拟器精确核验中间解与最终结果,从而揭示LRM的真正“思考”面貌。

可控谜题环境的设计与优势

为了系统操控问题复杂度并保持逻辑结构一致,研究团队选取了四类经典谜题:

  • 河内塔(Tower of Hanoi):通过盘子数量控制组合深度,考察模型的递归规划与状态管理能力;

  • 跳棋谜题(Checkers Jumping):在线性布局中交换红蓝棋子位置,检测模型对局面转换规则的理解与前瞻能力;

  • 过河问题(River Crossing):多对“执行者—保护者”在约束条件下渡河,评估多主体协调与约束管理;

  • 积木世界(Blocks World):在堆栈间转换块状物,考验模型对依赖关系和临时重组的规划思路。

这四种环境均配备专门模拟器,实现对每一步移动合法性与最终目标状态的精确校验,为深入分析LRM“思维”提供了可靠工具。

图 1. 四种谜题环境的图解。每一列展示了谜题从初始状态(上)到中间状态(中)再到目标状态(下)的过程:河内塔(通过木桩运输圆盘)、跳棋(交换两种颜色标记的位置)、渡河(将个体运送过河)和方块世界(堆栈重新配置)。



实验设计与方法

研究以Claude 3.7 Sonnet(thinking/no‐thinking)和DeepSeek­R1/V3为代表,允许最大64k推理token预算。对每种谜题、每个复杂度N,均生成25个实例并取平均性能。实验主要衡量:

  • 答案准确率:模型最终是否正确完成谜题;

  • 推理token使用量(thinking tokens):LRM在思维过程阶段消耗的计算预算;

  • 中间解探索轨迹(reasoning traces)利用模拟器提取并标记思考中的每个候选解,分析其先后顺序及正确性。

图 2. 上图:我们的设置可以验证最终答案和中间推理痕迹,允许对模型思维行为进行详细分析。左下和中下:在低复杂度下,非思考模型更准确,效率更高。随着复杂性的增加,推理模型的表现会更好,但需要更多的tokens——直到它们都超过了一个临界阈值,并且跟踪时间更短。右下:对于正确解决的案例,Claude 3.7 Thinking倾向于在低复杂性的情况下早期找到答案,在高复杂性的情况下后期找到答案。在失败的情况下,它通常会关注早期的错误答案,浪费剩余的tokens预算。这两种情况都揭示了推理过程的低效。



复杂度对推理行为的影响:三大阶段

实验结果显示,随着问题复杂度的增加,LRM与非思维LLM在谜题环境中呈现三个显著推理阶段:

  1. 低复杂度阶段:标准LLM表现出色,推理更高效、准确率甚至超过LRM;

  2. 中等复杂度阶段:引入思维痕迹后,LRM开始在准确率上领先,但其推理token消耗也显著攀升;

  3. 高复杂度阶段:无论思维与否,所有模型准确率均骤降,出现“推理崩溃”现象——无法给出任何有效解答。

在高复杂度区域,发现LRM的推理token反而出现下降趋势——尽管仍有充足预算,模型却减少思考长度并放弃探索,导致完全失败;这一“计算规模极限”暗示了模型在面对更深组合链条时的固有障碍。此外,即便在中等复杂度,LRM也常在找到正确解后继续无谓探索,不仅拖慢推理速度,更加重了计算负担,印证了文献中所称的“过度思考”(overthinking)。

图 3. 思维模型(Claude 3.7 Sonnet with thinking, DeepSeek-R1)与非思维模型(Claude 3.7 Sonnet, DeepSeek-V3)在所有谜题环境和不同问题复杂程度中的准确性。

深入分析思考痕迹:探索与自我校正能力

借助模拟器提取每条思考痕迹中的中间解,本研究将正确与错误解在思维过程中的出现位置进行定量对比。结果显示:

  • 在简单问题中,正确解往往较早出现,但随后的错误解涌现,分布向思维后段倾斜;

  • 在中等复杂度中,模型初期多探索错误路径,只有在后期才汇聚到正确解;

  • 在复杂度阈值以上,思路全线崩溃,思考痕迹中再无任何正确片段。

这一行为模式揭示了LRM有限的自我校正能力:虽然具备一定纠错潜力,却因效率低下或计算预算管理失衡,难以持续收敛至解。

图 4. 左和中:在四个不同复杂程度的谜题的推理轨迹中,中间解决方案的位置和正确性。✓表示正确的解决方案;x 表示不正确的解决方案,用阴影表示分布密度;右图:河内塔在不同复杂程度下的解决方案准确性与思考位置。简单问题(N=1-3)表现出早期的准确性随着时间的推移而下降(过度思考),中等问题(N=4-7)表现出持续推理的准确性略有提高,复杂问题(N≥8)表现出持续接近零的准确性,表明完全推理失败。



意外发现与未解之谜

为验证模型的符号执行能力,研究团队在提示中直接提供了河内塔(Tower of Hanoi)的解决算法,结果却未见性能提升,崩溃阈值与默认场景基本一致,凸显LRM在精确执行给定逻辑步骤时的局限。此外,不同谜题环境中,模型的首个错误移动所处位置相差甚远:在河内塔中可保持数百步无失误,而在过河问题(River Crossing)中第一错仅出现在第四步,或许与训练数据中例子稀缺度有关,提示LRM仍在一定程度上依赖记忆而非纯粹算法推理。

图 5. (a)和(b)尽管在提示符中提供了求解算法,但执行失败发生在相似的点,突出了逻辑步骤执行中的推理模型局限性。(c)和(d)值得注意的是,Claude 3.7 Sonnet模型在河内塔的无错误序列比在过河情景中的早期错误长得多。



结论、展望与思考

通过可控谜题环境的系统评估,研究首次揭示了当前LRM在问题复杂度维度上的三大推理阶段与计算规模极限,深入剖析了“过度思考”与自我校正的不稳定性,并通过思考痕迹量化了模型的探索策略。研究挑战了对LRM推理能力的诸多假设,表明其在泛化与符号操作上仍面临重大瓶颈。

尽管谜题环境提供了优越的复杂度可控性与精确验证,但毕竟狭窄地聚焦于结构化规划问题,难以全面代表真实世界中知识密集型与开放式推理场景。此外,实验依赖闭源API,限制了对模型内部架构与权重的深入剖析。最后,模拟器的精确性在高度非结构化领域或难以复制,提示未来需拓展至自然语言理解、常识推理等更富挑战性的任务域。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到3月31日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深挖 | 纳塔莉:从贫民窟水果姐到LV“太子妃”,44岁的人生太彪悍!

深挖 | 纳塔莉:从贫民窟水果姐到LV“太子妃”,44岁的人生太彪悍!

新民周刊
2026-06-02 10:16:41
稻城亚丁怎么就“跪”了?!

稻城亚丁怎么就“跪”了?!

行者殷涛
2026-06-01 18:00:30
NBA名记爆料:亚历山大私下“施压”雷霆管理层,要求留下多尔特

NBA名记爆料:亚历山大私下“施压”雷霆管理层,要求留下多尔特

夜白侃球
2026-06-02 12:58:38
“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

大象新闻
2026-06-01 16:54:53
中组部明确:这八类人员列入公务员范围!

中组部明确:这八类人员列入公务员范围!

微法官
2026-06-02 08:55:27
形势到底有多严峻?国人心心念念的特斯拉竟会裁员,评论区炸锅…

形势到底有多严峻?国人心心念念的特斯拉竟会裁员,评论区炸锅…

慧翔百科
2026-06-02 08:27:57
中国国民党主席郑丽文正访问美国,外交部回应

中国国民党主席郑丽文正访问美国,外交部回应

澎湃新闻
2026-06-02 15:26:26
“小心!右边女儿是鸳鸯眼!”家长晒两个女儿的不同面相,引热议

“小心!右边女儿是鸳鸯眼!”家长晒两个女儿的不同面相,引热议

妍妍教育日记
2026-06-01 20:02:17
台当局外事主管部门肯定日菲海域划界谈判,外交部:数典忘祖,毫无底线

台当局外事主管部门肯定日菲海域划界谈判,外交部:数典忘祖,毫无底线

澎湃新闻
2026-06-02 15:26:28
“感觉妈妈彻底走了!”女子称20年老宅被亲戚擅自装光伏板,母亲种的树也被砍,叔叔:我好心没好报

“感觉妈妈彻底走了!”女子称20年老宅被亲戚擅自装光伏板,母亲种的树也被砍,叔叔:我好心没好报

大风新闻
2026-06-02 13:38:29
19年前,乔布斯干掉了手机键盘;昨天,黄仁勋干掉了电脑软件

19年前,乔布斯干掉了手机键盘;昨天,黄仁勋干掉了电脑软件

码头青年
2026-06-02 12:25:31
姚明恩师离世!名帅阿德尔曼去世享年79岁:曾率火箭打出22连胜

姚明恩师离世!名帅阿德尔曼去世享年79岁:曾率火箭打出22连胜

罗说NBA
2026-06-02 06:54:26
41岁夫妻因“房事频繁”双双入院,医生提醒:每周不应超过一个数

41岁夫妻因“房事频繁”双双入院,医生提醒:每周不应超过一个数

医学原创故事会
2026-05-29 23:34:07
师父来了!文班亚马的靠山,真TM硬啊!

师父来了!文班亚马的靠山,真TM硬啊!

左右为篮
2026-06-02 09:06:29
英国教授来中国考察,被这件事彻底震撼

英国教授来中国考察,被这件事彻底震撼

环球时报国际
2026-06-02 09:58:03
挪威深海发现载有中国瓷器的18世纪沉船:大量青花瓷碗重见天日,文物达数千件,目前正开展船只溯源工作并努力还原历史真相

挪威深海发现载有中国瓷器的18世纪沉船:大量青花瓷碗重见天日,文物达数千件,目前正开展船只溯源工作并努力还原历史真相

大风新闻
2026-06-02 12:15:18
伦敦世乒赛夺冠后,王皓宣布:王楚钦为国乒男队队长,梁靖崑为副队长

伦敦世乒赛夺冠后,王皓宣布:王楚钦为国乒男队队长,梁靖崑为副队长

环球网资讯
2026-06-02 14:32:33
唐山货车司机大热天捎七旬老人40公里,临下车老人突然变脸讹钱

唐山货车司机大热天捎七旬老人40公里,临下车老人突然变脸讹钱

听心堂
2026-06-02 12:03:05
果然被我猜中美国商务部突然宣布:

果然被我猜中美国商务部突然宣布:

叶葉夜
2026-06-02 11:53:15
男子称距离登顶珠峰仅剩77米但因冲顶线路拥堵需等待两小时,无奈决定全员下撤;此前珠峰被指“很堵”,南侧创下单日274人登顶新纪录

男子称距离登顶珠峰仅剩77米但因冲顶线路拥堵需等待两小时,无奈决定全员下撤;此前珠峰被指“很堵”,南侧创下单日274人登顶新纪录

大风新闻
2026-06-02 11:54:10
2026-06-02 15:51:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4785文章数 37472关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

郑丽文正在访美称愿意与特朗普会面 外交部表态

头条要闻

郑丽文正在访美称愿意与特朗普会面 外交部表态

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君婚礼曝光 深情热吻甜蜜

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

房产
健康
教育
时尚
本地

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

干细胞临床研究向患者收费?别踩坑

教育要闻

2026年6月山东教育考试月历来了

推广|| 入夏第一双鞋买得好成功!暴走1w步、搭遍小裙子

本地新闻

用剪纸的方式,打开江苏扬州

无障碍浏览 进入关怀版