网易首页 > 网易号 > 正文 申请入驻

学术分享丨大型语言模型推理前沿综述:推理扩展、学习推理与自主智能系统

0
分享至

转自 专知

推理是一种基础的认知过程,支持逻辑推导、问题求解和决策制定。随着大型语言模型(LLMs)的快速发展,推理已成为区别于传统模型(如简单聊天机器人)的关键能力,也是先进 AI 系统的重要标志之一。

在本综述中,我们从两个正交维度对现有方法进行了分类:

  1. 推理阶段(Regimes):定义推理是在何种阶段实现的——推理时刻(inference time)或通过专门训练获得;

  2. 系统架构(Architectures):定义参与推理过程的组成模块,区分独立式 LLM 与包含外部工具的自主型复合系统(agentic compound systems),以及多智能体协作系统(multi-agent collaborations)。

在每个维度下,我们又从两个关键视角进行分析:

  • 输入层面(Input level):聚焦于构建高质量提示(prompts)的技术,用以引导模型进行有效推理;

  • 输出层面(Output level):关注如何通过多样化候选输出的精炼过程提升推理质量。

这种分类方法为理解 LLM 推理不断演进的格局提供了系统化视角,重点突出了几大前沿趋势,例如:

  • 从**推理扩展(Inference Scaling)学习推理(Learning to Reason)**的转变(例如 DeepSeek-R1);

  • 从传统模型向**自主智能工作流(Agentic Workflows)**的过渡(例如 OpenAI Deep Research、Manus Agent)。

此外,我们还涵盖了广泛的学习算法,包括从监督微调到强化学习(如 PPO、GRPO),以及“推理器(reasoners)”与“验证器(verifiers)”的联合训练机制。

我们进一步探讨了多种 agentic 工作流的关键设计,包括经典范式(如“生成器-评估器”框架、LLM 辩论机制)和最新技术创新。最后,我们指出了正在兴起的趋势(例如面向特定领域的推理系统)以及尚未解决的挑战(如推理评估方法和数据质量问题)。

本综述旨在为 AI 研究者与开发者提供一个关于 LLM 推理的全面基础,推动构建更具智能性、可靠性与推理能力的下一代人工智能系统。

1 引言

推理是一种核心认知过程,涉及分析证据、构建论证并应用逻辑以形成结论或做出合理判断。它在众多智力活动中至关重要,例如决策制定、问题求解和批判性思维。对推理的研究跨越多个学科领域——哲学(Passmore, 1961)、心理学(Wason & Johnson-Laird, 1972)和计算机科学(Huth & Ryan, 2004),为我们理解人类如何解释信息、评估选项以及通过逻辑得出可靠结论提供了深刻见解。

近年来,大型语言模型(LLMs)在推理能力上展现出诸多新兴能力,如上下文学习(Dong 等,2024)与角色扮演(Shanahan 等,2023b),而推理已成为其最关键的能力之一。如图1所示,该研究领域迅速获得关注,通常被称为“LLM 推理”或“推理语言模型(Reasoning Language Models, RLM)”(Besta 等,2025)。这种关注的增加是可以理解的,因为推理能力:

  1. 具有挑战性:需要超越 LLMs 基于 token 的自回归生成方式,进行多步处理;

  2. 具有基础性:推理是智能的核心,尤其在规划和战略决策中;

  3. 极具前景:近期 LLMs 的进展为其发展指明了方向。

因此,推理被广泛视为迈向**通用人工智能(AGI)**的重要前提,远超当前以执行指令为核心的传统 AI 系统(Duenas & Ruiz, 2024)。

推理要求 LLMs 不仅仅是从问题直接生成答案,更需要产生思维过程(显性或隐性),形式为“问题 → 推理步骤 → 答案”。已有研究表明,仅仅通过扩展预训练规模并不能有效提升推理能力(Snell 等,2025;OpenAI,2025)。一种流行的替代方法是思维链(Chain-of-Thought, CoT)提示(Wei 等,2022b):通过修改提示词(如“让我们一步步思考”)或提供具体范例,使模型在无需额外训练的情况下,于测试时就能展现出分步推理过程。该方法已被证明显著提高了 LLMs 的推理准确性。

基于此,我们认为有效的 LLM 推理能力取决于两个关键因素:

  • 推理发生的方式与阶段

  • 参与推理过程的系统架构

因此,我们将现有研究分为两个正交维度:

  1. 推理机制(Regime):推理是在推理时刻(inference-time scaling)实现,还是通过训练进行学习(learning to reason);

  2. 系统架构(Architecture):推理是在单一的 LLM 内部完成,还是在与外部工具互动的“自主智能系统”中完成。

这两个维度彼此独立:同一架构可适配不同机制,反之亦然。这种交叉视角能够系统地梳理当前 LLM 推理方法,概括研究趋势(如从“推理扩展”向“学习推理”的转变、从单体模型到自主系统的演进)。值得注意的是,已有的综述大多只关注了这两个维度中的某一个,如“推理扩展”与“单体 LLM”,而较少同时考虑二者(详见后文比较)。

通过引入这种分类框架,我们希望为读者提供一个清晰的结构化视角,从而全面理解 LLM 推理领域,并为后续研究打下坚实基础。

1.1 推理机制(Reasoning Regimes)

推理扩展(Inference Scaling)
CoT 提示展示了在**推理时刻(test-time)**扩展推理能力的潜力。已有研究表明,在推理阶段优化计算资源(如设计提示和工作流)比扩大模型参数更有效(Snell 等,2024),因为它增强了模型的泛化能力。

由此衍生出一类新方法:推理时扩展技术。这些方法在生成答案前允许额外的推理步骤,而不是更新模型参数。其核心理念是:通过选择更优的推理路径来提升推理质量。

相关提示方法(Paranjape 等,2021;Sanh 等,2022;Mishra 等,2022)通过结构化提示增强推理能力。此外,推理扩展还依赖于搜索与规划策略(Dua 等,2022;Zhou 等,2023a;Khot 等,2023;Suzgun & Kalai,2024a)。但搜索策略的主要挑战之一在于候选解的评估困难——即使对人类而言也不易。现有评估方法可分为两类:

  • 结果奖励模型(Outcome Reward Models, ORMs):评估最终输出是否正确;

  • 过程奖励模型(Process Reward Models, PRMs):评估中间推理过程是否合理。

一个里程碑式成果是 OpenAI 的o1(2024年9月发布)(OpenAI 等,2024),其在数学、编程和科学问题上展示了推理扩展的强大能力:

“我们发现,随着强化学习训练量(训练计算)与推理时间(测试计算)的增加,o1 的表现持续提升。这种方法的扩展规律与传统的 LLM 预训练截然不同,我们正在持续探索其潜力。” ——OpenAI o1 发布博客

学习推理(Learning-to-Reason)
另一种策略是通过训练显式增强推理能力。这减少了对昂贵的测试时计算的依赖。然而,这一机制的主要挑战是:缺乏高质量的带注释推理轨迹数据,因为人工标注代价极高。

为此,研究者们探索了自动生成推理路径的方法,并发展了多种训练策略,如:

  • 长思维链的监督微调(Muennighoff 等,2025);

  • 偏好学习(如 DPO):通过人类偏好学习推理路径(Rafailov 等,2023);

  • 强化学习方法(如 GRPO):无需人工标注,自动习得复杂推理行为(Shao 等,2024)。

最具代表性的成果之一是DeepSeek-R1(2025年1月发布),该模型在资源消耗显著低于 OpenAI o1 的情况下实现了可比性能。其“自我演化”现象尤为突出:

“我们观察到,随着推理时间的增加,模型自然展现出一系列复杂行为,如‘反思’——即回顾并修正之前的推理步骤,以及探索替代性问题解决策略。这些行为并非显式编程实现,而是模型在强化学习环境中交互过程中自发涌现的。” ——DeepSeek-R1 “顿悟时刻”

1.2 推理系统架构(Reasoning System Architecture)

独立 LLM 与自主系统(Standalone LLM and Agentic Systems)
在“机制”维度之外,研究者还从系统架构角度探讨了 LLM 推理的拓展路径:即从传统的“下一词预测”模型,发展为具备交互性与自主性的agentic 系统,以实现更复杂的推理与决策能力。这类系统不仅面临推理扩展与学习推理的挑战,还引入了系统层面的复杂性,如:设计工作流、协调潜在冲突的动作等。

单智能体与多智能体系统(Single-Agent and Multi-Agent Systems)
为了区分“agentic 系统”与“独立 LLM”,我们采用 Kapoor 等人(2024)提出的观点,将智能体行为视为一个连续体。我们将其进一步划分为两类:

  • 单智能体系统:单一 LLM 与其环境中的工具进行交互,以增强其推理、行为与感知能力。
    这些工具包括:

    一些具有代表性的系统包括:

    它们展示了智能体如何与互联网交互以提升推理性能,执行信息检索、计算任务并整合多源数据:

    “Deep Research 可自主发现、推理并整合网络中的洞见。为实现这一目标,它在多个需要使用浏览器与 Python 工具的真实任务上进行了训练…… 虽然 o1 在编程、数学等技术领域展现了出色能力,但现实中的许多挑战更依赖广泛的上下文与多源信息获取。” ——OpenAI Deep Research 发布博客
    • Grok 3 Deep Search(2025年2月)

    • OpenAI Deep Research(2025年2月)

    • 外部知识库(Hammane 等,2024;Sun 等,2023)、

    • 验证器(Wan 等,2024c;Guan 等,2025)

    • 实用型应用,如代码解释器、日历、地图等(Yu 等,2023b;Lu 等,2024a)。
      通过这些工具,LLM 可以迭代式地优化自身的决策与问题求解过程。

  • 多智能体系统:不仅包括智能体与环境的交互,还允许多个智能体之间的通信与协作
    每个智能体承担特定角色,并通过消息交换完成任务。
    关键挑战包括:

    一个突出案例是多智能体系统产品Manus,展示了此类架构在真实应用中的强大潜力。

    • 设计高效的通信协议(如协同式 Chen 等,2023c;对抗式 Liang 等,2023b);

    • 协调动作,达成对最终输出结果的共识。

1.3 统一视角(Unified Perspectives)

尽管“推理扩展(inference scaling)”与“学习推理(learning to reason)”采用了不同方法,但它们本质上是互补且可统一的:

  • 推理扩展专注于选出最优推理路径

  • 学习推理则利用“好路径”和“坏路径”作为训练数据,以强化推理能力。

我们从两个关键视角统一这两类方法:

  1. 输入视角(Input Level)
    修改或增强提示,以引导模型朝着期望的推理方向前进。

  2. 输出视角(Output Level)
    模型生成多个候选输出,再进行评估、排序或精炼。

这种框架揭示出:许多推理扩展技术(如提示修改或路径搜索)也可用于生成用于学习的推理轨迹。反过来,学习到的推理模型也可受益于测试时的推理扩展策略,这激发了“面向推理扩展的学习推理方法”的研究(见第5.4节)。

这一统一视角同样适用于不同架构:

  • 对于独立式 LLM,我们继续采用“输入/输出”的范式;

  • 对于单智能体系统:

    • 输入被视为“感知”(perception);

    • 输出则为“行动”(action);

  • 对于多智能体系统:

    • 输入是“通信”(communication);

    • 输出是“协调行动”(coordination)。

这种类比为不同机制与架构之间建立了统一认知框架,提供了可系统化与可泛化的 LLM 推理分析工具(详见图2)。

1.4 本综述的目标与结构(Goal and Structure of the Survey)

本综述旨在提供一个系统全面的视角,梳理自思维链(CoT)提出以来,LLM 推理研究中的关键算法细节与代表性成果,覆盖机制维度架构维度

随着 2022 年 CoT 的提出(见图1),相关研究显著加速,本文也正是基于这一趋势,对从机制、架构到学习算法等多个维度的最新进展进行总结。

图2 展示了本综述的总体分类框架,两大维度下分别包含两个关键视角:

  • 输入/感知/通信(input / perception / communication)
    包括提示构造、环境感知信息的整合,以及智能体间的通信协议设计;

  • 输出/行动/协调(output / action / coordination)
    涉及输出整合、行为优化,以及跨智能体协调动作生成。

图3 描绘了本综述的整体结构。我们将从第2节开始介绍背景内容,包括术语定义、组件、机制与架构。之后依次展开:

  • 第3节:推理扩展;

  • 第4节:推理器与验证器的学习算法;

  • 第5节:学习推理;

    • 三类架构在其中均被覆盖:独立 LLM、单智能体、与多智能体系统;

  • 第6节:总结与未来挑战。

1.5 与已有综述的比较(Comparison to Related Surveys)

LLM 推理长期以来被视为 AI 研究中的基础性难题。已有综述的核心关注点包括:

  • 非形式逻辑推理:Huang & Chang(2023)系统梳理了 LLM 代理系统之前的推理演化;

  • 提示工程:Qiao 等(2023b)专注于提示技巧对推理性能的提升;

  • 自然语言推理的形式定义与分类:Yu 等(2024a)强调其哲学基础与现实应用之间的联系。

在技术路径上:

  • Dong 等(2024)对**上下文学习(ICL)**进行了全面回顾;

  • Zhou 等(2024b)从理论与实证角度剖析 ICL;

  • Welleck 等(2024)聚焦于三类生成算法:token 级、元生成与高效生成。

随着 RLMs(如 OpenAI 的 o1 与 DeepSeek 的 R1)的发布,“学习推理”逐渐成为主流方向:

  • Zeng 等(2024)、Xu 等(2025c)全面总结了此类方法;

  • Liu 等(2025a)专门探讨了形式逻辑推理

  • Yang 等(2024d)强调数学推理的自动化、可验证性与挑战;

  • Pezeshkpour 等(2024a)探讨了多智能体系统中的推理定义与结构。

Besta 等(2025)提出了模块化的 RLM 框架,覆盖推理结构、策略、基准与学习算法,但未涉及 agentic 与多智能体系统。

此外,尽管已有众多关于 agent 系统的综述(Xi 等,2023;Kapoor 等,2024),但很少专注于这些系统中的推理机制

因此,本综述将重点聚焦以下两大方向:

  1. 推理机制演化:从“推理扩展”到“学习推理”;

  2. 系统架构演进:从“独立 LLM”到“多智能体系统”。

在此框架下,我们统一讨论输入/输出视角下的核心技术,明确构建推理系统时应定制与设计的关键组件,并比较多种最新学习算法(如 RL),深入分析精炼器(refiners)与验证器(verifiers)的作用。

我们认为本综述恰逢其时,可为 AI 研究者提供最新的洞察,未来有望延伸至更广泛的研究维度,例如人机协作模式(Liang 等,2024)与自动化工作流设计(Hu 等,2025;Zhang 等,2024c;Zhou 等,2025)。

【免责声明】转载出于非商业性的教育和科研目的,只为学术新闻信息的传播,版权归原作者所有,如有侵权请立即与我们联系,我们将及时删除。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
炸锅!特斯拉监督版 FSD 正式入华!7 年等待终落地,带你了解监督版

炸锅!特斯拉监督版 FSD 正式入华!7 年等待终落地,带你了解监督版

数码八叔
2026-05-21 18:31:08
伊朗最高领袖下令!

伊朗最高领袖下令!

证券时报
2026-05-21 19:34:24
A股:大家做好准备!明天(5月22日)的市场会这样走

A股:大家做好准备!明天(5月22日)的市场会这样走

风风顺
2026-05-22 00:30:05
男子买1万多元榴莲错付成11万多元,几个月后才发现,原是销售员谎称办退款偷偷侵占,商家:员工已被警方抓获,自己先垫付了10万余元给买家

男子买1万多元榴莲错付成11万多元,几个月后才发现,原是销售员谎称办退款偷偷侵占,商家:员工已被警方抓获,自己先垫付了10万余元给买家

极目新闻
2026-05-21 17:07:16
大反转!从“新春送温暖”到“520被带走”,郑弘到底经历了啥?

大反转!从“新春送温暖”到“520被带走”,郑弘到底经历了啥?

王二哥老搞笑
2026-05-21 16:17:08
阿森纳冠军到手翻脸!1亿砸向世界级神锋,头号射手直接扫地出门

阿森纳冠军到手翻脸!1亿砸向世界级神锋,头号射手直接扫地出门

一隅非生
2026-05-22 05:47:01
妈妈带2岁孩子送外卖后情绪崩溃:我凭什么背负这些还要养你!

妈妈带2岁孩子送外卖后情绪崩溃:我凭什么背负这些还要养你!

映射生活的身影
2026-05-20 16:55:01
福建药水杨梅惹众怒!浙江市场销量暴跌,老实果农凭啥背锅

福建药水杨梅惹众怒!浙江市场销量暴跌,老实果农凭啥背锅

健身狂人
2026-05-22 02:44:52
雪上加霜!法院出手后,王健林传坏消息,原来他和许家印处境一样

雪上加霜!法院出手后,王健林传坏消息,原来他和许家印处境一样

林轻吟
2026-04-18 07:46:46
张凌赫突然辞演,丞磊临时顶替,这剧拍得真闹心

张凌赫突然辞演,丞磊临时顶替,这剧拍得真闹心

乡野小珥
2026-05-21 16:10:07
铁路部门回应“3岁女童高铁座位与母亲相隔8节车厢”

铁路部门回应“3岁女童高铁座位与母亲相隔8节车厢”

新京报
2026-05-20 21:49:54
150万欧!罗马尼亚巨星有望加盟中超大连英博:年薪翻4倍

150万欧!罗马尼亚巨星有望加盟中超大连英博:年薪翻4倍

邱泽云
2026-05-21 22:19:52
利雅得胜利4-1达马克夺得沙特联赛冠军,C罗双响

利雅得胜利4-1达马克夺得沙特联赛冠军,C罗双响

懂球帝
2026-05-22 04:16:20
首位执法中国足协杯男足赛事的女裁判:非常激动,也很自豪

首位执法中国足协杯男足赛事的女裁判:非常激动,也很自豪

懂球帝
2026-05-21 20:17:06
美媒痛批特朗普:最愚蠢的错误,就是将中国定义为"同等级"对手

美媒痛批特朗普:最愚蠢的错误,就是将中国定义为"同等级"对手

老谢谈史
2026-05-21 02:29:05
缅北女魔头维嘉琳!最残酷的手段是割“小乳猪”,受害者多为男性

缅北女魔头维嘉琳!最残酷的手段是割“小乳猪”,受害者多为男性

马尔科故事会
2024-09-04 09:39:57
从汽车、机器人到大飞机,还有什么是长三角不能造的?

从汽车、机器人到大飞机,还有什么是长三角不能造的?

上观新闻
2026-05-21 08:21:14
让朱军被世人唾骂的弦子,如今过得如何?

让朱军被世人唾骂的弦子,如今过得如何?

钟厨娘
2026-05-19 20:27:14
法网签表出炉:郑钦文获好签!首轮战资格赛选手+与高芙同在2/4区

法网签表出炉:郑钦文获好签!首轮战资格赛选手+与高芙同在2/4区

我爱英超
2026-05-21 21:01:06
马筱梅汪小菲大观园直播,引路人围观,马筱梅产后肚子还没恢复

马筱梅汪小菲大观园直播,引路人围观,马筱梅产后肚子还没恢复

刘蕳爱下厨
2026-05-20 20:16:03
2026-05-22 06:24:49
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
4060文章数 1489关注度
往期回顾 全部

科技要闻

小米YU7 GT正式发布:售价38.99万元

头条要闻

特朗普再威胁伊朗交出浓缩铀 称到手后或销毁

头条要闻

特朗普再威胁伊朗交出浓缩铀 称到手后或销毁

体育要闻

常住人口7000的小镇,拥有了一支德甲球队

娱乐要闻

反转!金秀贤与金赛纶未成年时交往不实

财经要闻

潮水退去,裸泳的一定不止五粮液

汽车要闻

雷军:YU7首战Model Y八败两胜 输给全球销冠不丢人

态度原创

游戏
亲子
教育
公开课
军事航空

PS大作官宣重磅更新!PSSR安排了!还有大量新功能

亲子要闻

婴幼儿湿巾检出“锑”,为什么说不清是否安全?

教育要闻

高考地理热点专题:积雪的六种效应,考前必看

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗警告:任何新袭击将促使战场扩大到中东以外

无障碍浏览 进入关怀版