网易首页 > 网易号 > 正文 申请入驻

学术分享丨大型语言模型推理前沿综述:推理扩展、学习推理与自主智能系统

0
分享至

转自 专知

推理是一种基础的认知过程,支持逻辑推导、问题求解和决策制定。随着大型语言模型(LLMs)的快速发展,推理已成为区别于传统模型(如简单聊天机器人)的关键能力,也是先进 AI 系统的重要标志之一。

在本综述中,我们从两个正交维度对现有方法进行了分类:

  1. 推理阶段(Regimes):定义推理是在何种阶段实现的——推理时刻(inference time)或通过专门训练获得;

  2. 系统架构(Architectures):定义参与推理过程的组成模块,区分独立式 LLM 与包含外部工具的自主型复合系统(agentic compound systems),以及多智能体协作系统(multi-agent collaborations)。

在每个维度下,我们又从两个关键视角进行分析:

  • 输入层面(Input level):聚焦于构建高质量提示(prompts)的技术,用以引导模型进行有效推理;

  • 输出层面(Output level):关注如何通过多样化候选输出的精炼过程提升推理质量。

这种分类方法为理解 LLM 推理不断演进的格局提供了系统化视角,重点突出了几大前沿趋势,例如:

  • 从**推理扩展(Inference Scaling)学习推理(Learning to Reason)**的转变(例如 DeepSeek-R1);

  • 从传统模型向**自主智能工作流(Agentic Workflows)**的过渡(例如 OpenAI Deep Research、Manus Agent)。

此外,我们还涵盖了广泛的学习算法,包括从监督微调到强化学习(如 PPO、GRPO),以及“推理器(reasoners)”与“验证器(verifiers)”的联合训练机制。

我们进一步探讨了多种 agentic 工作流的关键设计,包括经典范式(如“生成器-评估器”框架、LLM 辩论机制)和最新技术创新。最后,我们指出了正在兴起的趋势(例如面向特定领域的推理系统)以及尚未解决的挑战(如推理评估方法和数据质量问题)。

本综述旨在为 AI 研究者与开发者提供一个关于 LLM 推理的全面基础,推动构建更具智能性、可靠性与推理能力的下一代人工智能系统。

1 引言

推理是一种核心认知过程,涉及分析证据、构建论证并应用逻辑以形成结论或做出合理判断。它在众多智力活动中至关重要,例如决策制定、问题求解和批判性思维。对推理的研究跨越多个学科领域——哲学(Passmore, 1961)、心理学(Wason & Johnson-Laird, 1972)和计算机科学(Huth & Ryan, 2004),为我们理解人类如何解释信息、评估选项以及通过逻辑得出可靠结论提供了深刻见解。

近年来,大型语言模型(LLMs)在推理能力上展现出诸多新兴能力,如上下文学习(Dong 等,2024)与角色扮演(Shanahan 等,2023b),而推理已成为其最关键的能力之一。如图1所示,该研究领域迅速获得关注,通常被称为“LLM 推理”或“推理语言模型(Reasoning Language Models, RLM)”(Besta 等,2025)。这种关注的增加是可以理解的,因为推理能力:

  1. 具有挑战性:需要超越 LLMs 基于 token 的自回归生成方式,进行多步处理;

  2. 具有基础性:推理是智能的核心,尤其在规划和战略决策中;

  3. 极具前景:近期 LLMs 的进展为其发展指明了方向。

因此,推理被广泛视为迈向**通用人工智能(AGI)**的重要前提,远超当前以执行指令为核心的传统 AI 系统(Duenas & Ruiz, 2024)。

推理要求 LLMs 不仅仅是从问题直接生成答案,更需要产生思维过程(显性或隐性),形式为“问题 → 推理步骤 → 答案”。已有研究表明,仅仅通过扩展预训练规模并不能有效提升推理能力(Snell 等,2025;OpenAI,2025)。一种流行的替代方法是思维链(Chain-of-Thought, CoT)提示(Wei 等,2022b):通过修改提示词(如“让我们一步步思考”)或提供具体范例,使模型在无需额外训练的情况下,于测试时就能展现出分步推理过程。该方法已被证明显著提高了 LLMs 的推理准确性。

基于此,我们认为有效的 LLM 推理能力取决于两个关键因素:

  • 推理发生的方式与阶段

  • 参与推理过程的系统架构

因此,我们将现有研究分为两个正交维度:

  1. 推理机制(Regime):推理是在推理时刻(inference-time scaling)实现,还是通过训练进行学习(learning to reason);

  2. 系统架构(Architecture):推理是在单一的 LLM 内部完成,还是在与外部工具互动的“自主智能系统”中完成。

这两个维度彼此独立:同一架构可适配不同机制,反之亦然。这种交叉视角能够系统地梳理当前 LLM 推理方法,概括研究趋势(如从“推理扩展”向“学习推理”的转变、从单体模型到自主系统的演进)。值得注意的是,已有的综述大多只关注了这两个维度中的某一个,如“推理扩展”与“单体 LLM”,而较少同时考虑二者(详见后文比较)。

通过引入这种分类框架,我们希望为读者提供一个清晰的结构化视角,从而全面理解 LLM 推理领域,并为后续研究打下坚实基础。

1.1 推理机制(Reasoning Regimes)

推理扩展(Inference Scaling)
CoT 提示展示了在**推理时刻(test-time)**扩展推理能力的潜力。已有研究表明,在推理阶段优化计算资源(如设计提示和工作流)比扩大模型参数更有效(Snell 等,2024),因为它增强了模型的泛化能力。

由此衍生出一类新方法:推理时扩展技术。这些方法在生成答案前允许额外的推理步骤,而不是更新模型参数。其核心理念是:通过选择更优的推理路径来提升推理质量。

相关提示方法(Paranjape 等,2021;Sanh 等,2022;Mishra 等,2022)通过结构化提示增强推理能力。此外,推理扩展还依赖于搜索与规划策略(Dua 等,2022;Zhou 等,2023a;Khot 等,2023;Suzgun & Kalai,2024a)。但搜索策略的主要挑战之一在于候选解的评估困难——即使对人类而言也不易。现有评估方法可分为两类:

  • 结果奖励模型(Outcome Reward Models, ORMs):评估最终输出是否正确;

  • 过程奖励模型(Process Reward Models, PRMs):评估中间推理过程是否合理。

一个里程碑式成果是 OpenAI 的o1(2024年9月发布)(OpenAI 等,2024),其在数学、编程和科学问题上展示了推理扩展的强大能力:

“我们发现,随着强化学习训练量(训练计算)与推理时间(测试计算)的增加,o1 的表现持续提升。这种方法的扩展规律与传统的 LLM 预训练截然不同,我们正在持续探索其潜力。” ——OpenAI o1 发布博客

学习推理(Learning-to-Reason)
另一种策略是通过训练显式增强推理能力。这减少了对昂贵的测试时计算的依赖。然而,这一机制的主要挑战是:缺乏高质量的带注释推理轨迹数据,因为人工标注代价极高。

为此,研究者们探索了自动生成推理路径的方法,并发展了多种训练策略,如:

  • 长思维链的监督微调(Muennighoff 等,2025);

  • 偏好学习(如 DPO):通过人类偏好学习推理路径(Rafailov 等,2023);

  • 强化学习方法(如 GRPO):无需人工标注,自动习得复杂推理行为(Shao 等,2024)。

最具代表性的成果之一是DeepSeek-R1(2025年1月发布),该模型在资源消耗显著低于 OpenAI o1 的情况下实现了可比性能。其“自我演化”现象尤为突出:

“我们观察到,随着推理时间的增加,模型自然展现出一系列复杂行为,如‘反思’——即回顾并修正之前的推理步骤,以及探索替代性问题解决策略。这些行为并非显式编程实现,而是模型在强化学习环境中交互过程中自发涌现的。” ——DeepSeek-R1 “顿悟时刻”

1.2 推理系统架构(Reasoning System Architecture)

独立 LLM 与自主系统(Standalone LLM and Agentic Systems)
在“机制”维度之外,研究者还从系统架构角度探讨了 LLM 推理的拓展路径:即从传统的“下一词预测”模型,发展为具备交互性与自主性的agentic 系统,以实现更复杂的推理与决策能力。这类系统不仅面临推理扩展与学习推理的挑战,还引入了系统层面的复杂性,如:设计工作流、协调潜在冲突的动作等。

单智能体与多智能体系统(Single-Agent and Multi-Agent Systems)
为了区分“agentic 系统”与“独立 LLM”,我们采用 Kapoor 等人(2024)提出的观点,将智能体行为视为一个连续体。我们将其进一步划分为两类:

  • 单智能体系统:单一 LLM 与其环境中的工具进行交互,以增强其推理、行为与感知能力。
    这些工具包括:

    一些具有代表性的系统包括:

    它们展示了智能体如何与互联网交互以提升推理性能,执行信息检索、计算任务并整合多源数据:

    “Deep Research 可自主发现、推理并整合网络中的洞见。为实现这一目标,它在多个需要使用浏览器与 Python 工具的真实任务上进行了训练…… 虽然 o1 在编程、数学等技术领域展现了出色能力,但现实中的许多挑战更依赖广泛的上下文与多源信息获取。” ——OpenAI Deep Research 发布博客
    • Grok 3 Deep Search(2025年2月)

    • OpenAI Deep Research(2025年2月)

    • 外部知识库(Hammane 等,2024;Sun 等,2023)、

    • 验证器(Wan 等,2024c;Guan 等,2025)

    • 实用型应用,如代码解释器、日历、地图等(Yu 等,2023b;Lu 等,2024a)。
      通过这些工具,LLM 可以迭代式地优化自身的决策与问题求解过程。

  • 多智能体系统:不仅包括智能体与环境的交互,还允许多个智能体之间的通信与协作
    每个智能体承担特定角色,并通过消息交换完成任务。
    关键挑战包括:

    一个突出案例是多智能体系统产品Manus,展示了此类架构在真实应用中的强大潜力。

    • 设计高效的通信协议(如协同式 Chen 等,2023c;对抗式 Liang 等,2023b);

    • 协调动作,达成对最终输出结果的共识。

1.3 统一视角(Unified Perspectives)

尽管“推理扩展(inference scaling)”与“学习推理(learning to reason)”采用了不同方法,但它们本质上是互补且可统一的:

  • 推理扩展专注于选出最优推理路径

  • 学习推理则利用“好路径”和“坏路径”作为训练数据,以强化推理能力。

我们从两个关键视角统一这两类方法:

  1. 输入视角(Input Level)
    修改或增强提示,以引导模型朝着期望的推理方向前进。

  2. 输出视角(Output Level)
    模型生成多个候选输出,再进行评估、排序或精炼。

这种框架揭示出:许多推理扩展技术(如提示修改或路径搜索)也可用于生成用于学习的推理轨迹。反过来,学习到的推理模型也可受益于测试时的推理扩展策略,这激发了“面向推理扩展的学习推理方法”的研究(见第5.4节)。

这一统一视角同样适用于不同架构:

  • 对于独立式 LLM,我们继续采用“输入/输出”的范式;

  • 对于单智能体系统:

    • 输入被视为“感知”(perception);

    • 输出则为“行动”(action);

  • 对于多智能体系统:

    • 输入是“通信”(communication);

    • 输出是“协调行动”(coordination)。

这种类比为不同机制与架构之间建立了统一认知框架,提供了可系统化与可泛化的 LLM 推理分析工具(详见图2)。

1.4 本综述的目标与结构(Goal and Structure of the Survey)

本综述旨在提供一个系统全面的视角,梳理自思维链(CoT)提出以来,LLM 推理研究中的关键算法细节与代表性成果,覆盖机制维度架构维度

随着 2022 年 CoT 的提出(见图1),相关研究显著加速,本文也正是基于这一趋势,对从机制、架构到学习算法等多个维度的最新进展进行总结。

图2 展示了本综述的总体分类框架,两大维度下分别包含两个关键视角:

  • 输入/感知/通信(input / perception / communication)
    包括提示构造、环境感知信息的整合,以及智能体间的通信协议设计;

  • 输出/行动/协调(output / action / coordination)
    涉及输出整合、行为优化,以及跨智能体协调动作生成。

图3 描绘了本综述的整体结构。我们将从第2节开始介绍背景内容,包括术语定义、组件、机制与架构。之后依次展开:

  • 第3节:推理扩展;

  • 第4节:推理器与验证器的学习算法;

  • 第5节:学习推理;

    • 三类架构在其中均被覆盖:独立 LLM、单智能体、与多智能体系统;

  • 第6节:总结与未来挑战。

1.5 与已有综述的比较(Comparison to Related Surveys)

LLM 推理长期以来被视为 AI 研究中的基础性难题。已有综述的核心关注点包括:

  • 非形式逻辑推理:Huang & Chang(2023)系统梳理了 LLM 代理系统之前的推理演化;

  • 提示工程:Qiao 等(2023b)专注于提示技巧对推理性能的提升;

  • 自然语言推理的形式定义与分类:Yu 等(2024a)强调其哲学基础与现实应用之间的联系。

在技术路径上:

  • Dong 等(2024)对**上下文学习(ICL)**进行了全面回顾;

  • Zhou 等(2024b)从理论与实证角度剖析 ICL;

  • Welleck 等(2024)聚焦于三类生成算法:token 级、元生成与高效生成。

随着 RLMs(如 OpenAI 的 o1 与 DeepSeek 的 R1)的发布,“学习推理”逐渐成为主流方向:

  • Zeng 等(2024)、Xu 等(2025c)全面总结了此类方法;

  • Liu 等(2025a)专门探讨了形式逻辑推理

  • Yang 等(2024d)强调数学推理的自动化、可验证性与挑战;

  • Pezeshkpour 等(2024a)探讨了多智能体系统中的推理定义与结构。

Besta 等(2025)提出了模块化的 RLM 框架,覆盖推理结构、策略、基准与学习算法,但未涉及 agentic 与多智能体系统。

此外,尽管已有众多关于 agent 系统的综述(Xi 等,2023;Kapoor 等,2024),但很少专注于这些系统中的推理机制

因此,本综述将重点聚焦以下两大方向:

  1. 推理机制演化:从“推理扩展”到“学习推理”;

  2. 系统架构演进:从“独立 LLM”到“多智能体系统”。

在此框架下,我们统一讨论输入/输出视角下的核心技术,明确构建推理系统时应定制与设计的关键组件,并比较多种最新学习算法(如 RL),深入分析精炼器(refiners)与验证器(verifiers)的作用。

我们认为本综述恰逢其时,可为 AI 研究者提供最新的洞察,未来有望延伸至更广泛的研究维度,例如人机协作模式(Liang 等,2024)与自动化工作流设计(Hu 等,2025;Zhang 等,2024c;Zhou 等,2025)。

【免责声明】转载出于非商业性的教育和科研目的,只为学术新闻信息的传播,版权归原作者所有,如有侵权请立即与我们联系,我们将及时删除。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
19岁女孩被困柬埔寨事件,女孩发视频澄清称“她是自愿去的”。

19岁女孩被困柬埔寨事件,女孩发视频澄清称“她是自愿去的”。

好词好文
2026-04-03 10:47:28
浙大名嘴揭开残酷真相:当年恒大倒台,压根不是因为2万亿负债!

浙大名嘴揭开残酷真相:当年恒大倒台,压根不是因为2万亿负债!

阿器谈史
2026-04-02 13:31:44
刚从日本回来,说点不中听的:日本的真实面目,可能让你很意外

刚从日本回来,说点不中听的:日本的真实面目,可能让你很意外

复转这些年
2026-04-01 09:17:19
东契奇伤情更新,若报销刚好无法评奖,名嘴:1个动作损失5000万

东契奇伤情更新,若报销刚好无法评奖,名嘴:1个动作损失5000万

球盲姐
2026-04-03 14:17:24
4月2日俄乌:特朗普又放“狠话”,俄军损失突破130万

4月2日俄乌:特朗普又放“狠话”,俄军损失突破130万

山河路口
2026-04-02 17:16:01
开拓者118-106逆转鹈鹕,阿夫迪亚26+8+7,霍勒迪27+9,锡安15分

开拓者118-106逆转鹈鹕,阿夫迪亚26+8+7,霍勒迪27+9,锡安15分

懂球帝
2026-04-03 12:36:05
苏敏旅游6年后完全认不出,连面相都变了,网友:这16万花得值!

苏敏旅游6年后完全认不出,连面相都变了,网友:这16万花得值!

一盅情怀
2026-03-27 16:43:32
堕落的“清纯女星”酒井法子,这张腿间蝴蝶背后,隐藏着的故事

堕落的“清纯女星”酒井法子,这张腿间蝴蝶背后,隐藏着的故事

七阿姨爱八卦
2026-03-29 10:12:33
特朗普放言退出北约后,欧选择自救,不到24小时,英首相紧急回应

特朗普放言退出北约后,欧选择自救,不到24小时,英首相紧急回应

小樾说历史
2026-04-02 14:26:52
老板娘问我她大不大?我该怎么回答?

老板娘问我她大不大?我该怎么回答?

太急张三疯
2026-04-03 11:40:08
韩国Kospi指数盘中涨幅扩大至3.5%

韩国Kospi指数盘中涨幅扩大至3.5%

每日经济新闻
2026-04-03 08:37:46
丰田再降价!2.0L新车限时13.98万!

丰田再降价!2.0L新车限时13.98万!

手机评测室
2026-04-03 11:48:20
直播意外睡着反获十万打赏:真实才是流量密码

直播意外睡着反获十万打赏:真实才是流量密码

阿废冷眼观察所
2026-04-01 14:08:35
离婚多年,前儿媳发现名字赫然刻上婆婆墓碑,女子怒而起诉要求除名!

离婚多年,前儿媳发现名字赫然刻上婆婆墓碑,女子怒而起诉要求除名!

极目新闻
2026-04-03 08:32:51
宋轶素颜照火了,网友吵翻天,鼻子成焦点。

宋轶素颜照火了,网友吵翻天,鼻子成焦点。

草莓解说体育
2026-04-03 13:01:24
美国征兵年龄上调,特朗普儿子因身高免兵役?海豹大佬怒怼太双标

美国征兵年龄上调,特朗普儿子因身高免兵役?海豹大佬怒怼太双标

西楼知趣杂谈
2026-04-02 07:51:57
伊朗军队总司令谈可能的地面战:“不允许敌方一人生还”

伊朗军队总司令谈可能的地面战:“不允许敌方一人生还”

新华社
2026-04-02 17:08:05
随着约奇克4-1,2026乒乓球男子世界杯8强已出5席:日本2名将在列

随着约奇克4-1,2026乒乓球男子世界杯8强已出5席:日本2名将在列

侧身凌空斩
2026-04-03 12:57:30
一款运营三年的模拟经营游戏,是如何活力依旧的?

一款运营三年的模拟经营游戏,是如何活力依旧的?

36氪
2026-04-03 14:34:14
夫妻双双失业,还有三个娃娃要养!四胎也已临产

夫妻双双失业,还有三个娃娃要养!四胎也已临产

岁月有情1314
2026-04-02 14:27:15
2026-04-03 15:12:49
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
3967文章数 1489关注度
往期回顾 全部

科技要闻

5万辆库存车,给了特斯拉一记重拳

头条要闻

牛弹琴:美国干了一件令人发指的事 全世界都无法接受

头条要闻

牛弹琴:美国干了一件令人发指的事 全世界都无法接受

体育要闻

冲击世界杯失败,80岁老帅一气之下病倒了

娱乐要闻

《浪姐7》最新人气TOP 曾沛慈断层第一

财经要闻

专家称长期摄入“飘香剂”存在健康隐患

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

艺术
本地
时尚
家居
公开课

艺术要闻

吴昌硕『扇画』老辣古拙

本地新闻

跟着歌声游安徽,听古村回响

为什么“这个颜色”成为今年顶流?这样穿好看又治愈

家居要闻

温馨多元 爱的具象化

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版