网易首页 > 网易号 > 正文 申请入驻

ICML 2025 | 大模型能在信息不完备的情况下问出正确的问题吗?

0
分享至

大语言模型(LLM)在数学推理和代码生成等任务中表现出色,尤其在链式思维(CoT)引导下,能将复杂问题拆解为清晰步骤。然而,现有研究主要聚焦于被动推理(PR),即模型在信息充分的前提下进行解答,而对现实中更常见的主动推理(AR)——模型需通过提问主动获取信息的情境——关注甚少。

主动推理广泛存在于实际应用中,如医生问诊、侦探破案等,核心在于“提出好问题”而非仅仅“找到答案”。尽管这一能力对通用人工智能至关重要,目前缺乏系统研究与评估方法。

为此,本文提出AR-Bench,一个专为主动推理设计的评测基准,并通过大量实验分析揭示当前顶尖LLM在该能力上的显著短板。我们的贡献包括:1)系统提出并定义主动推理任务;2)构建用于评估的AR-Bench基准;3)通过全面实验揭示LLM在AR方面的不足并指明未来方向。

论文标题: From Passive to Active Reasoning: Can Large Language Models Ask the Right Questions under Incomplete Information? 论文链接: https://arxiv.org/abs/2506.08295 代码链接: https://github.com/tmlr-group/AR-Bench

大语言模型(Large Language Model, LLM)在复杂推理任务中表现卓越。借助链式思维(Chain-of-Thought, CoT),LLM 能够将复杂问题分解为简单步骤,充分探索解题思路并得出正确答案。LLM 已在多个基准上展现出优异的推理能力,尤其是数学推理和代码生成。

然而,当前针对 LLM 推理能力的研究主要集中于被动推理(Passive Reasoning, PR),即在提供完整信息的前提下让模型进行推理。相比之下,对信息不完备场景下模型推理能力的研究明显不足。

这类场景在实际应用中十分常见,例如侦探需要通过询问和走访获取破案线索,医生需要通过问诊收集诊断依据。我们将这类需要主动获取信息的推理称为主动推理(Active Reasoning, AR)

目前关于 AR 的方法和基准研究较少,探索不足,制约了 LLM 在复杂现实场景中的应用。如图 1 所示,被动推理是直接从给定的充分信息中求解,而主动推理则需要从不完整的信息出发,通过多轮交互来获取关键线索,最终得出结论。可以说,被动推理的核心是找到答案,而主动推理的核心是提出正确的问题。

图 1 被动推理(左)与主动推理(右)的示意图。

尽管主动推理对实现通用人工智能至关重要,但目前学术界对此关注甚少,LLM 在这方面的能力也亟待一个系统性的评估。为此,我们提出了 AR-Bench,一个旨在全面评估大模型主动推理能力的基准,并进行了一系列深入的实验分析。

我们的主要贡献有如下三点:

  1. 新问题:我们提出了主动推理这一亟待研究的新问题,并系统定义了其相对于被动推理的核心挑战。

  2. 新基准:我们提出了专门用于评估主动推理能力的基准 AR-Bench ,系统的测试模型在复杂场景中的主动推理能力。

  3. 新发现:我们通过在 AR-Bench 上的全面评测,揭示了当前顶尖 LLM 在主动推理方面的普遍且严重的短板,并指出了未来的研究方向。

一、新问题:主动推理

传统的 LLM 推理研究,如 CoT,大多遵循被动推理的范式。在这种范式下,模型接收一个包含所有必要信息的问题,然后逐步地推导出最终答案。然而,现实中许多场景都存在着信息不完整的情况。以医疗诊断为例,医生需要通过与患者互动主动获取症状、病史等关键信息,而非被动接收完整数据。这类信息不完整的场景要求 LLM 通过提问、信息探索和动态交互来补充缺失信息,最终完成推理任务。

我们将这种推理范式定义为主动推理。在 AR 范式下,模型仅获得部分信息,并且必须通过与外部环境(如数据库、API 或人类用户)的交互来主动提问,以获取缺失的关键信息来解决问题。AR 综合了提问、检索和迭代推理,是一个更全面、更动态、更具挑战性的问题解决框架。

对主动推理问题的探索,有助于我们更好地理解和提升 LLM 在真实、复杂场景下的智能水平,推动其从一个被动的文本处理器,转变为一个能够主动解决问题的人工智能体。

图 2 PR 要求模型通过一步步推理从给定的问题得到正确答案,而 AR 要求模型分析当前任务,提出一系列关键的问题来获取重要信息,并利用这些信息得到正确的答案。本质上,PR 的核心要求是根据问题得到正确答案,而 AR 的核心要求是提出正确的问题来获取关键的信息。 二、新基准:AR-Bench

为了系统地评估和衡量 LLM 的主动推理能力,我们构建了 AR-Bench (Active Reasoning Benchmark)。AR-Bench 旨在模拟真实世界中的信息获取场景,它包含三个不同类型的任务,分别对应三种核心的推理能力:

侦探案件 (Detective Cases, DC): 模拟刑事案件调查,模型需要通过提问来搜集线索、分析案情,考验其常识推理能力。

情景谜题 (Situation Puzzles, SP): 也被称为 「海龟汤」,模型需要通过 「是 / 否」 问题来揭开一个看似矛盾或离奇情景背后的真相,考验其逻辑推理和发散思维能力。

数字猜谜 (Guessing Numbers, GN): 经典的主动推理游戏,模型需要根据反馈猜测一个由不重复数字组成的四位数,考验其符号推理能力。

图 3 AR-Bench 中三种任务的示例。

我们的评估框架采用多轮交互范式,其中提问方 LLM 与扮演信息源的 「回答者」 智能体进行动态对话。该评估体系包含两个维度:

1) 结果评估:在 DC 和 GN 任务中判断模型结论与标准答案的匹配度,对于开放式问题 SP 则采用 F1-Score 衡量回答相似度;

2) 过程评估:基于预设关键问题(Key Questions),通过 LLM-as-a-judge 方法以交互轮次为粒度评估对话是否有效解决关键问题(适用于 DC 和 SP ),而在 GN 任务中则直接计算反馈信息的数字准确率作为过程评分指标。这一综合评估方案不仅关注最终答案的正确性,更重视模型在交互过程中提出问题的质量和信息获取的有效性,从而全面刻画模型的主动推理能力。

三、新发现:大模型主动推理能力严重不足

我们在 AR-Bench 上对包括 GPT-4o 在内的多个先进 LLM,以及基于 prompting 和基于训练的推理方法进行了广泛测试。

实验结果(图 4,5)表明:目前的语言模型和推理方法都无法有效解决 AR-Bench 提出的问题,我们发现:

  1. 即使是最先进的 GPT-4o 模型也只能在 GN 任务上达到 35% 的准确率。

  2. 细粒度的指导和基于搜索的方法 (ToT)只能提供非常有限的性能提升。

  3. 基于训练的方法(SFT, DPO)甚至在一些任务上使模型性能变差。

图 4 不同模型在 AR-Bench 上的性能对比。

图 5 Llama-3.1-8B 和 Llama-3.1-70B 使用不同方法在 AR-Bench 上的性能对比。

我们还测试了两个先进的主动推理方法(Proactive CoT 和 Uncertanty of Thoughts)以及人类在 AR-Bench 上的表现(见图 6)。我们发现:

  1. 即使是目前提出的先进的主动推理方法也无法提升模型在 AR-Bench 上的性能。

  2. 人类在 AR-Bench 上的推理表现显著优于目前先进的语言模型。

图 6(左)先进的主动推理方法在 AR-Bench 上的性能表现,(右)人类在 AR-Bench 上的表现和 GPT-4o 对比。

为了更细致的研究语言模型在主动推理上的表现,理解目前模型和方法的不足,我们测量了模型在主动推理交互过程中模型对该任务的解决程度(见图 7,8),我们发现:

  1. 在交互过程中,模型的收益呈现递减趋势,在后期问题质量低下

  2. 较弱的模型问出的问题质量偏低,并且无法对交互机会进行有效利用

  3. 较强的模型能够利用多轮交互机会,持续获得有用的信息

  4. 基于搜索的方法在 AR-Bench 中依赖于每一轮评估问题质量的验证器的可靠性,表现在对 GN 任务有显著提升 (验证器基于数值反馈构建,简单可靠),而在 SP 任务下无法提升推理表现 (验证器基于自然语言反馈构建,复杂且相对不可靠)。

图 7 Llama-3.1-8B 和 Llama-3.1-70B 使用不同方法在 AR-Bench 推理中过程分的变化趋势。

图 8 不同模型在 AR-Bench 各任务上推理中过程分的变化趋势。

我们还进行在 AR-Bench 进行了三方面的消融实验(见图 9,10,11):

  1. 固定交互信息,探究不同模型的推理能力的表现。

  2. 延长交互的轮数,给予模型更多的机会进行信息获取,探究模型的表现变化。

  3. 探究在实验中扮演回答者的模型的可靠性。

我们发现:

  1. 更大的模型能够在固定的记录中提取出更多的有效信息。

  2. 简单延长交互轮数无法完全解决主动推理任务。

  3. 面对主模型提出的问题,回答者能够给出可靠的回复。

图 9 使用 Llama-3.1-70B 和 Llama-3.1-405B 在交互过程中获得的交互记录测试不同模型在给定信息的情况下给出正确结论的能力。

图 10 延长交互轮数后,比较模型的推理表现变化。

图 11 回答者模型的可靠性验证。

为更直观评估模型在主动推理中的表现,我们系统分析了不同任务中的典型错误模式(见图 12),并通过具体案例深入剖析了模型的失误原因(见图 13)。

我们发现:

  1. 模型会问出宽泛,不具体的问题。

  2. 模型会问出没有帮助的问题。

  3. 模型在主动推理中会频繁出现时间线误解,忽视证据,强行提出未经验证的假设,以及没有完全利用符号反馈等典型问题。

图 12 GPT-4o 模型在不同任务下的推理正确和推理错误的案例分析。

图 13 Llama-3.1-8B 和 GPT-4o 在不同任务下的出现的典型错误统计。 四、总结

我们的工作系统地定义了主动推理这一重要问题,并构建了 AR-Bench 作为社群的评估工具。我们的实验结果清晰地表明,当前的大语言模型虽然在被动推理上能力强大,但在更贴近 现实的主动推理场景下却举步维艰。

展望未来工作,我们认为 AR-Bench 存在以下拓展方向:

提升模型的主动推理能力:

  1. 采集小规模但是高质量的微调数据集

  2. 将强化学习推理方法(PPO, GRPO, DAPO)和推理模型适配到主动推理

  3. 为搜索方法开发更先进可靠的验证器,以提升搜索方法在主动推理上的表现

将 AR-Bench 拓展到更多的任务和领域:

  1. 医疗场景和定制化代理

  2. 多轮检索增强生成和工具调用

  3. 模拟真实环境和多模态场景,例如机器人和游戏

更多的实验分析和技术细节,请参阅我们的论文及源码,我们也将持续更新本工作的内容。

我们希望 AR-Bench 能够激发更多关于主动推理的研究,推动开发出能够主动提问、高效探索、真正解决现实世界问题的人工智能。非常感谢大家关注我们的工作!

来源:公众号 【机器之心】

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗“自杀无人艇”首战告捷!美旗舰油轮港内起火

伊朗“自杀无人艇”首战告捷!美旗舰油轮港内起火

子桑说
2026-03-03 16:16:43
伊朗一枚导弹,直接击碎价值98.3亿美元贸易链,钻石行业雪上加霜

伊朗一枚导弹,直接击碎价值98.3亿美元贸易链,钻石行业雪上加霜

火星方阵
2026-03-03 20:40:16
伊朗媒体称哈梅内伊之子穆杰塔巴平安

伊朗媒体称哈梅内伊之子穆杰塔巴平安

界面新闻
2026-03-03 21:30:43
伊朗称击中两处美军“萨德”反导系统目标

伊朗称击中两处美军“萨德”反导系统目标

界面新闻
2026-03-03 23:10:22
争议?祖国遭空袭后,伊朗女足亚洲杯集体拒唱国歌!主帅面带微笑

争议?祖国遭空袭后,伊朗女足亚洲杯集体拒唱国歌!主帅面带微笑

我爱英超
2026-03-03 11:43:31
第十三波反制!伊军对等斩首,76岁内塔死里逃生

第十三波反制!伊军对等斩首,76岁内塔死里逃生

书纪文谭
2026-03-03 16:20:57
父母若是有以下7种疾病,子女基本都会遗传,不少人并不清楚!

父母若是有以下7种疾病,子女基本都会遗传,不少人并不清楚!

健康之光
2026-03-03 17:35:03
五架阿联酋航空飞机今晨从迪拜起飞 执飞机型均为空客A380

五架阿联酋航空飞机今晨从迪拜起飞 执飞机型均为空客A380

财闻
2026-03-03 14:35:39
纳斯达克中国金龙指数跌幅扩大至5.0%

纳斯达克中国金龙指数跌幅扩大至5.0%

财联社
2026-03-03 23:23:18
特朗普“不惜一切”!全球股债齐崩

特朗普“不惜一切”!全球股债齐崩

华尔街见闻官方
2026-03-03 16:14:11
上海影院现场意外捉奸,女子露面身材姣好,丈夫目睹后声音都变了

上海影院现场意外捉奸,女子露面身材姣好,丈夫目睹后声音都变了

离离言几许
2026-03-02 12:52:58
你何必如丧考妣?

你何必如丧考妣?

细雨中的呼喊
2026-03-03 15:24:29
“人民渴望自由却等来机枪” 伊朗网球名宿:支持美国人解放我们

“人民渴望自由却等来机枪” 伊朗网球名宿:支持美国人解放我们

风过乡
2026-03-03 11:46:20
员工过年值班8天索要3倍工资 法院:每天打完卡玩手机 不支持 律师:其不符合“加班”的法定特征

员工过年值班8天索要3倍工资 法院:每天打完卡玩手机 不支持 律师:其不符合“加班”的法定特征

闪电新闻
2026-03-03 17:36:04
伊朗军方:24小时内共击落6架“赫尔墨斯”无人机

伊朗军方:24小时内共击落6架“赫尔墨斯”无人机

财联社
2026-03-04 00:39:05
袭击伊朗后,特朗普首次发表白宫讲话:需要打多久就打多久,不惜一切代价

袭击伊朗后,特朗普首次发表白宫讲话:需要打多久就打多久,不惜一切代价

上观新闻
2026-03-03 16:37:10
美伊打仗,又打火了中国制造!

美伊打仗,又打火了中国制造!

达文西看世界
2026-03-03 14:03:12
国家动真格了!不到48小时,4大名人禁言被封,没有一个值得同情

国家动真格了!不到48小时,4大名人禁言被封,没有一个值得同情

社会日日鲜
2026-03-03 05:19:50
美伊战争:美元回归,黄金失落

美伊战争:美元回归,黄金失落

智本社
2026-03-03 19:00:35
中方的资本,已经开始不受管控了,政府必须要提高警惕!

中方的资本,已经开始不受管控了,政府必须要提高警惕!

大静吖
2026-02-07 23:30:36
2026-03-04 04:08:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

拥抱AI的"牛马":边提效边自嘲"自费"上班

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

特朗普“不惜一切”!全球股债齐崩

汽车要闻

第一梯队辅助驾驶加持 iCAR V27定档3月13日上市

态度原创

健康
艺术
家居
公开课
军事航空

转头就晕的耳石症,能开车上班吗?

艺术要闻

柔滑裙装女神出场,惊艳程度超乎想象!

家居要闻

万物互联 享科技福祉

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:击中美空军基地大楼

无障碍浏览 进入关怀版