网易首页 > 网易号 > 正文 申请入驻

谷歌 DeepMind 推 QuestBench 基准,测试 AI 模型的“补漏”能力

0
分享至

IT之家 4 月 26 日消息,科技媒体 marktechpost 昨日(4 月 25 日)发布博文,报道称谷歌 DeepMind 团队推出 QuestBench 新基准,通过约束满足问题(CSPs)框架,评估模型在推理任务中识别和获取缺失信息的能力。

现实挑战与信息获取需求

大型语言模型(LLMs)在推理任务中广受关注,涵盖数学、逻辑、规划和编码等领域。然而,现实世界的应用场景常常充满不确定性。

用户在提出数学问题时常忽略重要细节,机器人等自主系统也必须在部分可观测的环境中工作。这种理想化完整信息设定与现实不完备问题之间的矛盾,迫使 LLMs 发展主动信息获取能力。

IT之家援引博文介绍,识别信息缺口并生成针对性地澄清问题,成为模型在模糊场景中提供准确解决方案的关键。

QuestBench:评估信息缺口的新框架

为应对信息获取挑战,研究者推出了 QuestBench 基准,专门评估 LLMs 在推理任务中识别缺失信息的能力。

该基准将问题形式化为约束满足问题(CSPs),聚焦于“1-sufficient CSPs”,即只需知道一个未知变量值即可解决目标变量的问题。

QuestBench 覆盖逻辑推理(Logic-Q)、规划(Planning-Q)和小学数学(GSM-Q / GSME-Q)三个领域,按变量数量、约束数量、搜索深度和暴力搜索所需猜测次数四个难度轴分类,精准揭示模型的推理策略和性能瓶颈。

模型性能与未来改进空间

QuestBench 测试了包括 GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental 等领先模型,覆盖零样本、思维链和四样本设置。测试于 2024 年 6 月至 2025 年 3 月间进行,涉及 288 个 GSM-Q 和 151 个 GSME-Q 任务。

结果表明,思维链提示普遍提升了模型性能,而 Gemini 2.0 Flash Thinking Experimental 在规划任务中表现最佳。开源模型在逻辑推理上具竞争力,但在复杂数学问题上表现不佳。

研究指出,当前模型在简单代数问题上表现尚可,但随着问题复杂性增加,性能显著下降,凸显了在信息缺口识别和澄清能力上的改进空间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
耿同学再公开4篇疑造假论文,涉多位院士候选人、杰青、长江学者

耿同学再公开4篇疑造假论文,涉多位院士候选人、杰青、长江学者

宝哥精彩赛事
2026-05-29 01:02:33
超载客车凌晨追尾致13死,司机当场死亡,车主已被控制

超载客车凌晨追尾致13死,司机当场死亡,车主已被控制

中国新闻周刊
2026-05-28 22:46:20
越扒越有!林志玲8天塌房,再迎2大噩耗,大陆20年资源一夜清零

越扒越有!林志玲8天塌房,再迎2大噩耗,大陆20年资源一夜清零

科学发掘
2026-05-28 14:31:29
市值蒸发30亿,前法拉利主席:Luce是一辆中国人都不会抄袭的车

市值蒸发30亿,前法拉利主席:Luce是一辆中国人都不会抄袭的车

热点科技
2026-05-27 15:35:59
突然异动拉升!301123,20%涨停!

突然异动拉升!301123,20%涨停!

证券时报e公司
2026-05-28 11:19:00
50岁影帝屠家换钱:13年杀2妻3子换600万!每杀一人都拜佛装善!

50岁影帝屠家换钱:13年杀2妻3子换600万!每杀一人都拜佛装善!

莫地方
2026-05-22 01:50:03
瓜帅离任引发连锁反应!曼城队长决意离队 他欲寻求新挑战

瓜帅离任引发连锁反应!曼城队长决意离队 他欲寻求新挑战

球事百科吖
2026-05-29 04:17:08
一帅难求!伊劳拉选择水晶宫,AC米兰再列7目标,几无名帅

一帅难求!伊劳拉选择水晶宫,AC米兰再列7目标,几无名帅

大羽体坛
2026-05-28 10:39:45
抗炎才能抗衰、抗癌 !Nature重磅:炎症会在细胞留下持久记忆,影响衰老与疾病风险

抗炎才能抗衰、抗癌 !Nature重磅:炎症会在细胞留下持久记忆,影响衰老与疾病风险

医诺维
2026-05-28 17:00:29
门票价格“远远超过以往任何一届世界杯”,美国两州总检察长向FIFA发传票,要求其提供票务操作细节

门票价格“远远超过以往任何一届世界杯”,美国两州总检察长向FIFA发传票,要求其提供票务操作细节

环球网资讯
2026-05-28 15:05:15
原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

另子维爱读史
2026-05-27 07:52:25
入侵前兆!荷兰战舰海空一体强闯中国领土,我军罕见使用电磁压制

入侵前兆!荷兰战舰海空一体强闯中国领土,我军罕见使用电磁压制

叹为观止易
2026-05-28 05:57:08
保洁阿姨提醒:入住酒店,别用房间“花洒”洗澡,看完我恍然大悟

保洁阿姨提醒:入住酒店,别用房间“花洒”洗澡,看完我恍然大悟

家居设计师苏哥
2026-05-06 11:21:02
上海一保姆隐藏身份工作13年,业主发现她真正身份后,从30楼跳下去

上海一保姆隐藏身份工作13年,业主发现她真正身份后,从30楼跳下去

故事秘栈
2025-05-26 19:16:38
哥伦比亚28岁拳坛新星职业首秀落败当晚失踪,3天后河中惊现无头遗骸

哥伦比亚28岁拳坛新星职业首秀落败当晚失踪,3天后河中惊现无头遗骸

红星新闻
2026-05-28 13:22:22
45岁才明白:微信上基本不发朋友圈的,十有八九是这两种人

45岁才明白:微信上基本不发朋友圈的,十有八九是这两种人

心理观察局
2026-05-08 09:43:07
鸿蒙生态设备超13亿台,开源鸿蒙社区代码量突破1.4亿行

鸿蒙生态设备超13亿台,开源鸿蒙社区代码量突破1.4亿行

PChome电脑之家
2026-05-28 11:20:01
奥斯卡影后海伦·米伦当街遭围骂,丈夫一句“滚开”回敬

奥斯卡影后海伦·米伦当街遭围骂,丈夫一句“滚开”回敬

自愈小日子
2026-05-29 00:03:21
24GB+1TB直降1150元,618大降价的一款顶配手机,451万跑分+2K屏

24GB+1TB直降1150元,618大降价的一款顶配手机,451万跑分+2K屏

科技阿维
2026-05-28 22:10:07
你以为在冷战,其实早分手了!网友:有种看爽文的感觉,强烈推荐

你以为在冷战,其实早分手了!网友:有种看爽文的感觉,强烈推荐

解读热点事件
2026-03-17 00:05:06
2026-05-29 05:51:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
346756文章数 607226关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

美财长:特朗普不会接受“糟糕的伊朗协议”

头条要闻

美财长:特朗普不会接受“糟糕的伊朗协议”

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

汽车要闻

从智驾兜底到自研4nm芯片,再到迪迪虾,比亚迪智能化战略凭什么封神?

态度原创

房产
游戏
亲子
旅游
本地

房产要闻

突发重磅!三亚新机场公司正式成立!

《女神异闻录6》泄露主角太丑?金毛男主太路人!

亲子要闻

豆包否认建议家长“每顿给婴儿喂60毫升奶”!提醒遵医嘱

旅游要闻

游客在九寨沟被索要"照镜费" 景区:店家随口说的

本地新闻

用剪纸的方式,打开江苏扬州

无障碍浏览 进入关怀版