网易首页 > 网易号 > 正文 申请入驻

谷歌 DeepMind 推 QuestBench 基准,测试 AI 模型的“补漏”能力

0
分享至

IT之家 4 月 26 日消息,科技媒体 marktechpost 昨日(4 月 25 日)发布博文,报道称谷歌 DeepMind 团队推出 QuestBench 新基准,通过约束满足问题(CSPs)框架,评估模型在推理任务中识别和获取缺失信息的能力。

现实挑战与信息获取需求

大型语言模型(LLMs)在推理任务中广受关注,涵盖数学、逻辑、规划和编码等领域。然而,现实世界的应用场景常常充满不确定性。

用户在提出数学问题时常忽略重要细节,机器人等自主系统也必须在部分可观测的环境中工作。这种理想化完整信息设定与现实不完备问题之间的矛盾,迫使 LLMs 发展主动信息获取能力。

IT之家援引博文介绍,识别信息缺口并生成针对性地澄清问题,成为模型在模糊场景中提供准确解决方案的关键。

QuestBench:评估信息缺口的新框架

为应对信息获取挑战,研究者推出了 QuestBench 基准,专门评估 LLMs 在推理任务中识别缺失信息的能力。

该基准将问题形式化为约束满足问题(CSPs),聚焦于“1-sufficient CSPs”,即只需知道一个未知变量值即可解决目标变量的问题。

QuestBench 覆盖逻辑推理(Logic-Q)、规划(Planning-Q)和小学数学(GSM-Q / GSME-Q)三个领域,按变量数量、约束数量、搜索深度和暴力搜索所需猜测次数四个难度轴分类,精准揭示模型的推理策略和性能瓶颈。

模型性能与未来改进空间

QuestBench 测试了包括 GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental 等领先模型,覆盖零样本、思维链和四样本设置。测试于 2024 年 6 月至 2025 年 3 月间进行,涉及 288 个 GSM-Q 和 151 个 GSME-Q 任务。

结果表明,思维链提示普遍提升了模型性能,而 Gemini 2.0 Flash Thinking Experimental 在规划任务中表现最佳。开源模型在逻辑推理上具竞争力,但在复杂数学问题上表现不佳。

研究指出,当前模型在简单代数问题上表现尚可,但随着问题复杂性增加,性能显著下降,凸显了在信息缺口识别和澄清能力上的改进空间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
听鉴世界 | 米兰冬奥会开幕式排练正酣 “和谐”盛宴将彰显意大利式匠心与浪漫

听鉴世界 | 米兰冬奥会开幕式排练正酣 “和谐”盛宴将彰显意大利式匠心与浪漫

国际在线
2026-01-27 12:27:08
从“论斤买”升级为“论箱买”,车厘子大降价!有网友称品质普遍不佳且口感发苦,专家:前期压货致不新鲜

从“论斤买”升级为“论箱买”,车厘子大降价!有网友称品质普遍不佳且口感发苦,专家:前期压货致不新鲜

每日经济新闻
2026-02-06 12:27:35
谢娜主持微博之夜!挤眉弄眼,摇头晃脑,镂空裙影响尼格买提主持

谢娜主持微博之夜!挤眉弄眼,摇头晃脑,镂空裙影响尼格买提主持

手工制作阿歼
2026-02-06 16:37:52
“新疆棉花”事件的真凶许秀中,卖国求荣,如今生活困难却想回国

“新疆棉花”事件的真凶许秀中,卖国求荣,如今生活困难却想回国

北有南栀
2026-01-21 17:50:03
卖一部亏一部?知名大厂“暂停研发旗舰机”,手机圈真要变天了…

卖一部亏一部?知名大厂“暂停研发旗舰机”,手机圈真要变天了…

躺倒鸭
2026-02-05 13:47:41
英超仅1球!曼联弃将坑惨切尔西 夏窗面临被清洗

英超仅1球!曼联弃将坑惨切尔西 夏窗面临被清洗

球事百科吖
2026-02-07 07:07:41
蛋白质:老年人的“生命线”,这6种优质蛋白食物,该吃就吃!

蛋白质:老年人的“生命线”,这6种优质蛋白食物,该吃就吃!

健康科普365
2026-02-03 07:45:06
广西大桥讨薪6人获刑,百万血汗钱要不回,先动手保安却全身而退

广西大桥讨薪6人获刑,百万血汗钱要不回,先动手保安却全身而退

今朝牛马
2026-02-06 18:17:14
钱再多有啥用?70岁身价千亿的比尔盖茨,还是要为23岁女儿操碎心

钱再多有啥用?70岁身价千亿的比尔盖茨,还是要为23岁女儿操碎心

素衣读史
2025-12-29 17:41:37
冬窗绝杀!徐彬死而复生租借英甲,2小时双城狂奔上演生死时速!

冬窗绝杀!徐彬死而复生租借英甲,2小时双城狂奔上演生死时速!

落夜足球
2026-02-07 01:07:00
乌军一年阵亡不到10000人?俄军:光尸体就给你1.6万多具了

乌军一年阵亡不到10000人?俄军:光尸体就给你1.6万多具了

战风
2026-02-06 15:17:57
一位中国交易员重仓做空白银,账面浮盈超20亿!

一位中国交易员重仓做空白银,账面浮盈超20亿!

汇商Forexpress
2026-02-06 15:57:52
林傲霏的惊人秘密:林傲霏在中央戏剧学院竟有两个名字

林傲霏的惊人秘密:林傲霏在中央戏剧学院竟有两个名字

复转这些年
2026-02-06 22:42:57
苹果突然上架4款iPhone,果粉们都炸了

苹果突然上架4款iPhone,果粉们都炸了

3C毒物
2026-02-07 00:08:26
释新闻|斯塔默面临下台危机,爱泼斯坦丑闻如何撼动英国政坛?

释新闻|斯塔默面临下台危机,爱泼斯坦丑闻如何撼动英国政坛?

澎湃新闻
2026-02-06 12:53:22
武汉:中心城区放开摩托车上牌

武汉:中心城区放开摩托车上牌

故乡江城之声
2026-02-06 19:55:47
“家境差回去也只能玩手机”,大学生戳中父母痛处:穷就别提要求

“家境差回去也只能玩手机”,大学生戳中父母痛处:穷就别提要求

妍妍教育日记
2026-02-05 20:03:05
索尼《地平线》新作遭玩家吐槽:女性角色这么胖

索尼《地平线》新作遭玩家吐槽:女性角色这么胖

3DM游戏
2026-02-07 07:18:04
中国南方资源枯竭报告:南北方差距太大了 | 地球知识局

中国南方资源枯竭报告:南北方差距太大了 | 地球知识局

地球知识局
2026-02-06 20:31:39
从比特币到黄金,全球金融市场为何遭遇“无差别”抛售?

从比特币到黄金,全球金融市场为何遭遇“无差别”抛售?

界面新闻
2026-02-06 13:56:10
2026-02-07 07:55:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
328624文章数 606976关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

大V称生活被助理"复制":她在我家穿我的衣服拍照

头条要闻

大V称生活被助理"复制":她在我家穿我的衣服拍照

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

教育
手机
旅游
公开课
军事航空

教育要闻

怎样找旋转中心?两种方法都要会!

手机要闻

iPhone18 Pro再次被确认:外观大改+5000mAh电池,细节也很清晰了

旅游要闻

属马、姓马、名字带马,免票景区第二波!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国“肯尼迪”号核动力航母完成首次海试

无障碍浏览 进入关怀版