网易首页 > 网易号 > 正文 申请入驻

谷歌 DeepMind 推 QuestBench 基准,测试 AI 模型的“补漏”能力

0
分享至

IT之家 4 月 26 日消息,科技媒体 marktechpost 昨日(4 月 25 日)发布博文,报道称谷歌 DeepMind 团队推出 QuestBench 新基准,通过约束满足问题(CSPs)框架,评估模型在推理任务中识别和获取缺失信息的能力。

现实挑战与信息获取需求

大型语言模型(LLMs)在推理任务中广受关注,涵盖数学、逻辑、规划和编码等领域。然而,现实世界的应用场景常常充满不确定性。

用户在提出数学问题时常忽略重要细节,机器人等自主系统也必须在部分可观测的环境中工作。这种理想化完整信息设定与现实不完备问题之间的矛盾,迫使 LLMs 发展主动信息获取能力。

IT之家援引博文介绍,识别信息缺口并生成针对性地澄清问题,成为模型在模糊场景中提供准确解决方案的关键。

QuestBench:评估信息缺口的新框架

为应对信息获取挑战,研究者推出了 QuestBench 基准,专门评估 LLMs 在推理任务中识别缺失信息的能力。

该基准将问题形式化为约束满足问题(CSPs),聚焦于“1-sufficient CSPs”,即只需知道一个未知变量值即可解决目标变量的问题。

QuestBench 覆盖逻辑推理(Logic-Q)、规划(Planning-Q)和小学数学(GSM-Q / GSME-Q)三个领域,按变量数量、约束数量、搜索深度和暴力搜索所需猜测次数四个难度轴分类,精准揭示模型的推理策略和性能瓶颈。

模型性能与未来改进空间

QuestBench 测试了包括 GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental 等领先模型,覆盖零样本、思维链和四样本设置。测试于 2024 年 6 月至 2025 年 3 月间进行,涉及 288 个 GSM-Q 和 151 个 GSME-Q 任务。

结果表明,思维链提示普遍提升了模型性能,而 Gemini 2.0 Flash Thinking Experimental 在规划任务中表现最佳。开源模型在逻辑推理上具竞争力,但在复杂数学问题上表现不佳。

研究指出,当前模型在简单代数问题上表现尚可,但随着问题复杂性增加,性能显著下降,凸显了在信息缺口识别和澄清能力上的改进空间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“室内39℃”!欧洲遭“最热五月天”,法国7人死亡,伦敦高温创纪录,中国留学生被热到自制“空调”!专家:欧洲多数家庭未普及空调

“室内39℃”!欧洲遭“最热五月天”,法国7人死亡,伦敦高温创纪录,中国留学生被热到自制“空调”!专家:欧洲多数家庭未普及空调

每日经济新闻
2026-05-27 14:35:05
宋慧乔首谈离婚原因!这句话的含金量,还在飙升

宋慧乔首谈离婚原因!这句话的含金量,还在飙升

今古深日报
2026-05-27 10:17:33
肝开始变硬,头部会有5个异常,若你一个也没有,说明肝脏很健康

肝开始变硬,头部会有5个异常,若你一个也没有,说明肝脏很健康

芹姐说生活
2026-05-26 16:19:22
全民不接电话!中国要成首个抛弃电话的国家,真相太扎心

全民不接电话!中国要成首个抛弃电话的国家,真相太扎心

番外行
2026-05-25 15:19:56
韩国股市盘中跌破8100点 日韩半导体普跌 瑞萨电子跌超5% 三星电子跌近1%

韩国股市盘中跌破8100点 日韩半导体普跌 瑞萨电子跌超5% 三星电子跌近1%

每日经济新闻
2026-05-28 17:45:18
黎笋放任我方部队通行,后人晚年道出实情:追击将陷越南于绝境

黎笋放任我方部队通行,后人晚年道出实情:追击将陷越南于绝境

磊子讲史
2026-05-26 16:13:35
教师行业倒查进入最严期,重点查处4类问题!

教师行业倒查进入最严期,重点查处4类问题!

细说职场
2026-05-27 18:29:33
哈登:想骂我你们就直说!

哈登:想骂我你们就直说!

柚子说球
2026-05-27 21:53:55
辽宁28岁小伙模仿黄仁勋走红 律师:可适度玩梗,若为蹭流量突破底线或涉违法

辽宁28岁小伙模仿黄仁勋走红 律师:可适度玩梗,若为蹭流量突破底线或涉违法

红星新闻
2026-05-28 13:53:12
超费德勒创历史第一!德约3-1连21年进法网32强 120场里程碑

超费德勒创历史第一!德约3-1连21年进法网32强 120场里程碑

醉卧浮生
2026-05-28 07:15:17
最佳睡眠时长又更新了!Nature和Cell:6.4-7.8小时最抗衰,少于6小时死亡风险激增50%;每晚9-11点入睡能年轻3岁,肝脏40岁就率先加速衰老

最佳睡眠时长又更新了!Nature和Cell:6.4-7.8小时最抗衰,少于6小时死亡风险激增50%;每晚9-11点入睡能年轻3岁,肝脏40岁就率先加速衰老

梅斯医学
2026-05-26 07:52:52
央企会大批量疏解到雄安吗?知乎网友:有央企“雄安总部”只有边缘部门

央企会大批量疏解到雄安吗?知乎网友:有央企“雄安总部”只有边缘部门

六子吃凉粉
2026-05-27 17:19:22
郑中基离婚官司持续一年,豪门资产拉扯不断,富爸爸郑东汉成关键

郑中基离婚官司持续一年,豪门资产拉扯不断,富爸爸郑东汉成关键

八卦宝宝
2026-05-27 19:20:08
27年后率领尼克斯再次进军总决赛,二轮秀布伦森书写励志传奇

27年后率领尼克斯再次进军总决赛,二轮秀布伦森书写励志传奇

齐鲁壹点
2026-05-28 20:17:44
电视剧收视率排行榜,《主角》排在最后,第一收视高达2.534%

电视剧收视率排行榜,《主角》排在最后,第一收视高达2.534%

圆头讲电影
2026-05-28 10:35:58
夫妻割麦被刁难后续:村书记当场承诺 村民爆猛料 明年恐不会来了

夫妻割麦被刁难后续:村书记当场承诺 村民爆猛料 明年恐不会来了

小鋭有话说
2026-05-27 22:17:26
你的公积金是什么段位?

你的公积金是什么段位?

职场资深秘书
2026-05-26 16:25:54
退休两年后,泉州市政府办公室原一级调研员黄文成被查

退休两年后,泉州市政府办公室原一级调研员黄文成被查

金台资讯
2026-05-27 22:47:02
美方确认,连做5次太空机动:中国空天飞机暴露了怎样的实力?

美方确认,连做5次太空机动:中国空天飞机暴露了怎样的实力?

林子说事
2026-05-28 19:17:35
很多人都看错了董卿,她的高明不是春晚的礼服,而是后台的牛仔裤

很多人都看错了董卿,她的高明不是春晚的礼服,而是后台的牛仔裤

喜欢历史的阿繁
2026-05-28 19:31:27
2026-05-28 21:39:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
346695文章数 607226关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

20万飞天茅台搭售40万黔茅酒 老板参加"峰会"后称被耍

头条要闻

20万飞天茅台搭售40万黔茅酒 老板参加"峰会"后称被耍

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

新款吉利星愿6.18万起售 一镜到底寻找爆款密码

态度原创

艺术
本地
家居
房产
公开课

艺术要闻

蚂蚁新总部封顶了!大圆环到底有啥魔力

本地新闻

用剪纸的方式,打开江苏扬州

家居要闻

蜂鸟餐椅 线面交错

房产要闻

突发重磅!三亚新机场公司正式成立!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版