网易首页 > 网易号 > 正文 申请入驻

谷歌BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超10分

0
分享至

机器之心报道

编辑:Panda

随着 AI 能力的提升,一个常见的话题便是基准不够用了——一个新出现的基准用不了多久时间就会饱和,比如 Replit CEO Amjad Masad 就预计 2023 年 10 月提出的编程基准 SWE-bench 将在 2027 年饱和。

也因此,为了更加准确地评估 AI 模型的能力,不断有研究团队构建出新的数据集和基准,比如我们前段时间报道过的 ZeroBench 和 HLE(人类的最后考试),它们都带有大量当前的 AI 模型难以解决的难题。

近日,谷歌也发布了一个高难度基准:BIG-Bench Extra Hard,简称 BBEH。从名字也能看出来,这个基准非常难(Extra Hard)并且与久负盛名的 BIG-Bench 和 BIG-Bench Hard(BBH)关系密切。

  • 论文标题:BIG-Bench Extra Hard
  • 论文地址:https://arxiv.org/pdf/2502.19187
  • 数据地址:https://github.com/google-deepmind/bbeh

正如其论文一作 Mehran Kazemi 指出的那样,相比于 BIG-Bench Hard,BBEH 中每个任务都更加困难,给当前所有模型都创造了进步空间。

另一位作者、DeepMind 著名研究科学家 Yi Tay 也建议 AI 研究者在自己的下一篇论文中使用该基准。

那么,BBEH 究竟有多难呢?当前能力最强的 o3-mini (high) 得分也仅有 44.8 分,不及格。而其它被测模型的得分均不超过 10 分!DeepSeek-R1 仅有 6.8,谷歌自家的 Gemini-2.0-Flash 也只有 9.8。遗憾的是,该团队并没有给出近期发布的 Grok-3 与 Claude 3.7 Sonnet 的表现。

该团队在论文中解释了构建 BBEH 基准的动机,其中指出目前对推理模型的评估大都依赖数学、科学和编程基准,而涉及到更多方面的 BIG-Bench 及其更难的子集 BIG-Bench Hard(BBH)基准则正趋向饱和 —— 当前领先的模型在 BBH 上的准确度都已经超过 90%。因此,BBH 已经无力评估前沿模型的推理能力。

BBEH 便应运而生,其设计目标是「评估高阶推理能力」。

BIG-Bench Extra Hard

BBEH 是基于 BBH 构建的——将 BBH 中的 23 个任务中的每一个都替换成了另一个在类似推理领域中并测试类似(或更多)技能的任务,当然,新任务的难度要大得多。这种替换方法可以确保新数据集保留了原始 BBH 数据集的高度多样性。

表 1 给出了 BBEH 中新任务的高层级描述,包括它们是如何构建的以及它们替换了 BBH 中的哪个任务,以及它们针对哪些推理技能。

该基准中,每个任务包含 200 个问题,但 Disambiguation QA 任务例外,有 120 个问题。

下图展示了一些具体任务示例:

该论文的详细创建过程以及对 BBEH 数据集的分析请参阅原论文,下面我们重点来看看前沿模型在该基准上的表现以及相关分析结果。

模型表现及分析

首先来看各家前沿模型的表现如何,下表是准确度分数详情。

根据此结果,该团队得出了几个有趣的观察:

  • 模型在各个任务上都有很大的进步空间,在 BBEH 整体上也是如此。
  • 通用模型的最佳性能为 9.8% 的调和平均准确率。推理专用模型在该基准上的表现优于通用模型(符合预期),但这些模型在 BBEH 上的最佳性能仍只有 44.8%。
  • 尽管采用了对抗性结构,但参考 Thinking 模型在 BBEH 上的调和平均准确率仍只有 20.2%。
  • 一些模型的准确率甚至低于随机性能。经检查,他们发现原因大多是模型无法在有效输出 token 长度内解决问题并在某个点之后开始退化,因此无法从其解答中提取出最终答案。

另外,还能看到不同模型擅长不同类型的推理。例如,DeepSeek R1 在 BoardgameQA 上的表现明显优于其他模型,o3-mini (high) 在 Temporal Sequences 和 Object Properties 上的表现明显优于其他模型,GPT4o 在 NYCC 上的表现明显优于其他模型,GPT4o 和 Gemini 2.0 Flash 在 SARC Triples 上的表现明显优于其他模型。

该团队还进行了进一步的结果分析。

通用模型与推理模型

推理模型可以利用更多测试时间计算进行思考,因此在涉及数学和编码的推理任务上实现了巨大的性能飞跃。例如,在 AIME2024 数据集上,GPT4o 的性能为 13.4%,但 o1 模型将其提高到 83.3%,o3-mini (high) 将其进一步提高到 87.3%。

在这里,该团队检查了不同类型的一般推理是否也是如此。

如图 5 所示,该团队分别将 o3-mini (high) 和 GPT4o 作为推理和一般模型的模范,在 BBEH 的每个任务上进行了比较,并根据 o3-mini (high) 相对于 GPT4o 的增益程度对任务进行升序排序。

可以观察到,增益最大的任务是那些涉及计数、规划、算术以及数据结构和算法的任务。而增益最少(有时为负值)的任务大多涉及常识、幽默、讽刺和因果关系。

结果表明,推理模型在解决形式化问题时会取得最显著的收益,而在处理复杂的现实场景时(通常需要软推理技能)则收益有限。

模型大小的影响

该团队还探讨了模型大小对模型性能的影响。

如图 6 所示,他们在 BBEH 的不同任务上比较了 Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite,并根据 Flash 相对于 Flash-Lite 的收益按升序方式对任务进行排序。

虽然信号不如将一般模型与推理模型进行比较时那么清晰,但仍然可以观察到与幽默、常识和因果推理相关的任务收益最少,而需要多跳推理或应用算法的任务收益最大。

一个特殊的例外是 SARC Triples 任务,这是一个讽刺理解任务,并且收益很大。这可能部分是由于 SARC Triples 中的每个样本都是三个子问题的组合,而较大的模型可能更擅长处理这种复合问题。

上下文长度和所需思考的影响

BBEH 中的任务具有不同的平均上下文长度,并且可能需要不同的思考量。基于此,可以了解上下文长度和所需思考对推理与一般模型以及较大模型与较小模型的影响。

图 7 比较了 o3-mini (high) 与 GPT4o 以及 Gemini 2.0 Flash 与 Gemini 2.0 Flash-Lite 的性能,这里使用了任务平均上下文长度和平均输出长度作为所需思考的代理。

可以观察到,无论是在上下文长度增加时,还是在所需思考增加时,o3-mini 的收益都比 GPT4o 更高;这表明与一般模型相比,推理模型在两个方向上都可能有所改进。对于 Gemini 2.0 Flash 与 Gemini 2.0 Flash-Lite,可以看到当上下文长度增加时,收益也有类似的增长,但思考增加时,曲线基本保持平坦。

https://x.com/kazemi_sm/status/1894935166952349955

https://x.com/YiTayML/status/1894939679943991661

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“特朗普计划4月访华”,中方回应!

“特朗普计划4月访华”,中方回应!

占豪
2026-01-21 00:04:15
国家发改委:正在研究制定稳岗扩容提质行动和城乡居民增收计划,增强居民消费能力

国家发改委:正在研究制定稳岗扩容提质行动和城乡居民增收计划,增强居民消费能力

每日经济新闻
2026-01-20 11:02:04
CBA一夜上演双绝杀!广东苦主惨遭反绝杀:深圳无愧第1绝杀大队

CBA一夜上演双绝杀!广东苦主惨遭反绝杀:深圳无愧第1绝杀大队

篮球快餐车
2026-01-21 00:49:51
向余望梅开二度 国足4分钟进2球 U23亚洲杯国足2-0领先越南

向余望梅开二度 国足4分钟进2球 U23亚洲杯国足2-0领先越南

环球体坛啄木鸟
2026-01-21 00:52:59
为什么抖音阿里美团,都动不了携程的垄断地位?

为什么抖音阿里美团,都动不了携程的垄断地位?

25号观察员
2026-01-20 17:46:59
刚刚,深圳全市预警生效

刚刚,深圳全市预警生效

深圳晚报
2026-01-20 18:02:31
特朗普和平委员会吸引全球关注,多国争相加入!

特朗普和平委员会吸引全球关注,多国争相加入!

特约前排观众
2026-01-21 00:10:06
又美又能打!王欣瑜澳网2-0晋级:中国莎娃进化,霸气轰10记ACE

又美又能打!王欣瑜澳网2-0晋级:中国莎娃进化,霸气轰10记ACE

李喜林篮球绝杀
2026-01-20 11:46:40
身价7亿二婚娶师妹,刘翔爱旅游不创业不奢侈,女友是暗黑休闲风

身价7亿二婚娶师妹,刘翔爱旅游不创业不奢侈,女友是暗黑休闲风

科学发掘
2026-01-20 05:09:08
轰然倒下!NBA最强壮的篮板怪兽,累计正负值+194,火箭天塌了

轰然倒下!NBA最强壮的篮板怪兽,累计正负值+194,火箭天塌了

球童无忌
2026-01-20 13:50:15
越媒:越南U23队长家邀请全村看球,并准备了100公斤瓜子糖果

越媒:越南U23队长家邀请全村看球,并准备了100公斤瓜子糖果

懂球帝
2026-01-20 21:21:07
李亚鹏翻红了!带货金额和打赏收入,全网第一

李亚鹏翻红了!带货金额和打赏收入,全网第一

金牌娱乐
2026-01-19 09:47:35
海岛:一剂名为“融化”的处方

海岛:一剂名为“融化”的处方

疾跑的小蜗牛
2026-01-20 22:03:41
没飞机可飞了:俄罗斯被迫重启30年前的老客机

没飞机可飞了:俄罗斯被迫重启30年前的老客机

桂系007
2026-01-19 23:45:57
美财长贝森特称日本国债抛售潮外溢至美债市场 已与日方对口官员沟通

美财长贝森特称日本国债抛售潮外溢至美债市场 已与日方对口官员沟通

财联社
2026-01-20 23:17:16
传说曾是刑场?深圳这栋“蜡烛楼”,看一眼后背发凉!

传说曾是刑场?深圳这栋“蜡烛楼”,看一眼后背发凉!

GA环球建筑
2026-01-20 18:36:15
国家发改委:今年将研究制定出台2026—2030年扩大内需战略实施方案

国家发改委:今年将研究制定出台2026—2030年扩大内需战略实施方案

澎湃新闻
2026-01-20 11:23:17
坏消息传来,要严查退休人员,“4类人”可能逃不掉

坏消息传来,要严查退休人员,“4类人”可能逃不掉

巢客HOME
2025-08-03 19:09:22
新加坡总理黄循财表示,绝不允许东方大国在新加坡争夺芯片资源

新加坡总理黄循财表示,绝不允许东方大国在新加坡争夺芯片资源

南权先生
2026-01-20 15:55:21
李亚鹏直播间被“砸场子”!砸场的不是别人,是他亲闺女窦靖童!

李亚鹏直播间被“砸场子”!砸场的不是别人,是他亲闺女窦靖童!

乐悠悠娱乐
2026-01-19 10:00:18
2026-01-21 01:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12155文章数 142547关注度
往期回顾 全部

科技要闻

收藏|这可能是CES2026最清醒一份复盘

头条要闻

14999元华为智能门锁上市即倒挂 二级市场折让3千多元

头条要闻

14999元华为智能门锁上市即倒挂 二级市场折让3千多元

体育要闻

勇士遭暴击!巴特勒重伤赛季报销

娱乐要闻

网红版闫学晶!600万粉博主阿爆翻车

财经要闻

李迅雷:2026买房不如租房

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

游戏
亲子
本地
旅游
公开课

《秘奥:秘宇奥忆》评测:因简洁而特别"/> 主站 商城 论坛 自运营 登录 注册 《秘奥:秘宇奥忆》评测:因简洁而特别 Marvin 2026-01-2...

亲子要闻

这是真的先天法医圣体阿!

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

旅游要闻

寒假怎么玩?来四川解锁通往未来的彩蛋

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版