网易首页 > 网易号 > 正文 申请入驻

AI无法攻克的235道谜题!让o1,Gemini 2.0 Flash Thinking集体挂零

0
分享至


机器之心报道

编辑:杜伟、陈陈

Scale AI 等提出的新基准再次暴露了大语言模型的弱点。

又又又一个超高难度的推理基准测试向 AI 发出了挑战!

大语言模型的进展伴随着评估基准的不断进步,各种难度、覆盖不同学科的评估基准被用来测试这些模型的各项能力。

比如前几天,Center for AI Safety(AI 安全中心)与 Scale AI 联合打造了全新基准:Humanity's Last Exam,即「人类的最后考试」,简称 HLE。这个新基准对主流的推理模型提出了巨大挑战,结果显示 DeepSeek-R1、o1 的准确度都低于 10%。

如今,一个比「人类的最后考试」更苛刻的基准了,它就是同样由 Scale AI、Center for AI Safety 以及 MIT 的研究者联合推出的ENIGMAEVAL。这是一个针对高难度问题的基准,其格式多种多样,涵盖了从解谜寻宝(puzzle hunts)抽取的文本和图像难题。

Puzzle hunts 是一种团队解谜竞赛,测试了参与者的逻辑推理、创造性思维、团队协作以及跨学科知识运用能力。它们通常包含一系列复杂的谜题,每个谜题的解答可能会涉及文字游戏、数学、密码学、图像分析、程序编写、文化常识等多个领域。

对于 ENIGMAEVAL 基准,研究者使用了原始的多模态问题和高质量的人工转录版本,从而评估大语言模型的端到端能力以及它们的独立推理能力。这种设计选择使得研究者能够区分模型的性能限制源于它们的推理能力,而不是解析复杂文档或处理不同模态的能力。

  • 论文标题:ENIGMAEVAL: ABenchmark of LongMultimodal Reasoning Challenges
  • 论文地址:https://arxiv.org/pdf/2502.08859
  • 榜单地址:https://scale.com/leaderboard/enigma_eval

在 ENIGMAEVAL 基准上,研究者对现有多模态和推理基准上表现优异的前沿语言模型进行了评估。结果显示,包括 OpenAI o1 在内等 SOTA 模型在普通谜题(Normal)上的准确率最高仅为 7.0% 左右,在困难谜题(Hard)上的准确率则降至 0%,远远不及经验丰富的人类解谜者。

有趣的是,从转录的谜题到原始 PDF 版的谜题,模型性能可能会急剧下降,这表明了一些前沿模型仍然受限于 OCR 和解析能力。虽然研究者最开始假设原始谜题格式可能会造成额外的困难,但对模型成功案例的详细分析表明,它们已经针对复杂文档的处理进行了很好的优化。

研究者表示,ENIGMAEVAL 将与「人类的最后考试」一起构建全新的 LLM 基准,通过极具挑战性的任务揭露当前大语言模型的局限性。

正如一些网友评论所说,看起来 AI 离真正理解世界还有很长的路要走。

另外,该基准测试中没有将 DeepSeek R1 纳入在内,所以很好奇它的表现如何。

ENIGMAEVAL 基准

ENIGMAEVAL 包含 1184 道谜题,每个谜题通常需要一群经验丰富的人花费数小时甚至数天才能解决。其有两种格式:

(1)原始 PDF 的 PNG 图像(如页面截图),用于测试模型端到端的性能;

(2)结构化的文本 - 图像表示,保留了语义关系和视觉元素,用于有针对性地评估模型多模态推理能力,同时减少干扰和预处理负担。

ENIGMAEVAL 来源如下(表 1),按照难度分组为 Normal (949 道题)和 Hard (235 道题)两大部分:

普通谜题示例(Normal):

困难谜题示例(Hard):

除了这些谜题,本文还收集了相应的解决方案文档,以 PDF 或 HTML 页面的形式提供。

实验

本文在 ENIGMAEVAL 基准上测试了最先进的 LLM 的深度推理能力。

结果

模型在解答谜题方面的表现并不出色 。

所有前沿的视觉 - 语言模型在此次评估中的准确率都显著偏低,即便是领先的模型(o1)在常规难度部分也仅达到 7.0% 的准确率,在困难难度部分更是达到了 0%(见表 2)。

所有测试模型在困难难度部分完全失败(准确率为 0%),这强调了这些模型在面对更为复杂的谜题变体时所遭遇的重大挑战。

此外,本文还使用 o1 模型对其自身生成的答案进行审核,以检查是否存在抄袭或荒谬的推理链条,这是通过将前沿模型生成的逐步解决方案与官方谜题解析(附录 B.3)进行对比来实现的。每一个被 o1 标记的案例都经过了人工检查,结果发现审核模型幻觉般地提供了抄袭的证据,这表明实验所采用的模型是独立得出正确答案的

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗武装部队向以色列发射新一轮导弹

伊朗武装部队向以色列发射新一轮导弹

财联社
2026-03-26 19:42:42
4000万求购罗马指挥官,国米为齐沃新思路“拼了”

4000万求购罗马指挥官,国米为齐沃新思路“拼了”

里芃芃体育
2026-03-26 11:15:07
在哪一瞬间,对你老公彻底失望了?网友:强行分居两年,然后离婚

在哪一瞬间,对你老公彻底失望了?网友:强行分居两年,然后离婚

另子维爱读史
2026-03-24 21:15:00
4月1日起,微信支付宝转账规则大变!这3个习惯赶紧改

4月1日起,微信支付宝转账规则大变!这3个习惯赶紧改

老特有话说
2026-03-25 15:30:13
掀掉洋葱顶,整治宗教泛滥的第一步

掀掉洋葱顶,整治宗教泛滥的第一步

黑哥讲现代史
2026-03-14 15:46:38
我发现一个真相:资本爱找孙颖莎代言,根本不只是因为她有流量,

我发现一个真相:资本爱找孙颖莎代言,根本不只是因为她有流量,

小光侃娱乐
2026-03-25 13:40:05
净利润暴跌90%!理想的销量神话破灭

净利润暴跌90%!理想的销量神话破灭

大佬灼见
2026-03-13 12:23:26
扎心!俄爱国军事博主摊牌:再征40万大军也白搭,战场早已变天!

扎心!俄爱国军事博主摊牌:再征40万大军也白搭,战场早已变天!

老马拉车莫少装
2026-03-25 07:41:30
王楚钦师娘爆料!孙颖莎无论是长相性格还是人品,都是无以伦比的

王楚钦师娘爆料!孙颖莎无论是长相性格还是人品,都是无以伦比的

大中国
2026-03-24 15:25:36
卡塔尔正式宣布暂停跟中国的合同,而且短时间内不会恢复

卡塔尔正式宣布暂停跟中国的合同,而且短时间内不会恢复

南权先生
2026-03-25 15:19:55
49岁翁帆突传“喜讯”!丧夫5个月后高调露面,状态好到出人意料

49岁翁帆突传“喜讯”!丧夫5个月后高调露面,状态好到出人意料

查尔菲的笔记
2026-03-16 19:12:07
中共中央批准,开除刘慧党籍

中共中央批准,开除刘慧党籍

新京报政事儿
2026-03-26 17:13:05
人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

掠影后有感
2026-03-26 10:39:36
哈萨克斯坦也没想到,跟着中国混来混去,结果自己也混成了个霸主

哈萨克斯坦也没想到,跟着中国混来混去,结果自己也混成了个霸主

说历史的老牢
2026-03-26 01:18:38
小米捷报,误伤宁德时代

小米捷报,误伤宁德时代

ZAKER新闻
2026-03-26 22:10:32
2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

李喜林篮球绝杀
2026-03-26 17:04:26
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
看了“秦岚”的穿搭,我悟了:灰色不配亮色、白色,才更时髦减龄

看了“秦岚”的穿搭,我悟了:灰色不配亮色、白色,才更时髦减龄

蓓小西
2026-03-23 08:31:26
倒计时36天预警!黄金或迎抛售潮,多国限金条出口,中国已抢先布局

倒计时36天预警!黄金或迎抛售潮,多国限金条出口,中国已抢先布局

哄动一时啊
2026-03-26 20:23:42
富人的生活能有多夸张?网友:根本找不到心动还门当户对的人

富人的生活能有多夸张?网友:根本找不到心动还门当户对的人

带你感受人间冷暖
2026-03-27 00:05:14
2026-03-27 01:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
时尚
旅游
本地
数码

艺术要闻

都说乌克兰美女多,看完摄影师贝格玛 的作品我信了!

400万人爱过的女孩,被黄谣网暴180天后

旅游要闻

老外为羊拿铁扎堆魔都街头 法国游客花式夸上海

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

无障碍浏览 进入关怀版