网易首页 > 网易号 > 正文 申请入驻

AI无法攻克的235道谜题!让o1,Gemini 2.0 Flash Thinking集体挂零

0
分享至


机器之心报道

编辑:杜伟、陈陈

Scale AI 等提出的新基准再次暴露了大语言模型的弱点。

又又又一个超高难度的推理基准测试向 AI 发出了挑战!

大语言模型的进展伴随着评估基准的不断进步,各种难度、覆盖不同学科的评估基准被用来测试这些模型的各项能力。

比如前几天,Center for AI Safety(AI 安全中心)与 Scale AI 联合打造了全新基准:Humanity's Last Exam,即「人类的最后考试」,简称 HLE。这个新基准对主流的推理模型提出了巨大挑战,结果显示 DeepSeek-R1、o1 的准确度都低于 10%。

如今,一个比「人类的最后考试」更苛刻的基准了,它就是同样由 Scale AI、Center for AI Safety 以及 MIT 的研究者联合推出的ENIGMAEVAL。这是一个针对高难度问题的基准,其格式多种多样,涵盖了从解谜寻宝(puzzle hunts)抽取的文本和图像难题。

Puzzle hunts 是一种团队解谜竞赛,测试了参与者的逻辑推理、创造性思维、团队协作以及跨学科知识运用能力。它们通常包含一系列复杂的谜题,每个谜题的解答可能会涉及文字游戏、数学、密码学、图像分析、程序编写、文化常识等多个领域。

对于 ENIGMAEVAL 基准,研究者使用了原始的多模态问题和高质量的人工转录版本,从而评估大语言模型的端到端能力以及它们的独立推理能力。这种设计选择使得研究者能够区分模型的性能限制源于它们的推理能力,而不是解析复杂文档或处理不同模态的能力。

  • 论文标题:ENIGMAEVAL: ABenchmark of LongMultimodal Reasoning Challenges
  • 论文地址:https://arxiv.org/pdf/2502.08859
  • 榜单地址:https://scale.com/leaderboard/enigma_eval

在 ENIGMAEVAL 基准上,研究者对现有多模态和推理基准上表现优异的前沿语言模型进行了评估。结果显示,包括 OpenAI o1 在内等 SOTA 模型在普通谜题(Normal)上的准确率最高仅为 7.0% 左右,在困难谜题(Hard)上的准确率则降至 0%,远远不及经验丰富的人类解谜者。

有趣的是,从转录的谜题到原始 PDF 版的谜题,模型性能可能会急剧下降,这表明了一些前沿模型仍然受限于 OCR 和解析能力。虽然研究者最开始假设原始谜题格式可能会造成额外的困难,但对模型成功案例的详细分析表明,它们已经针对复杂文档的处理进行了很好的优化。

研究者表示,ENIGMAEVAL 将与「人类的最后考试」一起构建全新的 LLM 基准,通过极具挑战性的任务揭露当前大语言模型的局限性。

正如一些网友评论所说,看起来 AI 离真正理解世界还有很长的路要走。

另外,该基准测试中没有将 DeepSeek R1 纳入在内,所以很好奇它的表现如何。

ENIGMAEVAL 基准

ENIGMAEVAL 包含 1184 道谜题,每个谜题通常需要一群经验丰富的人花费数小时甚至数天才能解决。其有两种格式:

(1)原始 PDF 的 PNG 图像(如页面截图),用于测试模型端到端的性能;

(2)结构化的文本 - 图像表示,保留了语义关系和视觉元素,用于有针对性地评估模型多模态推理能力,同时减少干扰和预处理负担。

ENIGMAEVAL 来源如下(表 1),按照难度分组为 Normal (949 道题)和 Hard (235 道题)两大部分:

普通谜题示例(Normal):

困难谜题示例(Hard):

除了这些谜题,本文还收集了相应的解决方案文档,以 PDF 或 HTML 页面的形式提供。

实验

本文在 ENIGMAEVAL 基准上测试了最先进的 LLM 的深度推理能力。

结果

模型在解答谜题方面的表现并不出色 。

所有前沿的视觉 - 语言模型在此次评估中的准确率都显著偏低,即便是领先的模型(o1)在常规难度部分也仅达到 7.0% 的准确率,在困难难度部分更是达到了 0%(见表 2)。

所有测试模型在困难难度部分完全失败(准确率为 0%),这强调了这些模型在面对更为复杂的谜题变体时所遭遇的重大挑战。

此外,本文还使用 o1 模型对其自身生成的答案进行审核,以检查是否存在抄袭或荒谬的推理链条,这是通过将前沿模型生成的逐步解决方案与官方谜题解析(附录 B.3)进行对比来实现的。每一个被 o1 标记的案例都经过了人工检查,结果发现审核模型幻觉般地提供了抄袭的证据,这表明实验所采用的模型是独立得出正确答案的

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
闫学晶风波再升级!一人已被行拘,婚变丑闻被扒,这回恐彻底栽了

闫学晶风波再升级!一人已被行拘,婚变丑闻被扒,这回恐彻底栽了

奇思妙想草叶君
2026-01-14 22:49:54
一针见血?名宿为国足19岁神童喊冤:他能拿球组织,被教练用废了

一针见血?名宿为国足19岁神童喊冤:他能拿球组织,被教练用废了

国足风云
2026-01-16 13:56:41
多位唇腭裂患儿家庭发声感谢李亚鹏,网友喊话王菲,希望她伸援手

多位唇腭裂患儿家庭发声感谢李亚鹏,网友喊话王菲,希望她伸援手

萌神木木
2026-01-15 19:58:00
20-14痛失好局!王祉怡2-1逆转日本名将,女单4强国羽占半壁江山

20-14痛失好局!王祉怡2-1逆转日本名将,女单4强国羽占半壁江山

钉钉陌上花开
2026-01-16 14:56:11
聂卫平资产过亿?遗产分配成关注焦点,三个孩子都有份

聂卫平资产过亿?遗产分配成关注焦点,三个孩子都有份

刘森森
2026-01-16 13:19:57
2026春节档陆续有十部电影上映,周星驰两部,你期待哪几部?

2026春节档陆续有十部电影上映,周星驰两部,你期待哪几部?

小Q侃电影
2026-01-14 13:42:26
一滴也别喝!科学家调查发现,2020年全球有74万人因饮酒患癌

一滴也别喝!科学家调查发现,2020年全球有74万人因饮酒患癌

蜉蝣说
2026-01-15 10:50:10
台媒曝大S离世一年,汪小菲与徐家重启谈判,抚养费之争迎来转机

台媒曝大S离世一年,汪小菲与徐家重启谈判,抚养费之争迎来转机

李健政观察
2026-01-16 09:37:46
真正的座山雕有多凶狠?纪录片不敢播的那一面,让关东军都胆寒

真正的座山雕有多凶狠?纪录片不敢播的那一面,让关东军都胆寒

鹤羽说个事
2026-01-14 15:38:56
美国军火商洛马公司因没缴纳中方开出990亿罚单,后果竟如此严重

美国军火商洛马公司因没缴纳中方开出990亿罚单,后果竟如此严重

百态人间
2025-12-13 16:07:09
释新闻|本轮寒潮为何“极端性不强却需高度警惕”?

释新闻|本轮寒潮为何“极端性不强却需高度警惕”?

澎湃新闻
2026-01-16 12:30:26
男子把本该发给老婆的信息,发到了工作群,群里“炸锅了”

男子把本该发给老婆的信息,发到了工作群,群里“炸锅了”

大风新闻
2026-01-16 08:14:04
浙江队又造大手笔!28岁巴萨旧将加盟 签约2年 薪水400万欧创纪录

浙江队又造大手笔!28岁巴萨旧将加盟 签约2年 薪水400万欧创纪录

我爱英超
2026-01-16 12:06:35
1968年,林彪想换北京军区司令,毛主席只问了一句话,林彪彻底哑火

1968年,林彪想换北京军区司令,毛主席只问了一句话,林彪彻底哑火

老杉说历史
2026-01-09 22:00:17
台湾同胞到呆呆家了,现场网友大喊欢迎回家,只待了半小时就走了

台湾同胞到呆呆家了,现场网友大喊欢迎回家,只待了半小时就走了

有范又有料
2026-01-16 13:53:45
AI应用概念港股涨幅扩大 MINIMAX涨18%

AI应用概念港股涨幅扩大 MINIMAX涨18%

财联社
2026-01-16 13:48:06
3:0速胜!陈俊菘化身张本克星,多哈再燃复仇烽火

3:0速胜!陈俊菘化身张本克星,多哈再燃复仇烽火

阿晞体育
2026-01-16 13:26:11
太丢人了!王中磊上海的艾灸馆开业,无明星无红毯,夫妻二人剪彩

太丢人了!王中磊上海的艾灸馆开业,无明星无红毯,夫妻二人剪彩

小娱乐悠悠
2026-01-16 09:20:08
王健林预言成真!第3轮大涨来了?内行人:2026年房价或超出想象

王健林预言成真!第3轮大涨来了?内行人:2026年房价或超出想象

猫叔东山再起
2026-01-15 10:55:03
三棱刺刀有什么缺点?为何在对越反击战结束后,它会被军队淘汰?

三棱刺刀有什么缺点?为何在对越反击战结束后,它会被军队淘汰?

清风鉴史
2025-12-16 21:30:21
2026-01-16 17:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12133文章数 142542关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

洪秀柱:既然早晚要统一 不如赶快统一吧

头条要闻

洪秀柱:既然早晚要统一 不如赶快统一吧

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

家居
健康
旅游
教育
公开课

家居要闻

岁月柔情 现代品质轻奢

血常规3项异常,是身体警报!

旅游要闻

免费领花!闵行这个年宵花市集火爆返场~

教育要闻

期末辅导就用夸夸辅导法,辅导作业不再鸡飞狗跳

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版