网易首页 > 网易号 > 正文 申请入驻

“游戏打脸AGI”!顶尖AI大模型通关率不足1%,人类结果满分

0
分享至


当下AI似乎成为了一切的答案吗,前不久英伟达创始人黄仁勋还在采访中振臂高呼,AGI(通用人工智能)已经触手可及;各大AI实验室的新闻稿言辞凿凿,描绘着机器超越人类的历史节点。

但近日一份来自ARC Prize基金会的技术报告悄然向AI界投入了一枚深水炸弹。


报告的核心结论只有一句话:在全新的ARC-AGI-3基准测试中,人类参与者的解题成功率为100%,而截至2026年3月,包括谷歌Gemini、OpenAI GPT-5、Anthropic Claude等在内的全球顶尖大模型,得分均低于1%。

而所谓的ARC-AGI-3测试的内容,是一系列专门为人类设计、普通人平均花费不到10分钟就能通关的互动益智小游戏。

AI究竟到了哪一步?这场测试,或许给出了迄今为止最诚实的答案。

AI基准测试:衡量机器智能的尺子

要理解ARC-AGI-3为何重要,先要理解AI基准测试这件事本身。

所谓基准测试(Benchmark)是评估AI系统能力的标准化测量工具。它通过一组预先定义好的题目或任务,为不同的AI系统提供统一的评分标准,使得研究者和公众可以横向比较、纵向追踪AI能力的进步。

目前AI基准测试按照评估维度,大致可以分为语言理解类(测试模型对自然语言的理解、推理和问答能力)、代码能力类(测试模型编写、调试代码的能力)、数学推理类(测试模型解决数学问题的能)、多模态理解类(测试模型结合图像和文字进行理解、问答的能力)、智能体(Agentic)评估类以及通用推理与智能类。

但是AI基准测试有一个根本性的悖论:一旦一个基准测试被广泛使用,它本身就会被"攻克",但攻克它,并不意味着AI真的变聪明了。

这种现象叫做"基准饱和"(benchmark saturation)或"古德哈特定律"效应:当一个指标变成目标,它就不再是好指标。AI公司会针对性地用测试题数据训练模型,使其在特定基准上表现出色,但这种"表现"往往无法泛化到真实场景。


谷歌刷分刷到在博主自己制作的“内鬼”测试中也荣获了双满分的成绩

就比如谷歌的Gemini 3.1 Pro,就是名副其实的刷分大师,虽然在各项测试中分数都名列前茅,但上线后不久就曝露了真身。

正是在这一背景下,ARC-AGI系列基准测试应运而生,并以其独特的设计哲学,成为AI圈最难被"刷分"的测试之一。

从归类来看,ARC-AGI系列测试应该属与智能体(Agentic)评估类以及通用推理与智能类。简单来说,它们不测具体知识,而是测试模型面对全新问题时的泛化推理能力、测试AI在复杂、多步骤、交互式环境中自主完成任务的能力。

ARC-AGI系列:专为抵抗"作弊"而生

ARC-AGI系列的设计者是AI研究者François Chollet。2019年,他发表了一篇题为《论智能的度量》(On the Measure of Intelligence)的论文,提出了一个与主流AI评估截然不同的框架:

真正的智能,不是在你擅长的领域表现好,而是面对全新任务时,以尽可能少的资源和数据,快速习得解决该任务的能力。


创始人Mike Knoop & François Chollet 图片来源:ARC-AGI官网

这就是"技能习得效率"(skill-acquisition efficiency)的核心思想。换言之,智能的本质不是你知道多少,而是你在面对未知时学习得有多快、多高效。

这一定义,直接催生了ARC-AGI的设计逻辑:测试必须对所有人(无论是人类还是AI)都是全新的、未曾见过的;而且必须能区分"真正理解"和"记忆检索"这两种截然不同的能力。

而基于该逻辑,2019年推出的ARC-AGI-1的形式直观而优雅:给出若干对"输入→输出"的二维彩色网格示例,让测试者推断其中的变换规则,然后对一个新的输入网格应用该规则,输出正确答案。

整个测试严格遵守以下原则:

● 不依赖语言:没有文字,没有数字,只有颜色和图案。

● 只基于核心知识:仅使用人类天生具备的直觉——对物体、几何、基本物理和意图的感知。这些是婴儿期就已具备的认知,而非后天学习。

● 每道题都是独一无二的:杜绝通过背题或统计模式来作答。

在2019至2024年间,ARC-AGI-1对AI系统构成了极大的挑战。基于预训练数据扩大规模的基础大语言模型(base LLMs)在其上几乎得零分。


直到2024年,OpenAI的o1、o3系列模型凭借测试时推理(test-time reasoning)的突破,才开始在ARC-AGI-1上取得非零分数。这也是该测试第一次精准捕捉到大模型"流体智能"出现的历史信号。

而随着大模型在1代测试中取得成绩,2025年3月,ARC-AGI-2发布。它保持了相同的网格形式,但大幅提升了推理复杂度,引入了多步骤推理、顺序规则应用和符号解读等更高难度的任务。

与ARC-AGI-1相比,ARC-AGI-2的人类解题时间从平均30秒增加到300秒。

然而,ARC-AGI-2也面临一个新的威胁:随着AI能力的提升,前沿大模型已经展现出非零的流体智能,开始能够适应距离训练分布较远的任务。这意味着,只要公开训练集和私有测试集分布足够相似,模型便可以通过大规模生成合成题目、自动验证、循环训练的方式,变相"背下"整个题库,即使没有直接看过测试题本身。

ARC Prize基金会甚至发现,在对Gemini 3的验证过程中,模型的推理链里主动使用了ARC-AGI的整数-颜色映射(如"3对应绿色"),而测试提示词中从未提及这一信息。这强烈暗示:ARC-AGI的数据已经渗入了模型训练集。

静态测试的时代,正在终结。

ARC-AGI-3:当AI遭遇会动的世界

而ARC-AGI-3的核心转变,便是从静态推理转向交互式智能体推理(agentic intelligence)。

它的基本形式是:一系列完全原创的、基于回合制的益智小游戏。测试者需要在没有任何规则说明的情况下,独立探索游戏机制、推断胜利条件、制定策略、执行计划并最终通关。


这一转变意义深远。静态题目可以被大量合成数据"淹没"——只要题目空间是有限且可枚举的,AI就可以用暴力覆盖的方式绕过真正的推理。但一个动态交互环境中,每一次行动都会改变环境状态,信息必须通过主动探索才能获取,而目标本身也需要从无到有地被推断出来。

这是一种质的跃迁:从"我知道答案"到"我能在陌生世界中生存并取胜"。

根据官方温带和,ARC-AGI-3将智能体能力拆解为四个相互依存的核心维度:

1. 探索(Exploration) 在真实环境中,信息不会主动呈现给你,必须通过与环境的交互主动获取。AI必须学会在不知道规则的情况下,有策略地"探路"——而不是茫然地随机点击。

2. 建模(Modeling) 继承自前两代ARC-AGI,这是将原始观察转化为可泛化世界模型的能力。AI需要从若干次交互中,归纳出环境运行的内在逻辑,并能预测未来的状态。

3. 目标设定(Goal-Setting) 这是ARC-AGI-3最具挑战性的一环:AI从未被告知游戏目标是什么。它必须从环境线索中自主推断"胜利"意味着什么,而不是等待外部指令。这是自主性的核心,知道"要做什么",而不仅仅是"怎么做"。

4. 规划与执行(Planning and Execution) 在明确目标后,AI需要规划从当前状态到目标状态的最优行动路径,并在执行过程中根据反馈实时修正。

简单来看,ARC-AGI-3的游戏设计遵循严格的约束,每一条都指向同一个目的,即让AI无法作弊:

● 仅使用核心知识(Core Knowledge):物体感知、基础几何与拓扑、直觉物理(重力、碰撞)、意图感知。没有数字、字母、文字,没有任何文化符号(比如"绿色代表通行")。

● 强制原创性:每个游戏必须与已有游戏有足够的差异,且不能与市面上现存的任何视频游戏相似。

● 难度通过组合而非复杂度实现:后期关卡的难度来自于对前期所学机制的综合运用,而非单纯增加规模或引入晦涩规则。

● 至少六关,首关作为教程:第一关用于建立基本交互认知,不计入主要评分;后续关卡逐步叠加机制复杂度。

● 人类可解:所有游戏必须经过真实人类验证,确保普通人能在约20分钟内通关。毕竟一个人类都无法解决的测试,对衡量AI与人类的差距毫无意义。

观察空间与行动空间的极简设计

从官方展示的内容来看,ARC-AGI-3的界面设计刻意保持简单:一个64×64的彩色网格,每个格子可以是16种颜色之一。每一帧就是游戏的当前状态快照。

行动空间极为有限:五个方向键、一个撤销键,加上通过坐标选择格子的点击操作。


游戏之一:操纵左边的方块,右边的黄色方块会以镜面的方向移动,将黄色方块移动到灰色的阴影处即可

这种极简设计的背后逻辑是:难度必须来自逻辑,而非操作。排除了手眼协调、反应速度等因素,ARC-AGI-3专注于测试纯粹的推理与适应能力。

而在游戏设计之上,ARC-AGI-3最独特的评分设计,是以行动效率而非"通关与否"来衡量智能。核心指标叫做RHAE(Relative Human Action Efficiency,相对人类行动效率),发音为"Ray"。

评分逻辑如下:

1. 对每一关,统计AI通关所用的行动步数;

2. 将AI的步数与人类基准(定义为10名真实测试者中成绩第二好的那位)进行比较;

3. 效率比值取平方,以更重地惩罚低效行为(例如,AI用了人类10倍的步数,得分仅为1%,而非10%);

4. 每一关的得分按权重汇总为环境得分(后期关卡权重更高);

5. 所有环境的平均分即为总分。

当且仅当AI的行动效率达到或超过人类水平时,才算"击败"ARC-AGI-3。

这一设计背后的理念深刻而有力:一个需要随机试错1000次才能通关的系统,和一个凭借理解3步搞定的人类,不应该得到相同的分数。 效率本身就是智能的一种体现。


而为防止AI专门针对测试集进行训练,ARC-AGI-3对数据集进行了精心的分层设计。

其中25个公开演示集面向公众开放,用于展示格式和基本机制,难度相对较低。但公开集的机制刻意设计为与私有集不重叠,以防止过拟合。官方明确声明,公开集的成绩不会出现在正式排行榜上。

55个半私有集吗,用于通过API测试前沿模型,存在少量数据泄露风险。

另外55个完全私有集,仅供年度ARC Prize比赛使用,严格保密。

值得注意的是,与ARC-AGI-2维持约10:1的公私比例不同,ARC-AGI-3倒转了这一比例——私有集成为主要评估基础,公开集仅作为展示窗口。这是基准测试设计在"军备竞赛"压力下的主动进化。

人类几乎100%可解,大模型集体交白卷

而在内部测试中,最终统计数据:486名测试者参与,覆盖414个候选环境,共产生2893次尝试记录,累计游戏时长427.9小时。

成功通关的中位用时为8.1分钟;未通关的中位用时为5.9分钟,可见大多数人并非因为"没有努力",而是真的理解了游戏并顺利通关。

至于当前沿大模型在ARC-AGI-3半私有集上接受测试,结果则触目惊心:


要知道,这些模型,每一个都在传统基准测试上创造了令人瞠目的成绩:MMLU超过90%,代码生成近乎完美,数学推理令研究生汗颜。然而,面对一个普通人10分钟内就能通关的益智游戏,它们的综合表现不足1%。

值得一提的是,为了尽可能避免大模型作弊刷分的情况出现,ARC-AGI-3对官方排行榜的规则制定极为严格,明确拒绝两种"成绩虚高"的情况:

● 任务特定过拟合:直接在公开环境上训练、或使用专门为特定环境设计的解题框架,得分不计入官方榜。

● 领域特定过拟合:针对ARC-AGI-3风格批量合成训练数据、或专为ARC-AGI-3设计解题策略,同样不计入官方榜。

在报告中,官方还点名批评,表示此前有研究者为特定公开环境构建了专门的"脚手架"(harness),使Claude Opus 4.6在该环境中的得分从0%跃升至97.1%,但同样的脚手架在另一个不同的环境中,得分依然是0%。

对此官方表示,专门工程化的外部辅助,不是通用智能,只是针对特定任务的特殊技巧。 而AGI的定义,恰恰是不依赖这类任务专属辅助的系统。


互动游戏,为何成了AI最大的拦路虎?

ARC-AGI-3的测试结果,揭示了当前AI智能的一道根本性边界:静态知识的超级存储器,和能够在动态未知世界中自主导航的智能体之间,存在着巨大的鸿沟。

首当其冲就是,当前大模型的运作方式是"给我输入,我给输出"。但ARC-AGI-3要求AI主动与环境互动,通过行动来获取信息。这种"探索性学习"对于基于静态语料训练的模型来说,是范式层面的陌生领域。


目前AI已经可以玩《杀戮尖塔2》了,但还是要通过MCP等手段让AI理解、操作游戏

而相较于大模型,人类面对一个新游戏,会自然地观察哪些元素在变化、哪些行为会触发反馈,并从中推断出"赢"的条件。大模型缺乏这种从零开始推断目标本身的能力,它们擅长执行被告知的目标,而非自主发现目标。

更为重要的是,目前大模型的"推理"能力,在很大程度上仍然依附于训练数据中的领域知识。正如报告所指出的:AI的推理能力是绑定在知识上的,而人类的推理能力并不依赖领域知识。

面对ARC-AGI-3这种刻意清空了所有已知知识符号的"白板"环境,AI失去了知识拐杖,推理能力随之大打折扣。

当然也有思维上的不同,人类在游戏中会快速建立假设、检验假设、推翻错误假设并更新模型。这种"主动调试思维"在人类看来再自然不过,但对AI来说却极为困难,它们倾向于维持一个初始假设,而不善于在探索过程中高效修正。


简单来说,益智游戏之所以成为AI最难逾越的拦路虎,在于它完美地剥离了AI目前擅长的所有东西:没有语言,不能依靠词语理解;没有已知知识,不能靠记忆检索;没有明确目标,不能靠执行指令;没有大量样本,不能靠统计模式;必须实时交互,不能靠一次性推断。

而面对陌生,快速学习,高效适应。这恰恰是人类在进化中磨砺出的最强能力,也是AI至今仍然极度欠缺的能力。

其实综合ARC-AGI-3的测试结果和报告中的分析,也能看出当前大模型的能力边界,在知识密集型任务、需要深度垂直知识的专业推理、存在精确验证机制的可确认领域,大模型通过庞大的数据量,其实可以做到相当不错的表现。

但一旦是与知识无关的纯逻辑推理,从交互中自主建构世界模型,在无指令情况下推断目标,多轮探索中的高效假设修正,以及跨越完全陌生领域的快速泛化。

对此,ARC-AGI-3报告中的表述极为精准:

"AI的推理能力与领域知识深度绑定。停下来想想这有多奇怪:人类的推理能力并不受领域知识限制。这导致人们用'参差不齐的智能'来描述LLM,但本质上LLM仍然是任务特定训练的产物,只不过现在是在任务特定的推理链上,而不是直接在任务数据上。"

换言之:大模型拥有超人的"知识存储"和越来越强的"领域内推理",但缺乏跨越未知领域的真正流体智能。而后者,才是AGI的核心。


ARC-AGI-1花了五年时间实现了0到50%,3代目前尚不清楚需要花费各大企业多长时间

当然,指出AI的局限,并不意味着否定它的成就。

过去五年,AI的进步是真实且巨大的。ARC-AGI-1的历史表明,大模型在这一测试上从接近零分到突破50%,所花费的时间比任何人预期的都短。代码生成、科学研究辅助、药物发现等领域,AI已经带来了实质性的生产力革命。

但这些进步的本质,是在人类已经充分理解并可以大量生产训练数据的领域内,AI完成了效率的极大提升。这与"通用智能"之间,依然存在本质差异。

作为AI浪潮下最大的获益者,黄仁勋口中“AGI已至”的含金量有多少或许还是个谜,至少ARC-AGI-3给出的信号是:"AGI已至"的宣言,需要更严格的标准。

只有当AI能够像普通人一样,面对一个全新的、从未见过的任务,几分钟内自主摸索规律、推断目标、高效通关,才算真正触及了AGI的门槛。

结语:

ARC-AGI-3报告的最后,官方写道:

"据我们所知,截至2026年3月,ARC-AGI-3是唯一一个尚未被饱和的通用智能体基准测试。"


这句话里,既有对现状的清醒,也有对未来的开放。

一款普通人8分钟通关的益智游戏,正在守住人类智能与机器智能之间最后的一道防线。AI不是不够强大。但"强大"和"通用"之间,还有一段需要新范式、新突破才能跨越的距离。

超越人类的象棋水平,不代表具备人类的棋类学习能力;超越人类的代码生成速度,不代表具备人类的编程理解能力。

游戏还在继续。而规则,至少当下还是由人类制定的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
知名歌手公开玩性感美女大作!网友赌他"最多十分钟"

知名歌手公开玩性感美女大作!网友赌他"最多十分钟"

游民星空
2026-03-26 17:09:32
特斯拉国内规模最大高速服务区超级充电站项目上线

特斯拉国内规模最大高速服务区超级充电站项目上线

新华社
2026-03-29 08:50:12
冯巩在人民日报发文,撕开喜剧圈脏乱内幕,点破岳云鹏尴尬处境

冯巩在人民日报发文,撕开喜剧圈脏乱内幕,点破岳云鹏尴尬处境

林雁飞
2026-03-27 14:42:10
海南昌江通报“史某辉申请国家赔偿被依法中止办理”:迅速成立联合调查组

海南昌江通报“史某辉申请国家赔偿被依法中止办理”:迅速成立联合调查组

界面新闻
2026-03-29 07:32:17
勇士消息:穆迪手术成功,铂金渴望留队,战掘金出场更新

勇士消息:穆迪手术成功,铂金渴望留队,战掘金出场更新

冷月小风风
2026-03-29 11:56:03
多位院士共识:低密度脂蛋白在安全值,无需用药降脂

多位院士共识:低密度脂蛋白在安全值,无需用药降脂

医学科普汇
2026-03-28 22:55:03
亿万国人破防了!90岁院士平静宣布,中国导弹从此没有任何死角!

亿万国人破防了!90岁院士平静宣布,中国导弹从此没有任何死角!

墨兰史书
2026-03-05 07:10:08
央媒点名批评国乒!直击3大隐患,孙颖莎是典型,王励勤遇到难题

央媒点名批评国乒!直击3大隐患,孙颖莎是典型,王励勤遇到难题

余憁搞笑段子
2026-03-29 08:30:59
美国务卿:中国正在经历人类最大规模军力建设,美国打不过中国

美国务卿:中国正在经历人类最大规模军力建设,美国打不过中国

快看张同学
2026-03-29 11:34:50
国乒刚到澳门,恶心一幕出现!孙颖莎王楚钦遭遇怼脸拍!CCTV直播澳门世界杯!

国乒刚到澳门,恶心一幕出现!孙颖莎王楚钦遭遇怼脸拍!CCTV直播澳门世界杯!

好乒乓
2026-03-28 12:18:59
11.7亿元,广州市中标一个大项目

11.7亿元,广州市中标一个大项目

蓝天白云1111
2026-03-29 10:27:09
晚清首富盛宣怀:家有两女佣,一个生了宋美龄,另一个生了赵一荻

晚清首富盛宣怀:家有两女佣,一个生了宋美龄,另一个生了赵一荻

鹤羽说个事
2026-03-24 22:01:27
日本警视厅对强闯我驻日使馆不法之徒所属部队驻地等展开搜查

日本警视厅对强闯我驻日使馆不法之徒所属部队驻地等展开搜查

环球网资讯
2026-03-29 07:52:04
笑麻了!新手爸爸们的离谱行为,老婆要生了,结果人还在家

笑麻了!新手爸爸们的离谱行为,老婆要生了,结果人还在家

夜深爱杂谈
2026-03-28 20:00:23
​一口气吃完9个冰淇淋,这个视频我第一次看到

​一口气吃完9个冰淇淋,这个视频我第一次看到

岁月有情1314
2026-03-28 08:35:45
16岁就是人间尤物,4年换19个男人,找老实人接盘后,变买菜妈妈

16岁就是人间尤物,4年换19个男人,找老实人接盘后,变买菜妈妈

一盅情怀
2026-03-28 15:38:13
伊朗已经想好了:打完这场仗,自己将成阿拉伯国家的新“保护伞”

伊朗已经想好了:打完这场仗,自己将成阿拉伯国家的新“保护伞”

我是盲流
2026-03-29 02:48:07
沙特削减对华供应,油少卖800万桶,中方通知全球,指出当务之急

沙特削减对华供应,油少卖800万桶,中方通知全球,指出当务之急

丁丁鲤史纪
2026-03-28 16:51:54
一辆自行车卖18万元还被抢光,上海"首发经济"凭的是什么?

一辆自行车卖18万元还被抢光,上海"首发经济"凭的是什么?

界面新闻
2026-03-29 08:01:04
输了官司不爽 马斯克嘲讽84岁法官:穿成这样我怎能获公正审判

输了官司不爽 马斯克嘲讽84岁法官:穿成这样我怎能获公正审判

金融界
2026-03-28 10:48:31
2026-03-29 13:43:00
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
328文章数 6594关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

网约车司机被骗网贷后车内轻生:我不想死 但扛不住了

头条要闻

网约车司机被骗网贷后车内轻生:我不想死 但扛不住了

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

张凌赫事件持续升级!官方点名怒批

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

手机
亲子
时尚
教育
公开课

手机要闻

华为何刚预告小艺Claw新特性,可推每日健康报告、制定运动计划

亲子要闻

睡着的两个姐妹,不安分的小样,妈妈在旁边心被萌化!

大牌专场|| 爱了8年没换过,这次100+拿下

教育要闻

江苏盐城建湖:沉浸式学安全 护航成长路

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版