网易首页 > 网易号 > 正文 申请入驻

刚刚,全球最难考试惊天大反转!黑马AI冲破36%,顶流模型集体翻车

0
分享至


新智元报道

编辑:Aeneas KingHZ

【新智元导读】就在昨天,ARC-AGI-3刚把全球顶尖大模型按在地上摩擦,结果一家名不见经传的公司却给出惊天消息:他们的AI在首日就取得了36.08%的成绩!这匹黑马究竟靠什么撕开全球最难AI考试的铁幕?是真突破,还是另有玄机?

惊天大反转!

就在昨天,给AI的最难测试ARC-AGI-3横空出世,全球大模型一夜被血洗。

最强的顶流模型Opus 4.6,都只拿了0.2%分,简直惨不忍睹。与此同时,人类却大大领先,拿到了满分的好成绩。


这让围观群众们大吃一惊:无论是老黄,还是提出AGI概念发明人,都认为如今我们已经到达了AGI,难道我们真的离AGI如此遥远?

出人意料的是,短短一天内,ARC-AGI-3就被破解了!

就在刚刚,一家名为Symbolica的公司宣布称:

使用Agentica框架,我们在ARC-AGI-3测试中首日就取得了36.08%成绩,全面碾压CoT模型基线。



182个关卡中,他们已经顺利通关了113个。25个可用游戏中,他们完成了7个。

全球最难考试,被一把撕开缺口!


Symbolica首日爆冷,冲上36%

就在人们还在为Opus 4.6那可怜的0.2%得分唏嘘不已,甚至开始怀疑「AGI是否只是大厂编织的幻梦」时,转机就以惊喜的方式降临了。


Symbolica的Agentica框架,为什么在ARC-AGI-3发布首日就能交出36.08%的惊人成绩单?


Agentica(Symbolica)基于Symbolica构建的ARC-AGI-3专用智能体系统。

要知道,在ARC-AGI-3那个近乎变态的评分公式——(人类步数 / AI步数)^2——面前,大模型领头羊们还都在迷雾里原地打转呢。36.08%这个分数,简直是降维打击。


要理解Symbolica为什么能赢,首先要明白Opus 4.6和GPT-5.4是怎么输的。

ARC-AGI-3与前两代最大的不同,就在于它不是「静态看图说话」,而是一个交互式黑盒游戏。

当一个基于纯粹LLM的智能体进入游戏,它最致命的弱点是:试图用联想代替逻辑,用模式匹配代替实验。

大模型在面对未知环境时,会利用庞大的预训练知识库进行「脑补」。看到红色方块和蓝色线条,可能就会联想到「推箱子」或者「水位平衡」,然后基于这个错误的假设疯狂输出CoT。

如果假设错了,它也不会停下来反思,而是会在错误的道路上越跑越远,直到步数耗尽,得分归零。

ARC-AGI-3恰好针对AI的这些弱点,在100%可由人类解决的环境中,衡量AI的三大能力:

  • 随时间推移的技能获取效率

  • 稀疏反馈下的长程规划能力

  • 跨多步、由经验驱动的适应能力

而Symbolica的Agentica框架,走出了一条完全不同的技术路径!

Agentica原生支持多智能体架构,并具备设计上的可并行性。它会自动将复杂任务拆解为子问题,并将工作委派给子智能体并行完成。

这意味着智能体能够保持高效推进,开箱即用地更快完成任务!


Agentica是一个类型安全的AI框架,能够让LLM智能体与代码无缝集成:包括函数、类、活动对象,乃至整个SDK。

此前,凭借强大的长程推理任务,Symbolica就曾在ARC-AGI-2上取得SOTA成绩,Agentica SDK为此立下了汗马功劳。

核心秘诀:Arcgentica RLM harness

从GitHub页面中,我们在IDEA.md这个文件中,发现了Agentica框架的绝技——ARC-AGI-3智能体框架(Agent Harnesses)。


GitHub地址:https://github.com/symbolica-ai/ARC-AGI-3-Agents

Agent Harnesses,是最近的绝对热词了,在Anthropic的官方博客和业内各位大咖的讨论中,它一直在被不断提及。


如果说2025年是智能体黄金时代的起点,那么2026年将聚焦于智能体框架(Agent Harnesses)。

智能体框架是一种围绕AI模型构建的基础设施,用于管理长时间运行的任务,但它本身并不是智能体。

这次,Agentica从零开始理解游戏机制,而且在没有任何特定游戏提示的情况下,解决多个关卡谜题。


这个基于Agentica SDK构建的Arcgentica RLM框架,有何特别之处?

首先,是游戏无关性。

ARC-AGI-3之所以难,是因为它剥离了所有自然语言提示。人类能过关,是因为我们拥有物理直觉。

为此,Agentica采取了最极端的「游戏无关性」(Game-agnostic)策略。

智能体不知道颜色代表什么,动作的作用是什么,或者获胜条件是什么,仅通过与游戏互动并观察变化来推断一切。

这种空白状态,反而成就了它。

第二,是「统筹者 + 专业子智能体」的模式。

顶级统筹者,从不直接操作游戏,它将任务委派给子智能体,积累知识,并决定下一步的行动。


专业子智能体包含:探索器、理论家、测试器和解题机(explorers,theorists,testers,solvers)

如果它开始查看网格,其上下文就会被像素数据填满,从而失去战略思考能力。子智能体以简短的文本摘要形式汇报,而不是原始数据。

这种非中心化计策结构的精妙设计,让它规避了Opus 4.6等模型中「同一个大脑既要看像素、又要记规则、还要指挥动作」的严重缺陷。

第三,是它的「共享记忆」机制。

游戏期间,所有智能体共享一个memories数据库。子智能体在工作过程中会记录已确认的事实(场景布局、机制、获胜条件)和假设(并明确标记)。

新智能体在启动前会查询记忆,因此它们可以继承集体知识。


第四,是「关卡切换」机制。

关卡切换:当一个关卡被解出后,下一个关卡会在同一次操作中直接加载,返回的画面已经是新关卡。

只有当所有关卡都通关时,才会触发state=WIN;单个关卡的完成则通过观察levels_completed的增加来判断。

第五点,Agentica有严苛的行动预算管理,每一枚token都要花在刀刃上。

所有关卡的总操作次数是有限的(约 800 次)。调度器会通过make_bounded_submit_action(limit)为各个子智能体分配操作额度。系统会要求智能体避免重复操作,除非确实卡住。

而且,会优先进行有针对性的尝试,而不是暴力式的穷举探索。

另外,还有子智能体需要按需分配工具、调度器需要在复用与重启之间权衡等规定。

要知道ARC-AGI-3的官方定位,正是强调「需要探索、感知 → 规划 → 行动、记忆、目标获取与对齐等能力」。

而Agentica的分工与控制策略,几乎是对这些能力的「工程化拆解」:

探索(Exploration):由子智能体探索器(explorers)在动作预算下执行,尽量用差分观测提取「机制线索」。

计划/推理(Planning/rule inference):由子智能体理论家(theorists)在「不允许submit_action」的约束下推导规则,降低无意义动作消耗。

记忆(Memory): memories 数据库的显式化让跨关卡策略复用更直接,降低「重复学习」的动作与token 成本。

长程适配:关卡过渡由 levels_completed 检测,统筹者(orchestrator)决定沿用策略还是重新进入探索循环。

显然,这套机制与ARC-AGI-3的评分结构(后期关权重更高、效率平方惩罚)十分适配——它鼓励系统把动作花在「信息增益最高」的实验上,并尽快把策略迁移到更高权重关卡。

36.08%的高分,是否有水分?

不过,36%的成绩无疑是耀眼的,但在经过ARC Prize官方验证之前,Symbolica的「爆冷」依然笼罩着几层迷雾。

Symbolica也承认,这一成绩,目前没有得到ARC-AGI-3组委会的官方认证。


材料中有一句非常关键的话:「unverified competition score」 (未经验证的成绩)

Symbolica目前的成绩是基于其自行搭建的环境,还是严格复刻了官方的评估流程?这需要打一个问号。

而且,公布的得分明细表中,也有一些不寻常的细节。

比如,Symbolica指出「通过ARC-AGI-3 API获取的人类基线分数表明,游戏cn04总共有6个关卡。这与通过API获取的相应游戏的关卡数量不符。」


如果官方数据存在版本混乱,那分数的有效性也就令人质疑。

另外,在得分明细图中可以看出,像LP85AR25等游戏得分极高(80%-97%),而SP80BP35等游戏得分极低(0.2%-0.7%)。



这种严重的两极分化,是否是过拟合导致的?

毕竟,如果是真正的通用智能,应该在所有游戏上表现都相对均衡。

人心所向:AGI的终极测试

昨天,ARC-AGI-3一出,就获得了万众瞩目,得到OpenAI、谷歌、xAI等多位AI大佬的认可。





昨日,ARC-AGI-3正式发布时,奥特曼更是到现场力挺。



这个新的基准测试,被公认为始终通向AGI的「北极星」。

长期以来,AI界的度量衡被锁死在静态基准的框架里。

然而,当OpenClaw这类「暴力进化」的AI智能体出现,行业显然急需一把解剖刀,去切开「主动式智能」的黑盒:比如深不见底的探索欲,毫秒级的感知决策,复杂的路径规划,以及近乎直觉的目标对齐。


赛题:https://www.kaggle.com/competitions/arc-prize-2026-arc-agi-3/data

ARC-AGI-3祭出的考题,是在逼问AI:在完全陌生的规则面前,你是否具备人类那种抽象与推理的本能?


ARC AGI 3技术报告见下列链接:

https://arcprize.org/media/ARC_AGI_3_Technical_Report.pdf

在这里,每款游戏都需要智能体进行探索、理解并解决。满分(100%)意味着AI智能体能够像人类一样高效地通关所有游戏。


目前,最好成绩为0.25,也就是相当于人类基线的25%。


ARC-AGI-3更重要的意义,不是发布新的AI测试,不是草根逆袭AI巨头的爽文,而是开启了新智能体类型——智能体思考。

巧合的是,几乎于ARC-AGI-3发布同时,林俊旸发表了对过去两年的总结,指出了相同的趋势:

自主性思考(agentic thinking)将成为主流的思考方式。

即使面对极其困难的数学或编程任务,一个真正先进的(AI)系统也应有权进行搜索、模拟、执行、检查、验证和修正。


本质上,智能体式思考,是模型通过行动来进行推理,关注的是模型在与环境交互的过程中能否持续取得进展。

他指出AI推理能力核心问题从「模型能否思考足够长时间」转变为「模型能否以维持有效行动的方式进行思考」。

ARC-AGI-3的背后宗旨,和林俊旸的思考,无疑不谋而合了。

巧合之处,恐怕就是行业的下一个方向。

参考资料:

https://x.com/JustinLin610/status/2037116325210829168

https://github.com/symbolica-ai/ARC-AGI-3-Agents

https://www.symbolica.ai/blog/arc-agi-3

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
甘肃玉门一化工企业发生火灾,已致3人死亡

甘肃玉门一化工企业发生火灾,已致3人死亡

界面新闻
2026-04-07 12:06:37
中国国民党主席郑丽文率团抵达大陆

中国国民党主席郑丽文率团抵达大陆

财闻
2026-04-07 13:16:14
郑丽文来访时间安排有巧思,她要去江苏可以谒陵,她已经56岁了

郑丽文来访时间安排有巧思,她要去江苏可以谒陵,她已经56岁了

领悟看世界
2026-04-01 00:23:25
郭艾伦辟谣:我没有被骗

郭艾伦辟谣:我没有被骗

大象新闻
2026-04-07 14:09:34
轰动!湖人消息震动NBA,詹姆斯急眼了,联盟格局或大变

轰动!湖人消息震动NBA,詹姆斯急眼了,联盟格局或大变

兰亭墨未干
2026-04-07 07:49:33
浙大名嘴揭开残酷真相:当年恒大倒台,压根不是因为2万亿负债!

浙大名嘴揭开残酷真相:当年恒大倒台,压根不是因为2万亿负债!

阿器谈史
2026-04-02 13:31:44
这个男士是郭延军,他的鼻子的宽度、面积、体积为普通人2倍以上

这个男士是郭延军,他的鼻子的宽度、面积、体积为普通人2倍以上

岁月有情1314
2026-04-01 11:25:58
全红婵回乡祭祖一个动作火遍全网!褪去冠军光环的她,圈粉无数

全红婵回乡祭祖一个动作火遍全网!褪去冠军光环的她,圈粉无数

社会日日鲜
2026-04-06 17:26:19
伊朗宣布决定,霍尔木兹海峡通航,高人指点,打起石油持久战

伊朗宣布决定,霍尔木兹海峡通航,高人指点,打起石油持久战

闻识
2026-04-07 13:06:26
王楚钦冠军仅1天,奥委会就这样评价他,16字一针见血,字字戳心

王楚钦冠军仅1天,奥委会就这样评价他,16字一针见血,字字戳心

温读史
2026-04-07 10:10:52
郑丽文今率团访陆,两岸和平出现曙光,谢寒冰:宣扬“武统”多是绿营的人

郑丽文今率团访陆,两岸和平出现曙光,谢寒冰:宣扬“武统”多是绿营的人

海峡导报社
2026-04-07 09:09:13
约基奇35+14+13,赛后第一时间找杨瀚森,开拓者新老板说出大实话!

约基奇35+14+13,赛后第一时间找杨瀚森,开拓者新老板说出大实话!

野渡舟山人
2026-04-07 13:49:07
1990年丁盛到北京后,给聂帅写了封信请求:把我的关系转到广州吧

1990年丁盛到北京后,给聂帅写了封信请求:把我的关系转到广州吧

明月清风阁
2026-04-07 13:30:06
烧光350亿后破产,威马创始人沈晖逃亡海外行踪成谜

烧光350亿后破产,威马创始人沈晖逃亡海外行踪成谜

一号位故事
2026-04-04 20:02:32
掘金逆转战况,火箭成最大赢家获首轮优势

掘金逆转战况,火箭成最大赢家获首轮优势

徐扙老表哥
2026-04-07 13:46:02
中国正式向全世界宣告,,解放军打日本不用获得任何人的同意授权

中国正式向全世界宣告,,解放军打日本不用获得任何人的同意授权

世界军事格局
2026-04-06 22:10:13
这张照片的含金量有多高,你看的懂吗

这张照片的含金量有多高,你看的懂吗

朗威谈星座
2026-04-04 16:51:24
沉默3天,北京迎来一位贵客,见面先握紧中方手,特朗普又赌输了

沉默3天,北京迎来一位贵客,见面先握紧中方手,特朗普又赌输了

南宗历史
2026-04-06 04:41:56
142-126!骑士逆转灰熊,莫布里22+6,灰熊29个三分平历史纪录

142-126!骑士逆转灰熊,莫布里22+6,灰熊29个三分平历史纪录

星Xin辰大海
2026-04-07 13:23:10
61岁陈瑾和巫刚昆明被偶遇,曝已在这里定居,在一起逾20年仍未婚

61岁陈瑾和巫刚昆明被偶遇,曝已在这里定居,在一起逾20年仍未婚

观察鉴娱
2026-04-04 17:24:45
2026-04-07 14:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14916文章数 66754关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

美被困飞行员靠定位器求救 回答其父私密问题验明身份

头条要闻

美被困飞行员靠定位器求救 回答其父私密问题验明身份

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议 黄景瑜前妻发文内涵

财经要闻

2026年,全国租房市场还有波降价潮

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

手机
游戏
教育
艺术
军事航空

手机要闻

你们都错了!REDMI K90再添新成员,卢伟冰又换玩法了

《红色沙漠》玩家发现新乐子:用苹果引诱NPC跳崖!

教育要闻

突发:南京又有机构突然闭店!家长遇到机构暴雷,该如何挽回损失?

艺术要闻

美丽风光看不尽

军事要闻

美军营救飞行员出动155架飞机

无障碍浏览 进入关怀版