网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

刚刚，全球最难考试惊天大反转！黑马AI冲破36%，顶流模型集体翻车

2026-03-27 13:32:12　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：Aeneas KingHZ

【新智元导读】就在昨天，ARC-AGI-3刚把全球顶尖大模型按在地上摩擦，结果一家名不见经传的公司却给出惊天消息：他们的AI在首日就取得了36.08%的成绩！这匹黑马究竟靠什么撕开全球最难AI考试的铁幕？是真突破，还是另有玄机？

惊天大反转！

就在昨天，给AI的最难测试ARC-AGI-3横空出世，全球大模型一夜被血洗。

最强的顶流模型Opus 4.6，都只拿了0.2%分，简直惨不忍睹。与此同时，人类却大大领先，拿到了满分的好成绩。

这让围观群众们大吃一惊：无论是老黄，还是提出AGI概念发明人，都认为如今我们已经到达了AGI，难道我们真的离AGI如此遥远？

出人意料的是，短短一天内，ARC-AGI-3就被破解了！

就在刚刚，一家名为Symbolica的公司宣布称：

使用Agentica框架，我们在ARC-AGI-3测试中首日就取得了36.08%成绩，全面碾压CoT模型基线。

182个关卡中，他们已经顺利通关了113个。25个可用游戏中，他们完成了7个。

全球最难考试，被一把撕开缺口！

Symbolica首日爆冷，冲上36%

就在人们还在为Opus 4.6那可怜的0.2%得分唏嘘不已，甚至开始怀疑「AGI是否只是大厂编织的幻梦」时，转机就以惊喜的方式降临了。

Symbolica的Agentica框架，为什么在ARC-AGI-3发布首日就能交出36.08%的惊人成绩单？

Agentica（Symbolica）基于Symbolica构建的ARC-AGI-3专用智能体系统。

要知道，在ARC-AGI-3那个近乎变态的评分公式——(人类步数 / AI步数)^2——面前，大模型领头羊们还都在迷雾里原地打转呢。36.08%这个分数，简直是降维打击。

要理解Symbolica为什么能赢，首先要明白Opus 4.6和GPT-5.4是怎么输的。

ARC-AGI-3与前两代最大的不同，就在于它不是「静态看图说话」，而是一个交互式黑盒游戏。

当一个基于纯粹LLM的智能体进入游戏，它最致命的弱点是：试图用联想代替逻辑，用模式匹配代替实验。

大模型在面对未知环境时，会利用庞大的预训练知识库进行「脑补」。看到红色方块和蓝色线条，可能就会联想到「推箱子」或者「水位平衡」，然后基于这个错误的假设疯狂输出CoT。

如果假设错了，它也不会停下来反思，而是会在错误的道路上越跑越远，直到步数耗尽，得分归零。

ARC-AGI-3恰好针对AI的这些弱点，在100%可由人类解决的环境中，衡量AI的三大能力：

随时间推移的技能获取效率
稀疏反馈下的长程规划能力
跨多步、由经验驱动的适应能力

而Symbolica的Agentica框架，走出了一条完全不同的技术路径！

Agentica原生支持多智能体架构，并具备设计上的可并行性。它会自动将复杂任务拆解为子问题，并将工作委派给子智能体并行完成。

这意味着智能体能够保持高效推进，开箱即用地更快完成任务！

Agentica是一个类型安全的AI框架，能够让LLM智能体与代码无缝集成：包括函数、类、活动对象，乃至整个SDK。

此前，凭借强大的长程推理任务，Symbolica就曾在ARC-AGI-2上取得SOTA成绩，Agentica SDK为此立下了汗马功劳。

核心秘诀：Arcgentica RLM harness

从GitHub页面中，我们在IDEA.md这个文件中，发现了Agentica框架的绝技——ARC-AGI-3智能体框架（Agent Harnesses）。

GitHub地址：https://github.com/symbolica-ai/ARC-AGI-3-Agents

Agent Harnesses，是最近的绝对热词了，在Anthropic的官方博客和业内各位大咖的讨论中，它一直在被不断提及。

如果说2025年是智能体黄金时代的起点，那么2026年将聚焦于智能体框架（Agent Harnesses）。

智能体框架是一种围绕AI模型构建的基础设施，用于管理长时间运行的任务，但它本身并不是智能体。

这次，Agentica从零开始理解游戏机制，而且在没有任何特定游戏提示的情况下，解决多个关卡谜题。

这个基于Agentica SDK构建的Arcgentica RLM框架，有何特别之处？

首先，是游戏无关性。

ARC-AGI-3之所以难，是因为它剥离了所有自然语言提示。人类能过关，是因为我们拥有物理直觉。

为此，Agentica采取了最极端的「游戏无关性」（Game-agnostic）策略。

智能体不知道颜色代表什么，动作的作用是什么，或者获胜条件是什么，仅通过与游戏互动并观察变化来推断一切。

这种空白状态，反而成就了它。

第二，是「统筹者 + 专业子智能体」的模式。

顶级统筹者，从不直接操作游戏，它将任务委派给子智能体，积累知识，并决定下一步的行动。

专业子智能体包含：探索器、理论家、测试器和解题机（explorers，theorists，testers，solvers）

如果它开始查看网格，其上下文就会被像素数据填满，从而失去战略思考能力。子智能体以简短的文本摘要形式汇报，而不是原始数据。

这种非中心化计策结构的精妙设计，让它规避了Opus 4.6等模型中「同一个大脑既要看像素、又要记规则、还要指挥动作」的严重缺陷。

第三，是它的「共享记忆」机制。

游戏期间，所有智能体共享一个memories数据库。子智能体在工作过程中会记录已确认的事实（场景布局、机制、获胜条件）和假设（并明确标记）。

新智能体在启动前会查询记忆，因此它们可以继承集体知识。

第四，是「关卡切换」机制。

关卡切换：当一个关卡被解出后，下一个关卡会在同一次操作中直接加载，返回的画面已经是新关卡。

只有当所有关卡都通关时，才会触发state=WIN；单个关卡的完成则通过观察levels_completed的增加来判断。

第五点，Agentica有严苛的行动预算管理，每一枚token都要花在刀刃上。

所有关卡的总操作次数是有限的（约 800 次）。调度器会通过make_bounded_submit_action(limit)为各个子智能体分配操作额度。系统会要求智能体避免重复操作，除非确实卡住。

而且，会优先进行有针对性的尝试，而不是暴力式的穷举探索。

另外，还有子智能体需要按需分配工具、调度器需要在复用与重启之间权衡等规定。

要知道ARC-AGI-3的官方定位，正是强调「需要探索、感知 → 规划 → 行动、记忆、目标获取与对齐等能力」。

而Agentica的分工与控制策略，几乎是对这些能力的「工程化拆解」：

探索（Exploration）：由子智能体探索器（explorers）在动作预算下执行，尽量用差分观测提取「机制线索」。

计划/推理（Planning/rule inference）：由子智能体理论家（theorists）在「不允许submit_action」的约束下推导规则，降低无意义动作消耗。

记忆（Memory）： memories 数据库的显式化让跨关卡策略复用更直接，降低「重复学习」的动作与token 成本。

长程适配：关卡过渡由 levels_completed 检测，统筹者（orchestrator）决定沿用策略还是重新进入探索循环。

显然，这套机制与ARC-AGI-3的评分结构（后期关权重更高、效率平方惩罚）十分适配——它鼓励系统把动作花在「信息增益最高」的实验上，并尽快把策略迁移到更高权重关卡。

36.08%的高分，是否有水分？

不过，36%的成绩无疑是耀眼的，但在经过ARC Prize官方验证之前，Symbolica的「爆冷」依然笼罩着几层迷雾。

Symbolica也承认，这一成绩，目前没有得到ARC-AGI-3组委会的官方认证。

材料中有一句非常关键的话：「unverified competition score」（未经验证的成绩）

Symbolica目前的成绩是基于其自行搭建的环境，还是严格复刻了官方的评估流程？这需要打一个问号。

而且，公布的得分明细表中，也有一些不寻常的细节。

比如，Symbolica指出「通过ARC-AGI-3 API获取的人类基线分数表明，游戏cn04总共有6个关卡。这与通过API获取的相应游戏的关卡数量不符。」

如果官方数据存在版本混乱，那分数的有效性也就令人质疑。

另外，在得分明细图中可以看出，像LP85、AR25等游戏得分极高（80%-97%），而SP80、BP35等游戏得分极低（0.2%-0.7%）。

这种严重的两极分化，是否是过拟合导致的？

毕竟，如果是真正的通用智能，应该在所有游戏上表现都相对均衡。

人心所向：AGI的终极测试

昨天，ARC-AGI-3一出，就获得了万众瞩目，得到OpenAI、谷歌、xAI等多位AI大佬的认可。

昨日，ARC-AGI-3正式发布时，奥特曼更是到现场力挺。

这个新的基准测试，被公认为始终通向AGI的「北极星」。

长期以来，AI界的度量衡被锁死在静态基准的框架里。

然而，当OpenClaw这类「暴力进化」的AI智能体出现，行业显然急需一把解剖刀，去切开「主动式智能」的黑盒：比如深不见底的探索欲，毫秒级的感知决策，复杂的路径规划，以及近乎直觉的目标对齐。

赛题：https://www.kaggle.com/competitions/arc-prize-2026-arc-agi-3/data

ARC-AGI-3祭出的考题，是在逼问AI：在完全陌生的规则面前，你是否具备人类那种抽象与推理的本能？

ARC AGI 3技术报告见下列链接：

https://arcprize.org/media/ARC_AGI_3_Technical_Report.pdf

在这里，每款游戏都需要智能体进行探索、理解并解决。满分（100%）意味着AI智能体能够像人类一样高效地通关所有游戏。

目前，最好成绩为0.25，也就是相当于人类基线的25%。

ARC-AGI-3更重要的意义，不是发布新的AI测试，不是草根逆袭AI巨头的爽文，而是开启了新智能体类型——智能体思考。

巧合的是，几乎于ARC-AGI-3发布同时，林俊旸发表了对过去两年的总结，指出了相同的趋势：

自主性思考（agentic thinking）将成为主流的思考方式。

即使面对极其困难的数学或编程任务，一个真正先进的（AI）系统也应有权进行搜索、模拟、执行、检查、验证和修正。

本质上，智能体式思考，是模型通过行动来进行推理，关注的是模型在与环境交互的过程中能否持续取得进展。

他指出AI推理能力核心问题从「模型能否思考足够长时间」转变为「模型能否以维持有效行动的方式进行思考」。

ARC-AGI-3的背后宗旨，和林俊旸的思考，无疑不谋而合了。

巧合之处，恐怕就是行业的下一个方向。

参考资料：

https://x.com/JustinLin610/status/2037116325210829168

https://github.com/symbolica-ai/ARC-AGI-3-Agents

https://www.symbolica.ai/blog/arc-agi-3

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

毛新宇携家人到杨开慧烈士陵园祭扫

政知新媒体 2026-04-05 08:48:13
2675 跟贴 2675
苹果首款折叠屏手机已在试产

财联社 2026-04-06 14:56:21
4029 跟贴 4029

堵！堵！堵！排队26公里

无锡博报 2026-04-06 18:07:47
281 跟贴 281

知名连锁餐饮门口宣传板写“3元自助早餐”，两人买单45元被告知“仅粥饮自助”

新闻晨报随申Hi 2026-04-02 18:36:05
934 跟贴 934
赵心童创“三冠”新纪录，英媒直呼：其统治力“令对手胆寒”

环球网资讯 2026-04-07 06:56:17
95 跟贴 95

5万赞助张雪？东鹏特饮独家回应

中国新闻周刊 2026-04-06 17:14:54
1 跟贴 1

紫牛头条｜对话张雪师父“牙哥：赛车梦想托付张雪，我的梦想是为中国飞机出份力

扬子晚报 2026-04-06 22:26:58
153 跟贴 153
当地文旅否认施压爆火鸡煲店开门营业:已提供支持措施

杭州日报 2026-04-06 16:55:15
590 跟贴 590

中俄公路运输量大幅增长

参考消息 2026-04-06 18:15:18
271 跟贴 271
夏航季东航将采用国产大飞机C919执飞上海航线

黑龙江新闻网 2026-04-06 22:32:19
454 跟贴 454
武汉拟重建汉口一火车站

湖北省人民政府网 2026-04-07 09:12:26
9 跟贴 9
易中天，获奖励20万元

极目新闻 2026-04-06 21:04:19
116 跟贴 116
个税改革迈向“大综合” 平衡不同项目间税负差异

证券时报 2026-04-07 06:26:06
66 跟贴 66
家国永念｜一个有希望的民族不能没有英雄

国际在线 2026-04-07 10:18:15
49 跟贴 49
28年26场访谈，余华《我只要写作，就是回家》出新版

澎湃新闻 2026-04-07 08:26:28
47 跟贴 47
广州越秀白云或现严重回南天！近期全省雨雾频繁空气湿度偏高

南方都市报 2026-04-07 10:20:10
0 跟贴 0
飞向月球不到48小时 "阿耳忒弥斯2号"厕所先撑不住了

澎湃新闻 2026-04-06 22:05:04
0 跟贴 0
陈丽华白手起家，10年前已是中国女首富

极目新闻 2026-04-07 11:33:24
0 跟贴 0
无锡一女子花五位数寻宠，结果

江南晚报 2026-04-07 14:12:44
0 跟贴 0
两起事故、一场纠纷，柳城民警用这几招快速搞定！

柳城人柳城事 2026-04-07 14:03:58
0 跟贴 0

甘肃玉门一化工企业发生火灾，已致3人死亡

甘肃玉门一化工企业发生火灾，已致3人死亡

界面新闻

2026-04-07 12:06:37

中国国民党主席郑丽文率团抵达大陆

中国国民党主席郑丽文率团抵达大陆

财闻

2026-04-07 13:16:14

郑丽文来访时间安排有巧思，她要去江苏可以谒陵，她已经56岁了

郑丽文来访时间安排有巧思，她要去江苏可以谒陵，她已经56岁了

领悟看世界

2026-04-01 00:23:25

郭艾伦辟谣：我没有被骗

大象新闻

2026-04-07 14:09:34

轰动！湖人消息震动NBA，詹姆斯急眼了，联盟格局或大变

轰动！湖人消息震动NBA，詹姆斯急眼了，联盟格局或大变

兰亭墨未干

2026-04-07 07:49:33

浙大名嘴揭开残酷真相：当年恒大倒台，压根不是因为2万亿负债！

浙大名嘴揭开残酷真相：当年恒大倒台，压根不是因为2万亿负债！

阿器谈史

2026-04-02 13:31:44

这个男士是郭延军，他的鼻子的宽度、面积、体积为普通人2倍以上

这个男士是郭延军，他的鼻子的宽度、面积、体积为普通人2倍以上

岁月有情1314

2026-04-01 11:25:58

全红婵回乡祭祖一个动作火遍全网！褪去冠军光环的她，圈粉无数

全红婵回乡祭祖一个动作火遍全网！褪去冠军光环的她，圈粉无数

社会日日鲜

2026-04-06 17:26:19

伊朗宣布决定，霍尔木兹海峡通航，高人指点，打起石油持久战

伊朗宣布决定，霍尔木兹海峡通航，高人指点，打起石油持久战

闻识

2026-04-07 13:06:26

王楚钦冠军仅1天，奥委会就这样评价他，16字一针见血，字字戳心

王楚钦冠军仅1天，奥委会就这样评价他，16字一针见血，字字戳心

温读史

2026-04-07 10:10:52

郑丽文今率团访陆，两岸和平出现曙光，谢寒冰：宣扬“武统”多是绿营的人

郑丽文今率团访陆，两岸和平出现曙光，谢寒冰：宣扬“武统”多是绿营的人

海峡导报社

2026-04-07 09:09:13

约基奇35+14+13，赛后第一时间找杨瀚森，开拓者新老板说出大实话！

约基奇35+14+13，赛后第一时间找杨瀚森，开拓者新老板说出大实话！

野渡舟山人

2026-04-07 13:49:07

1990年丁盛到北京后，给聂帅写了封信请求：把我的关系转到广州吧

1990年丁盛到北京后，给聂帅写了封信请求：把我的关系转到广州吧

明月清风阁

2026-04-07 13:30:06

烧光350亿后破产，威马创始人沈晖逃亡海外行踪成谜

烧光350亿后破产，威马创始人沈晖逃亡海外行踪成谜

一号位故事

2026-04-04 20:02:32

掘金逆转战况，火箭成最大赢家获首轮优势

掘金逆转战况，火箭成最大赢家获首轮优势

徐扙老表哥

2026-04-07 13:46:02

中国正式向全世界宣告，，解放军打日本不用获得任何人的同意授权

中国正式向全世界宣告，，解放军打日本不用获得任何人的同意授权

世界军事格局

2026-04-06 22:10:13

这张照片的含金量有多高，你看的懂吗

这张照片的含金量有多高，你看的懂吗

朗威谈星座

2026-04-04 16:51:24

沉默3天，北京迎来一位贵客，见面先握紧中方手，特朗普又赌输了

沉默3天，北京迎来一位贵客，见面先握紧中方手，特朗普又赌输了

南宗历史

2026-04-06 04:41:56

142-126！骑士逆转灰熊，莫布里22+6，灰熊29个三分平历史纪录

142-126！骑士逆转灰熊，莫布里22+6，灰熊29个三分平历史纪录

星Xin辰大海

2026-04-07 13:23:10

61岁陈瑾和巫刚昆明被偶遇，曝已在这里定居，在一起逾20年仍未婚

61岁陈瑾和巫刚昆明被偶遇，曝已在这里定居，在一起逾20年仍未婚

观察鉴娱

2026-04-04 17:24:45

AI产业主平台领航智能+时代

14916文章数 66754关注度

往期回顾全部

科技要闻

满嘴谎言！OpenAI奥特曼黑料大起底

头条要闻

美被困飞行员靠定位器求救回答其父私密问题验明身份

头条要闻

美被困飞行员靠定位器求救回答其父私密问题验明身份

体育要闻

官宣签约“AI球员”，这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议黄景瑜前妻发文内涵

财经要闻

2026年，全国租房市场还有波降价潮

汽车要闻

不止是大极狐首款MPV问道V9静态体验

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手机

游戏

教育

艺术

军事航空

手机要闻

你们都错了！REDMI K90再添新成员，卢伟冰又换玩法了

《红色沙漠》玩家发现新乐子：用苹果引诱NPC跳崖！

教育要闻

突发：南京又有机构突然闭店！家长遇到机构暴雷，该如何挽回损失？

艺术要闻

美丽风光看不尽

军事要闻

美军营救飞行员出动155架飞机

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版