网易首页 > 网易号 > 正文 申请入驻

全新 ARC-AGI-2 测试登场:AI 模型得分惨淡,被人类碾压

0
分享至

IT之家 3 月 25 日消息,Arc Prize 基金会是一家由知名人工智能研究员弗朗索瓦・肖莱(François Chollet)共同创立的非营利组织,该基金会于本周一在其博客上宣布推出一个名为 ARC-AGI-2 的全新测试,旨在衡量领先人工智能模型的通用智能水平。这项测试的难度极高,截至目前,大多数 AI 模型都在该测试中表现不佳。

根据 Arc Prize 排行榜的数据显示,以推理能力著称的 AI 模型,如 OpenAI 的 o1-pro 和 DeepSeek 的 R1,在 ARC-AGI-2 测试中的得分仅为 1% 至 1.3%。而包括 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Flash 等强大的非推理型模型,得分也仅在 1% 左右。

ARC-AGI 测试由一系列类似谜题的问题组成,要求 AI 从一组不同颜色的方块中识别出视觉模式,并生成正确的“答案网格”。这些问题的设计旨在迫使 AI 适应其未曾见过的新问题。为了建立人类基线,Arc Prize 基金会邀请了超过 400 人参加 ARC-AGI-2 测试。平均而言,这些参与者组成的“小组”能够正确回答测试中 60% 的问题,这一成绩远远超过了任何 AI 模型的得分。

Arc-AGI-2 的一个示例问题

在 X 平台上,肖莱表示,ARC-AGI-2 测试比之前的 ARC-AGI-1 测试更能准确衡量 AI 模型的实际智能水平。Arc Prize 基金会的测试旨在评估 AI 系统是否能够在训练数据之外高效地获取新技能。

肖莱指出,与 ARC-AGI-1 不同,新的 ARC-AGI-2 测试防止了 AI 模型依赖“蛮力”—— 即大量的计算能力 —— 来寻找解决方案。他此前曾承认,这是 ARC-AGI-1 的一个主要缺陷。为了弥补这一缺陷,ARC-AGI-2 引入了一个新的指标:效率。它还要求模型实时解读模式,而不是依赖记忆。

“智能不仅仅是解决问题或取得高分的能力,”Arc Prize 基金会联合创始人格雷格・卡姆拉德(Greg Kamradt)在其博客中写道,“这些能力的获取和部署效率是至关重要的决定性因素。我们提出的核心问题不仅仅是‘AI 能否获得解决任务的技能?’,还包括‘以何种效率或代价?’”

ARC-AGI-1 在大约五年内无人能敌,直到 2024 年 12 月,OpenAI 发布了其先进的推理模型 o3,该模型超越了所有其他 AI 模型,并在评估中达到了人类水平的表现。然而,正如当时所指出的,o3 在 ARC-AGI-1 上的性能提升是以高昂的成本为代价的。

OpenAI 的 o3 模型(低配版)—— 第一个在 ARC-AGI-1 上取得突破的版本,在该测试中得分高达 75.7%,但在 ARC-AGI-2 测试中,即使使用价值 200 美元的计算能力,其得分也仅为 4%。

ARC-AGI-2 的推出正值科技行业许多人呼吁需要新的、未饱和的基准来衡量 AI 进展之时。Hugging Face 联合创始人托马斯・沃尔夫(Thomas Wolf)最近在接受 TechCrunch 采访时表示,AI 行业缺乏足够的测试来衡量所谓的通用人工智能的关键特质,包括创造力。

与此同时,Arc Prize 基金会还宣布了 2025 年 Arc Prize 竞赛,挑战开发者在 ARC-AGI-2 测试中达到 85% 的准确率,同时每项任务的花费不超过 0.42 美元(IT之家注:现汇率约合 3 元人民币)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
原新四军师级干部无职务,主席特批待遇比照元帅

原新四军师级干部无职务,主席特批待遇比照元帅

唠叨说历史
2026-06-02 14:39:17
2.87亿变2.2亿!他跟球队拉扯起来了!!!

2.87亿变2.2亿!他跟球队拉扯起来了!!!

柚子说球
2026-06-04 12:02:15
四川2名干部任市委常委

四川2名干部任市委常委

金台资讯
2026-06-04 13:00:46
局部大暴雨,广东高考期间有强对流天气

局部大暴雨,广东高考期间有强对流天气

新快报新闻
2026-06-04 15:51:45
中纪委再划红线!党员干部“八小时外”100条禁令

中纪委再划红线!党员干部“八小时外”100条禁令

微法官
2026-06-04 00:07:22
伤痕累累!韩媒晒孙兴慜脚部照片:脚趾扭曲变形,指甲变黑脱落

伤痕累累!韩媒晒孙兴慜脚部照片:脚趾扭曲变形,指甲变黑脱落

兰亭墨未干
2026-06-04 16:18:02
随着李东炅飙任意球世界波+比分1-0,韩国迎世界杯前热身赛2连胜

随着李东炅飙任意球世界波+比分1-0,韩国迎世界杯前热身赛2连胜

侧身凌空斩
2026-06-04 10:55:01
CBA消息:卢伟被举报打假球,上海队可能面临追罚,广东后卫提租借

CBA消息:卢伟被举报打假球,上海队可能面临追罚,广东后卫提租借

观史搜寻着
2026-06-04 16:42:25
马刺输尼克斯! 可怕的不是0-1落后, 是赛后4个坏消息, 文班首冠悬了

马刺输尼克斯! 可怕的不是0-1落后, 是赛后4个坏消息, 文班首冠悬了

林子说事
2026-06-04 14:23:11
刚访华结束,塞尔维亚形势反转,武契奇接班人出现,对华态度曝光

刚访华结束,塞尔维亚形势反转,武契奇接班人出现,对华态度曝光

流史岁月
2026-06-04 14:24:36
别羡慕网红赚得多!董赤赤的下场,给所有追名逐利的人敲了警钟

别羡慕网红赚得多!董赤赤的下场,给所有追名逐利的人敲了警钟

法老不说教
2026-06-02 20:50:31
俄罗斯亡,中国寒?非也!比西方围堵更可怕的,是我们的妄自菲薄

俄罗斯亡,中国寒?非也!比西方围堵更可怕的,是我们的妄自菲薄

领悟看世界
2026-04-18 00:26:25
洗澡可能影响寿命!医生再次提醒:52岁以后,牢记洗澡“5不要”

洗澡可能影响寿命!医生再次提醒:52岁以后,牢记洗澡“5不要”

芹姐说生活
2026-05-28 23:24:36
稻城亚丁占省道反转!中央曝猛料,就算景区敛财,游客也全力支持

稻城亚丁占省道反转!中央曝猛料,就算景区敛财,游客也全力支持

米果说识
2026-06-03 12:12:18
赵心童上演残酷德比!吴宜泽复仇小钢炮,5人局炸裂上海

赵心童上演残酷德比!吴宜泽复仇小钢炮,5人局炸裂上海

林子说事
2026-06-04 11:44:24
瞒了整整三个月!伊朗终于官宣大事,局势已彻底尘埃落定?

瞒了整整三个月!伊朗终于官宣大事,局势已彻底尘埃落定?

一网打尽全球焦点
2026-06-03 02:53:45
卧槽!1000w,威少重返雷霆

卧槽!1000w,威少重返雷霆

体育新角度
2026-06-03 21:11:56
形势到底有多严峻?国人心心念念的特斯拉竟会裁员,评论区炸锅…

形势到底有多严峻?国人心心念念的特斯拉竟会裁员,评论区炸锅…

慧翔百科
2026-06-02 08:27:57
封单超195万手!千亿巨头,强势涨停

封单超195万手!千亿巨头,强势涨停

证券时报
2026-06-04 15:46:04
太惨了!商场80%店关门,武汉一商场从开业爆火到8成空置,引热议

太惨了!商场80%店关门,武汉一商场从开业爆火到8成空置,引热议

火山詩话
2026-06-03 11:47:35
2026-06-04 17:24:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
347901文章数 607268关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

业主不满物业收每天4元停车费 争吵被骂"住不起就滚"

头条要闻

业主不满物业收每天4元停车费 争吵被骂"住不起就滚"

体育要闻

欧冠决赛躺赢?他也曾是大巴黎的英雄

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

亲子
时尚
艺术
教育
本地

亲子要闻

孩子明知要挨父母打,为啥还待在原地不肯躲?知道原因心疼抱抱娃

粗腿宽肩,正在成为中女审美新风向

艺术要闻

唐寅『梅花册』

教育要闻

为什么说九年义务教育 放在世界范围里就是降维打击?

本地新闻

用杨柳青年画的方式,打开天津

无障碍浏览 进入关怀版