网易首页 > 网易号 > 正文 申请入驻

全新 ARC-AGI-2 测试登场:AI 模型得分惨淡,被人类碾压

0
分享至

IT之家 3 月 25 日消息,Arc Prize 基金会是一家由知名人工智能研究员弗朗索瓦・肖莱(François Chollet)共同创立的非营利组织,该基金会于本周一在其博客上宣布推出一个名为 ARC-AGI-2 的全新测试,旨在衡量领先人工智能模型的通用智能水平。这项测试的难度极高,截至目前,大多数 AI 模型都在该测试中表现不佳。

根据 Arc Prize 排行榜的数据显示,以推理能力著称的 AI 模型,如 OpenAI 的 o1-pro 和 DeepSeek 的 R1,在 ARC-AGI-2 测试中的得分仅为 1% 至 1.3%。而包括 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Flash 等强大的非推理型模型,得分也仅在 1% 左右。

ARC-AGI 测试由一系列类似谜题的问题组成,要求 AI 从一组不同颜色的方块中识别出视觉模式,并生成正确的“答案网格”。这些问题的设计旨在迫使 AI 适应其未曾见过的新问题。为了建立人类基线,Arc Prize 基金会邀请了超过 400 人参加 ARC-AGI-2 测试。平均而言,这些参与者组成的“小组”能够正确回答测试中 60% 的问题,这一成绩远远超过了任何 AI 模型的得分。

Arc-AGI-2 的一个示例问题

在 X 平台上,肖莱表示,ARC-AGI-2 测试比之前的 ARC-AGI-1 测试更能准确衡量 AI 模型的实际智能水平。Arc Prize 基金会的测试旨在评估 AI 系统是否能够在训练数据之外高效地获取新技能。

肖莱指出,与 ARC-AGI-1 不同,新的 ARC-AGI-2 测试防止了 AI 模型依赖“蛮力”—— 即大量的计算能力 —— 来寻找解决方案。他此前曾承认,这是 ARC-AGI-1 的一个主要缺陷。为了弥补这一缺陷,ARC-AGI-2 引入了一个新的指标:效率。它还要求模型实时解读模式,而不是依赖记忆。

“智能不仅仅是解决问题或取得高分的能力,”Arc Prize 基金会联合创始人格雷格・卡姆拉德(Greg Kamradt)在其博客中写道,“这些能力的获取和部署效率是至关重要的决定性因素。我们提出的核心问题不仅仅是‘AI 能否获得解决任务的技能?’,还包括‘以何种效率或代价?’”

ARC-AGI-1 在大约五年内无人能敌,直到 2024 年 12 月,OpenAI 发布了其先进的推理模型 o3,该模型超越了所有其他 AI 模型,并在评估中达到了人类水平的表现。然而,正如当时所指出的,o3 在 ARC-AGI-1 上的性能提升是以高昂的成本为代价的。

OpenAI 的 o3 模型(低配版)—— 第一个在 ARC-AGI-1 上取得突破的版本,在该测试中得分高达 75.7%,但在 ARC-AGI-2 测试中,即使使用价值 200 美元的计算能力,其得分也仅为 4%。

ARC-AGI-2 的推出正值科技行业许多人呼吁需要新的、未饱和的基准来衡量 AI 进展之时。Hugging Face 联合创始人托马斯・沃尔夫(Thomas Wolf)最近在接受 TechCrunch 采访时表示,AI 行业缺乏足够的测试来衡量所谓的通用人工智能的关键特质,包括创造力。

与此同时,Arc Prize 基金会还宣布了 2025 年 Arc Prize 竞赛,挑战开发者在 ARC-AGI-2 测试中达到 85% 的准确率,同时每项任务的花费不超过 0.42 美元(IT之家注:现汇率约合 3 元人民币)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国产顶级神剧,只可惜,央视播完就禁了

国产顶级神剧,只可惜,央视播完就禁了

独立鱼
2026-03-23 21:22:17
女人其实比男人更开放、更大胆、更热烈、更需要刺激

女人其实比男人更开放、更大胆、更热烈、更需要刺激

加油丁小文
2026-03-24 11:55:30
东契奇43+6+7无缘今日最佳球员!因为约基奇23+21+19创4项纪录!

东契奇43+6+7无缘今日最佳球员!因为约基奇23+21+19创4项纪录!

Tracy的篮球博物馆
2026-03-26 13:49:54
网友吐槽别糊弄老百姓了,又是天才少年发国际论文,谁家的公子?

网友吐槽别糊弄老百姓了,又是天才少年发国际论文,谁家的公子?

眼光很亮
2026-03-08 01:43:40
李连杰当面一句“我刚换了心脏”,谢苗脸唰一下白了,气都不敢喘

李连杰当面一句“我刚换了心脏”,谢苗脸唰一下白了,气都不敢喘

西楼知趣杂谈
2026-02-28 21:36:48
真不识货 被邱彪弃用之人 如今场均22.8分6.8助攻 得分全联盟第3

真不识货 被邱彪弃用之人 如今场均22.8分6.8助攻 得分全联盟第3

男足的小球童
2026-03-26 16:08:26
回旋镖来了?大疆被曝“像素级”抄袭

回旋镖来了?大疆被曝“像素级”抄袭

蓝字计划
2026-03-26 09:38:42
胖东来再立功,自选眼镜超市火爆,7亿近视人配镜应花多少钱?

胖东来再立功,自选眼镜超市火爆,7亿近视人配镜应花多少钱?

匀枫财技大兜底
2026-03-25 10:26:15
油价暴涨100%,越南开启“地狱”生存模式:车停着不开,肉按片买

油价暴涨100%,越南开启“地狱”生存模式:车停着不开,肉按片买

温读史
2026-03-26 05:53:39
CBA焦点战今夜打响!CCTV5不直播!青岛争前4,北控广州冲季后赛

CBA焦点战今夜打响!CCTV5不直播!青岛争前4,北控广州冲季后赛

老吴说体育
2026-03-26 09:53:13
养生|大便后你用几张纸?用纸量判断你的身体情况

养生|大便后你用几张纸?用纸量判断你的身体情况

A活着
2026-03-24 19:25:23
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
内塔尼亚胡:48小时内加紧摧毁伊朗军工设施

内塔尼亚胡:48小时内加紧摧毁伊朗军工设施

参考消息
2026-03-26 15:47:05
给机关事业单位退休人员发生活补贴合理合规,看看这些地方的做法

给机关事业单位退休人员发生活补贴合理合规,看看这些地方的做法

郭爱华追问教育
2026-03-25 06:25:09
李鑫姐夫身份后续:别猜了!不是体制内领导,真实身份很接地气

李鑫姐夫身份后续:别猜了!不是体制内领导,真实身份很接地气

潮鹿逐梦
2026-03-26 11:54:35
烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

酷玩实验室
2026-03-25 18:25:49
徐州正在严查!多一个都不行

徐州正在严查!多一个都不行

无线徐州
2026-03-26 17:35:28
外媒:扎哈罗娃警告称,俄将严厉回应西方国家针对有关船只采取的不友好行为

外媒:扎哈罗娃警告称,俄将严厉回应西方国家针对有关船只采取的不友好行为

环球网资讯
2026-03-26 18:05:41
停炸五天的真正含义:伊朗被迫进入二选一困局

停炸五天的真正含义:伊朗被迫进入二选一困局

斌闻天下
2026-03-26 07:45:03
旧手机回收迎涨价潮?记者实探:先别扔,涨得最多的是这一类

旧手机回收迎涨价潮?记者实探:先别扔,涨得最多的是这一类

小兔子发现大事情
2026-03-26 13:37:06
2026-03-26 19:03:01
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
336056文章数 607090关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
房产
游戏
公开课
军事航空

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

《刺客信条》又一新作野心炸裂!三张地图横跨半个地球

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版