网易首页 > 网易号 > 正文 申请入驻

全新 ARC-AGI-2 测试登场:AI 模型得分惨淡,被人类碾压

0
分享至

IT之家 3 月 25 日消息,Arc Prize 基金会是一家由知名人工智能研究员弗朗索瓦・肖莱(François Chollet)共同创立的非营利组织,该基金会于本周一在其博客上宣布推出一个名为 ARC-AGI-2 的全新测试,旨在衡量领先人工智能模型的通用智能水平。这项测试的难度极高,截至目前,大多数 AI 模型都在该测试中表现不佳。

根据 Arc Prize 排行榜的数据显示,以推理能力著称的 AI 模型,如 OpenAI 的 o1-pro 和 DeepSeek 的 R1,在 ARC-AGI-2 测试中的得分仅为 1% 至 1.3%。而包括 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Flash 等强大的非推理型模型,得分也仅在 1% 左右。

ARC-AGI 测试由一系列类似谜题的问题组成,要求 AI 从一组不同颜色的方块中识别出视觉模式,并生成正确的“答案网格”。这些问题的设计旨在迫使 AI 适应其未曾见过的新问题。为了建立人类基线,Arc Prize 基金会邀请了超过 400 人参加 ARC-AGI-2 测试。平均而言,这些参与者组成的“小组”能够正确回答测试中 60% 的问题,这一成绩远远超过了任何 AI 模型的得分。

Arc-AGI-2 的一个示例问题

在 X 平台上,肖莱表示,ARC-AGI-2 测试比之前的 ARC-AGI-1 测试更能准确衡量 AI 模型的实际智能水平。Arc Prize 基金会的测试旨在评估 AI 系统是否能够在训练数据之外高效地获取新技能。

肖莱指出,与 ARC-AGI-1 不同,新的 ARC-AGI-2 测试防止了 AI 模型依赖“蛮力”—— 即大量的计算能力 —— 来寻找解决方案。他此前曾承认,这是 ARC-AGI-1 的一个主要缺陷。为了弥补这一缺陷,ARC-AGI-2 引入了一个新的指标:效率。它还要求模型实时解读模式,而不是依赖记忆。

“智能不仅仅是解决问题或取得高分的能力,”Arc Prize 基金会联合创始人格雷格・卡姆拉德(Greg Kamradt)在其博客中写道,“这些能力的获取和部署效率是至关重要的决定性因素。我们提出的核心问题不仅仅是‘AI 能否获得解决任务的技能?’,还包括‘以何种效率或代价?’”

ARC-AGI-1 在大约五年内无人能敌,直到 2024 年 12 月,OpenAI 发布了其先进的推理模型 o3,该模型超越了所有其他 AI 模型,并在评估中达到了人类水平的表现。然而,正如当时所指出的,o3 在 ARC-AGI-1 上的性能提升是以高昂的成本为代价的。

OpenAI 的 o3 模型(低配版)—— 第一个在 ARC-AGI-1 上取得突破的版本,在该测试中得分高达 75.7%,但在 ARC-AGI-2 测试中,即使使用价值 200 美元的计算能力,其得分也仅为 4%。

ARC-AGI-2 的推出正值科技行业许多人呼吁需要新的、未饱和的基准来衡量 AI 进展之时。Hugging Face 联合创始人托马斯・沃尔夫(Thomas Wolf)最近在接受 TechCrunch 采访时表示,AI 行业缺乏足够的测试来衡量所谓的通用人工智能的关键特质,包括创造力。

与此同时,Arc Prize 基金会还宣布了 2025 年 Arc Prize 竞赛,挑战开发者在 ARC-AGI-2 测试中达到 85% 的准确率,同时每项任务的花费不超过 0.42 美元(IT之家注:现汇率约合 3 元人民币)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
多哈被韩莹让二追三,美国大满贯首轮再碰,陈熠这次能过关吗?

多哈被韩莹让二追三,美国大满贯首轮再碰,陈熠这次能过关吗?

春日筆記
2026-06-28 04:08:49
孙继海少年队遭俄强队多次破门,实战短板暴露无遗

孙继海少年队遭俄强队多次破门,实战短板暴露无遗

刘哥谈体育
2026-06-27 13:19:16
《父母爱情》张桂兰扮演者,不是专业影视演员,毛遂自荐零片酬演

《父母爱情》张桂兰扮演者,不是专业影视演员,毛遂自荐零片酬演

娱人细品
2026-06-25 19:04:30
被重新解读的《父母爱情》,堪比恐怖片

被重新解读的《父母爱情》,堪比恐怖片

孙琬童
2026-06-25 20:01:31
《一个部门的诞生》全市无排片,港片真没面了

《一个部门的诞生》全市无排片,港片真没面了

尘飞扬说电影
2026-06-27 17:40:23
吃一口扔大半!火遍欧美千年,却在中国彻底水土不服

吃一口扔大半!火遍欧美千年,却在中国彻底水土不服

世界博览
2026-06-25 08:05:34
特赦后坚持赴台,在功德林蛰伏26年的他,到老才吐露背负隐秘任务

特赦后坚持赴台,在功德林蛰伏26年的他,到老才吐露背负隐秘任务

磊子讲史
2026-06-26 16:21:18
这个国家快被中国“买”下了!美女遍地,10个移民中就有9个国人

这个国家快被中国“买”下了!美女遍地,10个移民中就有9个国人

霁寒飘雪
2026-06-26 19:36:54
《人世间》:永远不要操心你的孩子,也不要操心你的父母,你所有的操心基本上是白费,每个人都有自己的三生因果,都要在自己的因果中轮回

《人世间》:永远不要操心你的孩子,也不要操心你的父母,你所有的操心基本上是白费,每个人都有自己的三生因果,都要在自己的因果中轮回

心理观察局
2026-06-22 06:55:14
三战三平,佛得角小组第二晋级,下一场挑战卫冕冠军阿根廷

三战三平,佛得角小组第二晋级,下一场挑战卫冕冠军阿根廷

澎湃新闻
2026-06-27 10:12:27
44岁彭于晏伦敦街头被偶遇,染银发戴粉帽,真人185小奶狗既视感

44岁彭于晏伦敦街头被偶遇,染银发戴粉帽,真人185小奶狗既视感

木子爱娱乐大号
2026-06-27 19:04:02
洪秀柱直言敲打:既然不愿扛起统一大旗,何必身居国民党主席之位

洪秀柱直言敲打:既然不愿扛起统一大旗,何必身居国民党主席之位

谁将主宰未来
2026-06-21 09:57:43
巴萨紧盯新星!转会费谈不拢谈判陷停滞

巴萨紧盯新星!转会费谈不拢谈判陷停滞

竞技风云录
2026-06-28 01:10:03
中国为什么总说要扩大消费,却迟迟没有进行大规模收入分配改革?

中国为什么总说要扩大消费,却迟迟没有进行大规模收入分配改革?

素衣读史
2026-06-25 22:12:10
被大佬当“玩物”、孕期注射药物百次,最美“三圣母”竟落魄至此

被大佬当“玩物”、孕期注射药物百次,最美“三圣母”竟落魄至此

翰飞观事
2026-06-26 16:40:37
新一轮“下岗潮”要来了?三大行业即将面临失业,早知道早准备

新一轮“下岗潮”要来了?三大行业即将面临失业,早知道早准备

深析古今
2026-06-27 13:17:59
你见过哪些低成本却很治愈的小习惯?网友:十块钱,把一天捞回来

你见过哪些低成本却很治愈的小习惯?网友:十块钱,把一天捞回来

夜深爱杂谈
2026-06-27 22:17:26
为什么越来越多的公务员,不敢在朋友圈发任何私人动态?

为什么越来越多的公务员,不敢在朋友圈发任何私人动态?

职场资深秘书
2026-06-24 16:41:17
人性铁律早已写死:穷人越忙越穷,中产越投越亏,能把雪球滚大的,从来不是勤奋,而是这两个认知

人性铁律早已写死:穷人越忙越穷,中产越投越亏,能把雪球滚大的,从来不是勤奋,而是这两个认知

心理观察局
2026-06-22 06:25:31
松岛辉空最新采访表示王楚钦随着年龄变大,质量速度下降

松岛辉空最新采访表示王楚钦随着年龄变大,质量速度下降

乒乓乐园
2026-06-27 19:40:31
2026-06-28 05:28:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
351925文章数 607315关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

金价大跌 有商家资产缩水百万:跌掉一辆迈巴赫

头条要闻

金价大跌 有商家资产缩水百万:跌掉一辆迈巴赫

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

艺术
教育
本地
公开课
军事航空

艺术要闻

看完他的局部,我原谅了整个世界的不完美

教育要闻

教学校长邢金涛做客新京报直播间,分享从639分到692分的真实复读案例

本地新闻

世界杯球迷节:比球赛更好玩的派对

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

黎以美达成三方框架协议

无障碍浏览 进入关怀版