网易首页 > 网易号 > 正文 申请入驻

一项具有挑战性的新 AGI 测试难倒了大多数 AI 模型

0
分享至

由著名人工智能研究员 François Chollet 共同创立的非营利组织 Arc Prize Foundation 周一在一篇博客文章中宣布,它已经创建了一项新的具有挑战性的测试,以衡量领先人工智能模型的通用智能。到目前为止,名为 ARC-AGI-2 的新测试让大多数模型都难以通过。

根据Arc Prize 排行榜,OpenAI 的 o1-pro 和 DeepSeek 的 R1 等“推理”AI 模型在 ARC-AGI-2 上的得分在 1% 到 1.3% 之间。包括 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Flash 在内的强大的非推理模型得分约为 1%。

ARC-AGI 测试由一些类似拼图的问题组成,其中人工智能必须从一组不同颜色的方块中识别视觉图案,并生成正确的“答案”网格。这些问题旨在迫使人工智能适应它从未见过的新问题。

Arc Prize Foundation 让 400 多人参加了 ARC-AGI-2 测试,以建立人类基准。平均而言,这些人的“小组”答对了 60% 的测试问题——比任何模型的得分都要好得多。

Arc-AGI-2 的一个示例问题(来源:Arc Prize)

在X 上的一篇文章中,Chollet 声称 ARC-AGI-2 比测试的第一次迭代 ARC-AGI-1 更能衡量 AI 模型的实际智能。Arc Prize Foundation 的测试旨在评估 AI 系统是否能够有效地在其训练数据之外获得新技能。

Chollet 表示,与 ARC-AGI-1 不同,新测试阻止 AI 模型依赖“蛮力”——大量计算能力——来寻找解决方案。Chollet 此前承认这是 ARC-AGI-1 的一个重大缺陷。

为了解决第一个测试的缺陷,ARC-AGI-2 引入了一个新指标:效率。它还要求模型能够即时解释模式,而不是依赖记忆。

Arc Prize Foundation 联合创始人 Greg Kamradt 在一篇博客文章中写道:“智能不仅仅由解决问题或取得高分的能力来定义。获取和部署这些能力的效率是一个至关重要的决定性因素。核心问题不仅仅是‘人工智能能否获得解决任务的技能?’,还有‘效率或成本如何?’”

ARC-AGI-1 保持了大约五年的不败战绩,直到 2024 年 12 月,OpenAI 发布了其高级推理模型 o3,该模型的表现优于所有其他 AI 模型,并在评估中与人类表现相当。然而,正如我们当时所指出的,o3 在 ARC-AGI-1 上的性能提升是付出了高昂代价的。

OpenAI 的 o3 模型版本 o3(低)在 ARC-AGI-1 上首次达到新高度,在测试中得分为 75.7%,但在 ARC-AGI-2 上仅获得 4% 的微弱优势,每个任务使用价值 200 美元的计算能力。

Frontier AI 模型在 ARC-AGI-1 和 ARC-AGI-2 上的性能比较(来源:Arc Prize)

ARC-AGI-2 的发布正值科技行业众多人士呼吁建立新的、不饱和的基准来衡量人工智能的进步之际。Hugging Face 的联合创始人托马斯·沃尔夫介绍说,人工智能行业缺乏足够的测试来衡量所谓的通用人工智能的关键特征,包括创造力。

除了新的基准之外,Arc Prize 基金会还宣布了一项新的 Arc Prize 2025 竞赛,要求开发人员在 ARC-AGI-2 测试中达到 85% 的准确率,同时每个任务仅花费 0.42 美元。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
孩子被开水烫伤,妈妈直接用冰块敷坑了娃,医生:组织坏死毁容了

孩子被开水烫伤,妈妈直接用冰块敷坑了娃,医生:组织坏死毁容了

菁妈育儿
2026-05-24 10:36:51
他没秃,但变强了,一个44岁日本大叔的三年“一拳超人”实修录

他没秃,但变强了,一个44岁日本大叔的三年“一拳超人”实修录

国创漫话
2026-05-24 14:24:45
全国退休金过万的人有多少?答案出乎意料!

全国退休金过万的人有多少?答案出乎意料!

黯泉
2026-05-25 18:13:43
网友质疑违反《劳动法》代价过低,同为法律,执行为何有差距?

网友质疑违反《劳动法》代价过低,同为法律,执行为何有差距?

渔夫说事
2026-05-24 13:10:10
CBA最新消息!北京首钢续约陈盈骏,杨鸣确定完成签约

CBA最新消息!北京首钢续约陈盈骏,杨鸣确定完成签约

体坛瞎白话
2026-05-25 07:31:52
率台湾青年看 “神舟二十三号”发射,连战之子:中华民族的里程碑

率台湾青年看 “神舟二十三号”发射,连战之子:中华民族的里程碑

海峡导报社
2026-05-25 17:21:03
女顾客投诉男人光膀子健身,老板直接禁止女性进入,评论区已吵翻

女顾客投诉男人光膀子健身,老板直接禁止女性进入,评论区已吵翻

谭谈社会
2026-05-24 17:53:33
人民日报建议:人生下半场,比存钱更重要的,是存肌肉

人民日报建议:人生下半场,比存钱更重要的,是存肌肉

洞见
2026-05-25 09:25:00
中国打出最强一拳!日本终于扛不住,当着全球的面,日方提出条件

中国打出最强一拳!日本终于扛不住,当着全球的面,日方提出条件

流史岁月
2026-05-25 13:42:24
盒马“粉木耳”配女性轮廓剪影,是否涉嫌性暗示、“内涵”女性?

盒马“粉木耳”配女性轮廓剪影,是否涉嫌性暗示、“内涵”女性?

乔志峰
2026-05-25 17:04:18
香蕉面临灭绝?大自然开出天价罚单,日常香蕉自由或许要面临退场

香蕉面临灭绝?大自然开出天价罚单,日常香蕉自由或许要面临退场

丁丁鲤史纪
2026-05-24 13:39:34
两张票404万人民币!尼克斯总决赛票价惊人:能在俄城买一套房

两张票404万人民币!尼克斯总决赛票价惊人:能在俄城买一套房

罗说NBA
2026-05-25 05:57:36
比院士、杰青造假更恐怖的真相:团队里没有任何一个实干的人

比院士、杰青造假更恐怖的真相:团队里没有任何一个实干的人

天天热点见闻
2026-05-23 08:26:34
冲上热榜!郑钦文惨败产生连锁反应:排名跌出百大+或沦为中国6姐

冲上热榜!郑钦文惨败产生连锁反应:排名跌出百大+或沦为中国6姐

大秦壁虎白话体育
2026-05-25 19:49:55
萧旭岑被指控收受捐款未入账后,李德维发声,厦门台商会长发声

萧旭岑被指控收受捐款未入账后,李德维发声,厦门台商会长发声

DS北风
2026-05-25 17:42:07
反转了!耿同学从吉大出来后,短短几天判若两人,网友发帖引热议

反转了!耿同学从吉大出来后,短短几天判若两人,网友发帖引热议

火山詩话
2026-05-25 07:42:09
陈慧琳为何会看上光头刘建浩?原因很简单

陈慧琳为何会看上光头刘建浩?原因很简单

南万说娱26
2026-05-24 09:25:20
打水漂了!国乒悄然撤离威海基地,王楠郭斌七年投入血本无归?

打水漂了!国乒悄然撤离威海基地,王楠郭斌七年投入血本无归?

拳击时空
2026-05-25 06:03:17
在刚刚!CBA官宣第9位主帅下课!接替者是名帅,曾任中国男篮教练

在刚刚!CBA官宣第9位主帅下课!接替者是名帅,曾任中国男篮教练

老吴说体育
2026-05-25 19:07:36
日本网友破防了!中国女子在海滩徒手偷挖3公斤蛤蜊,当场被抓认罪

日本网友破防了!中国女子在海滩徒手偷挖3公斤蛤蜊,当场被抓认罪

日本物语
2026-05-24 20:36:39
2026-05-25 20:36:49
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
68198文章数 70201关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

牛弹琴:伊朗现在哭笑不得 美官员让伊别理特朗普推文

头条要闻

牛弹琴:伊朗现在哭笑不得 美官员让伊别理特朗普推文

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

纸包火的秘密:前发审委员的冒险游戏

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

家居
教育
房产
本地
公开课

家居要闻

生与命相依 旧公寓改造

教育要闻

两个问题:23456志愿的选择与班型比较

房产要闻

工抵房骗局!134套房款入私账!海南这个盘,坑惨买房人!

本地新闻

用云锦的方式,打开江苏南京

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版