网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

人类在ARC-AGI-3上能拿90%？这个基准测试该重估了

2026-04-16 08:49:37　来源: 灰度测试中

北京举报

0

分享至

一位研究者抛出一个大胆判断：只要肯认真做，聪明人能在ARC-AGI-3上拿90%以上。这等于说，当前最硬核的通用智能测试，可能没想象中难。

90%门槛意味着什么

ARC-AGI-3是去年发布的视觉推理基准，专门考"少样本学习"——给你几个例子，自己悟规律再解题。之前普遍认为，这测试人类也得费番脑筋，AI更是屡屡碰壁。

但François Chollet（凯洛）的这句话把难度锚点直接拉下来了。如果人类天花板在90%+，那现在AI的30-40%得分，差距是能力问题还是题目设计问题？

测试设计的隐藏漏洞

凯洛本人是ARC-AGI的创造者，他的判断有分量。但这也暴露一个尴尬：当初设想的"人类水平"可能估算偏高。

实际测试里，部分题目依赖特定视觉技巧或模式识别，受过训练的人类确实能批量破解。这不像数学竞赛的绝对难度，更像智商测试里的"可训练项"——练过和没练过，分差巨大。

AI追赶的两种路径

对AI来说，消息喜忧参半。喜的是目标线更清晰了：90%是硬指标，不是模糊的人类水平。忧的是，如果人类靠"认真努力"就能达标，说明测试考察的可能是"可学习的启发式"，而非真正的抽象推理。

现在两条路线在赛跑：一条是堆数据、堆算力，把模式识别练到极致；另一条是搞懂人类怎么"悟"规律，把那套迁移能力复现出来。前者见效快，后者才是AGI。

基准测试的军备竞赛

ARC-AGI-3的遭遇不是孤例。从图灵测试到围棋，每个"终极标准"都被攻克得比预期快。现在轮到视觉推理了。

凯洛这句话的潜台词或许是：该准备ARC-AGI-4了。但更难的是，下一次怎么设计才能区分"真聪明"和"练得多"？

测试设计者永远在追一个移动靶。人类90%的门槛一旦确立，AI的突破就只是时间问题——真正的悬念是，突破的方式能不能让我们学到点新东西。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

GPU神话松动，AI真正的战场变了

虎嗅APP 2026-05-01 01:19:11
2 跟贴 2
世界引擎：Post-Training开启Physical AGI新纪元

机器之心Pro 2026-04-19 20:00:03
0 跟贴 0

深度｜AGI是不是一个阴谋论？

DeepTech深科技 2025-12-08 15:01:46
0 跟贴 0

90 后正在掌管中国 AI，凭实力活成了「爽文」主角

爱范儿 2026-01-19 18:14:14
0 跟贴 0
老黄秘密武器曝光：AI一夜设计芯片，顶人类顶级工程师10个月！

新智元 2026-05-01 09:02:13
4 跟贴 4

山姆·奥特曼的炒作史

DeepTech深科技 2025-12-24 14:02:44
0 跟贴 0

达索系统CEO：如何让AI带来实际生产力

经济观察报 2026-05-01 11:23:09
0 跟贴 0
黄仁勋：AGI时代已经到来，“龙虾开公司”不是梦！

财联社 2026-03-26 23:15:59
0 跟贴 0

AI预测大脑衰老：一张 MRI，AI 如何推演出阿尔茨海默病的十年病程？

钛媒体APP 2026-05-01 09:53:13
3 跟贴 3
DeepSeek“开眼”背后的技术，公开了！

智东西 2026-04-30 22:35:23
1 跟贴 1
仅靠推理不具备法律效力

浪嫂剪辑 2026-04-30 16:43:05
3 跟贴 3
每一题的题目与答案都很出乎意料

与乐説电影 2026-04-30 03:35:00
0 跟贴 0
他发明了价值万亿的AGI，如今穷困潦倒

新智元 2025-11-04 20:19:19
53 跟贴 53
暴力美学的视觉盛宴

疯癫影视 2026-04-28 15:47:43
1 跟贴 1
张廷玉这一波硬核输出，直接锁定了太庙的VIP席位

若一说剧 2026-04-28 18:42:59
20 跟贴 20
大模型“降智”真相，找到了

智东西 2026-04-30 14:41:59
0 跟贴 0
中国船员滞留霍尔木兹60天：奖发到位大部分愿继续干

潇湘晨报 2026-04-30 16:26:46
15898 跟贴 15898
上海迪士尼回应游客劝阻吸烟被打：园区没有禁烟；被打男子发声：对方已赔钱和解

中国新闻周刊 2026-04-27 14:25:00
15202 跟贴 15202
347网红题目，小学数学就能做，你看看会不会

我服子佩 2026-04-27 17:42:37
1 跟贴 1
国防部回应外界推测中国对日将有大动作

北京青年报 2026-04-30 16:41:25
5534 跟贴 5534
五款游戏真能提升智商？我试了一个月

时光慢邮啊 2026-05-01 00:34:35
0 跟贴 0
什么事让你知道好言难劝该死的鬼？全族都没拦住，父子俩终身残疾

夜深爱杂谈 2026-05-01 10:49:01
5 跟贴 5
看似惊险爬山，其实全是视觉效果！

银河探索队 2026-04-30 07:38:34
1 跟贴 1
当3A大厂卷画质时，这家索尼工作室为何说"真实感没意思"？

灰度测试中 2026-05-01 03:14:04
0 跟贴 0
穷人不配被看见？这部前传剧组的服装难题

热搜摘要官 2026-05-01 03:34:13
0 跟贴 0
2026年Met Gala把穿衣变成策展

热搜摘要官 2026-05-01 05:38:46
0 跟贴 0
硬核的面包

甜橙子说动漫 2026-04-29 12:02:00
0 跟贴 0
356难倒99%的大学生的题目，你能几秒钟看出答案？

我服子佩 2026-04-28 11:27:09
1 跟贴 1
阳台外贴满“吵”！深圳一小区居民抓狂：凌晨睡不了，孩子被迫回老家

南方都市报 2026-04-30 15:18:54
386 跟贴 386
360印度竞赛题：题目异常简单，这次瞪眼法竟然派上用场了

我服子佩 2026-04-28 11:28:19
1 跟贴 1
为救助被困的同伴，野马主动找到人类帮忙！智商太高了！动物救助

阿紵美食 2026-04-28 21:24:30
3 跟贴 3
352印度竞赛题：题目难度太大90%的同学交白卷，学霸瞄了一眼却直

我服子佩 2026-04-28 11:25:58
1 跟贴 1
物业费收不齐，亏损止不住：一年超200个物业撤场，困局何解？

新京报 2026-04-30 09:46:07
974 跟贴 974
都是车！第一批离深“大聪明”已堵路上

鲁中晨报 2026-04-30 21:39:23
159 跟贴 159
真正的拇指生煎，用手差点捏不住，大妈用上筷子帮忙！

笔笔皆笑 2026-05-01 10:03:21
4 跟贴 4
情绪智商被高估了？自察才是真相

晚风也遗憾 2026-05-01 00:02:15
0 跟贴 0
男子用水坑测试外甥女的智商，结果万万没想到，网友：她本来就想玩水，你还给她理由

氧气周末 2026-04-30 17:28:16
0 跟贴 0
福州大学一学生称自己5年前的研究生毕业动画作品被合肥工业大学三名学生盗用，且获国奖；合肥工业大学：已了解相关情况，正在核实

三湘都市报 2026-04-30 16:03:54
823 跟贴 823
孙杨博士入学资格受质疑上体研招办：正调查跟进

大风新闻 2026-05-01 07:42:24
4094 跟贴 4094
搞笑再卖力也难敌天赋，金晨创造者堪称天才

聚焦真实瞬间 2026-04-29 00:24:01
1 跟贴 1

伦敦世乒赛冷门不断！多支球队提前出局，5月1日赛程出炉神秘之师迎生死战

伦敦世乒赛冷门不断！多支球队提前出局，5月1日赛程出炉神秘之师迎生死战

好乒乓

2026-05-01 11:21:16

把杰伦布朗防到怀疑人生！谁敢横刀立马，唯我乔大将军

把杰伦布朗防到怀疑人生！谁敢横刀立马，唯我乔大将军

听我说球

2026-05-01 11:01:48

WNBA：李月汝回归首秀12分钟高效8+8+2 飞翼大胜狂热开门红

WNBA：李月汝回归首秀12分钟高效8+8+2 飞翼大胜狂热开门红

醉卧浮生

2026-05-01 09:19:32

刘晓庆被指耍大牌，现身河南万岁山，和王婆同台全场冷脸拒讲话

刘晓庆被指耍大牌，现身河南万岁山，和王婆同台全场冷脸拒讲话

喜欢历史的阿繁

2026-05-01 09:10:20

伊朗最高领袖，“最详细伤情”披露

伊朗最高领袖，“最详细伤情”披露

中国新闻周刊

2026-04-30 16:23:05

伊朗突发暗杀事件

第一财经资讯

2026-04-29 19:09:32

男子称花584元买凉拌土鸡，老板狂加43勺白糖，当事人：80元一斤，像买调料送鸡一样

男子称花584元买凉拌土鸡，老板狂加43勺白糖，当事人：80元一斤，像买调料送鸡一样

观威海

2026-04-30 15:44:07

CBA最新消息！杨鸣或执教北控男篮，广东宏远续约萨姆纳

CBA最新消息！杨鸣或执教北控男篮，广东宏远续约萨姆纳

体坛瞎白话

2026-05-01 07:39:27

百亿“铜包金”融资欺诈一审宣判，人保财险严重过错仍须赔偿

百亿“铜包金”融资欺诈一审宣判，人保财险严重过错仍须赔偿

新民周刊

2026-04-30 20:56:59

小宝与王某雷，谁探访花的数量更多？

小宝与王某雷，谁探访花的数量更多？

挪威森林

2026-01-31 12:15:26

别再心疼黄圣依了！杨子和新欢产子，配合演戏的她根本不是傻白甜

别再心疼黄圣依了！杨子和新欢产子，配合演戏的她根本不是傻白甜

阿纂看事

2026-04-30 11:07:23

济南夏雨荷事件，原来文旅两任领导都是满族，公司名起得也很奇怪

济南夏雨荷事件，原来文旅两任领导都是满族，公司名起得也很奇怪

魔都姐姐杂谈

2026-04-30 13:02:58

高三男孩为救老人耽误高考语文,3个月后老人儿子赠清华录取通知书

高三男孩为救老人耽误高考语文,3个月后老人儿子赠清华录取通知书

星宇共鸣

2025-08-19 17:14:32

尼克斯创历史最大分差纪录晋级东部半决赛，库明加-44最低正负值

尼克斯创历史最大分差纪录晋级东部半决赛，库明加-44最低正负值

大漠风光

2026-05-01 10:34:02

51分惨败尼克斯，老鹰再输8分即可拯救保罗，库明加交出耻辱数据

51分惨败尼克斯，老鹰再输8分即可拯救保罗，库明加交出耻辱数据

姜大叔侃球

2026-05-01 10:20:20

湖人队詹姆斯：如果在3-0领先的情况下崩盘，媒体将“蜂拥而至”

湖人队詹姆斯：如果在3-0领先的情况下崩盘，媒体将“蜂拥而至”

好火子

2026-04-30 23:58:32

51分溃败出局！大黑马打回原形：全场鸦雀无声，2人打架被驱逐

51分溃败出局！大黑马打回原形：全场鸦雀无声，2人打架被驱逐

体坛小李

2026-05-01 10:22:34

9换4亏麻了！奇才送出5个选秀签，结果一场没打，今夏就要离队？

9换4亏麻了！奇才送出5个选秀签，结果一场没打，今夏就要离队？

你的篮球频道

2026-05-01 07:12:01

张雪峰的财产争夺战开始了！

八卦疯叔

2026-04-29 11:08:54

北电96班30年聚首！陈坤黄晓明同框，赵薇祖峰现身，谁是人间清醒

北电96班30年聚首！陈坤黄晓明同框，赵薇祖峰现身，谁是人间清醒

楼兰娱姐

2026-04-30 13:51:38

灰度测试中

生活正在重构，目前还在灰度测试阶段，暂不全量发布。

2002文章数 21关注度

往期回顾全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

银行员工转走储户1800万元喝药轻生官方最新回应

头条要闻

银行员工转走储户1800万元喝药轻生官方最新回应

体育要闻

季后赛场均5.4分，他凭啥在骑士打首发？

娱乐要闻

邓超在景德镇被偶遇，穿黑外套逛茶园

财经要闻

GPU神话松动，AI真正的战场变了

汽车要闻

专访捷途汪如生：捷途双线作战全球化全面落地

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

亲子

家居

数码

艺术

公开课

亲子要闻

科普｜孩子为何白天不咳晚上咳

家居要闻

灵动实用生活艺术场

数码要闻

英特尔酷睿5 330处理器首次现身PassMark平台

艺术要闻

刘明华 2026油画新作（2024-2026）

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版