一位研究者抛出一个大胆判断:只要肯认真做,聪明人能在ARC-AGI-3上拿90%以上。这等于说,当前最硬核的通用智能测试,可能没想象中难。
90%门槛意味着什么
![]()
ARC-AGI-3是去年发布的视觉推理基准,专门考"少样本学习"——给你几个例子,自己悟规律再解题。之前普遍认为,这测试人类也得费番脑筋,AI更是屡屡碰壁。
但François Chollet(凯洛)的这句话把难度锚点直接拉下来了。如果人类天花板在90%+,那现在AI的30-40%得分,差距是能力问题还是题目设计问题?
测试设计的隐藏漏洞
凯洛本人是ARC-AGI的创造者,他的判断有分量。但这也暴露一个尴尬:当初设想的"人类水平"可能估算偏高。
实际测试里,部分题目依赖特定视觉技巧或模式识别,受过训练的人类确实能批量破解。这不像数学竞赛的绝对难度,更像智商测试里的"可训练项"——练过和没练过,分差巨大。
AI追赶的两种路径
对AI来说,消息喜忧参半。喜的是目标线更清晰了:90%是硬指标,不是模糊的人类水平。忧的是,如果人类靠"认真努力"就能达标,说明测试考察的可能是"可学习的启发式",而非真正的抽象推理。
现在两条路线在赛跑:一条是堆数据、堆算力,把模式识别练到极致;另一条是搞懂人类怎么"悟"规律,把那套迁移能力复现出来。前者见效快,后者才是AGI。
基准测试的军备竞赛
ARC-AGI-3的遭遇不是孤例。从图灵测试到围棋,每个"终极标准"都被攻克得比预期快。现在轮到视觉推理了。
凯洛这句话的潜台词或许是:该准备ARC-AGI-4了。但更难的是,下一次怎么设计才能区分"真聪明"和"练得多"?
测试设计者永远在追一个移动靶。人类90%的门槛一旦确立,AI的突破就只是时间问题——真正的悬念是,突破的方式能不能让我们学到点新东西。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.