好久没聊这个话题了——AGI,我们到了吗?一年半前我写过一篇文章问同样的问题,当时OpenAI的o3在ARC-AGI-1上狠狠刷了一波分,低算力版75.7%,高算力直接飙到87.5%。不少人觉得那是“通用人工智能”的曙光。我当时说,这顶多是个中途休息站,不是终点。现在回头看,这个判断依然站得住脚。
故事并没有走向“AGI降临”的剧本,比那有意思多了。这期间,前沿模型在推理、编码、工具调用、多模态理解、长上下文、代理式工作流这些维度上猛涨了一波能力。跟当时讨论的那些系统比,现在的模型更有用、更能打,也更能赚钱。但它们依然缺少人类那种稳当的通用性——换个新问题,还需要拼大量计算、专有训练数据,甚至还会翻车。
![]()
所以我们现在卡在哪儿?一句话:没有AGI,但也不是简单聊天机器人的世界了。我们正处在前沿推理与代理系统的时代。那个o3在ARC上的表现确实提供了重要信号:测试时计算、更好的推理框架、更强的模型脚手架,能大幅度攻克之前卡住的难题。但ARC Prize自己也赶紧补了一句:别把这当成“AGI已实现”的证书。o3仍然搞不定很多对人类来说轻而易举的任务,成绩高度依赖算力,而且它用了公开训练集的一部分进行训练。这条区分很要命——能在基准上拿高分,不等于具备基准想测量的那种灵活智能。
随后发生的事验证了这个区别。ARC-AGI-1慢慢没区分度了,于是ARC-AGI-2出场。这套新基准保留了原来的设计精神,但在组合推理、上下文规则应用和新颖度上全面加了难度。结果呢?前沿模型集体哑火。o3的得分掉到3%左右,其他主流系统也半斤八两,基准的设计者直接把5%以下的算作“无意义”。ARC-AGI-3接着继续开卷,不再满足于静态谜题,而是引入了交互式的挑战元素。
你看,这条路还长着呢。别被那些“接近AGI”的标题带跑了,也别轻视正在发生的进步。聊天机器人那页已经翻篇,现在这些家伙在切切实实地帮人写代码、读长文档、多步操作工具,但它们离人类一样的普适智能,还隔着好几道沟。下一次再问“AGI到了吗”,答案可能仍然是“没有”——但我们会发现,问这个问题本身已经不那么重要了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.