AGI到了吗？一年半后回头看：没到，但聊天机器人已是过去式|推理|基准|agi|上下文|大模型

AGI到了吗？一年半后回头看：没到，但聊天机器人已是过去式

2026-06-26 10:52:12　来源: 固件更新中

北京举报

分享至

好久没聊这个话题了——AGI，我们到了吗？一年半前我写过一篇文章问同样的问题，当时OpenAI的o3在ARC-AGI-1上狠狠刷了一波分，低算力版75.7%，高算力直接飙到87.5%。不少人觉得那是“通用人工智能”的曙光。我当时说，这顶多是个中途休息站，不是终点。现在回头看，这个判断依然站得住脚。

故事并没有走向“AGI降临”的剧本，比那有意思多了。这期间，前沿模型在推理、编码、工具调用、多模态理解、长上下文、代理式工作流这些维度上猛涨了一波能力。跟当时讨论的那些系统比，现在的模型更有用、更能打，也更能赚钱。但它们依然缺少人类那种稳当的通用性——换个新问题，还需要拼大量计算、专有训练数据，甚至还会翻车。

所以我们现在卡在哪儿？一句话：没有AGI，但也不是简单聊天机器人的世界了。我们正处在前沿推理与代理系统的时代。那个o3在ARC上的表现确实提供了重要信号：测试时计算、更好的推理框架、更强的模型脚手架，能大幅度攻克之前卡住的难题。但ARC Prize自己也赶紧补了一句：别把这当成“AGI已实现”的证书。o3仍然搞不定很多对人类来说轻而易举的任务，成绩高度依赖算力，而且它用了公开训练集的一部分进行训练。这条区分很要命——能在基准上拿高分，不等于具备基准想测量的那种灵活智能。

随后发生的事验证了这个区别。ARC-AGI-1慢慢没区分度了，于是ARC-AGI-2出场。这套新基准保留了原来的设计精神，但在组合推理、上下文规则应用和新颖度上全面加了难度。结果呢？前沿模型集体哑火。o3的得分掉到3%左右，其他主流系统也半斤八两，基准的设计者直接把5%以下的算作“无意义”。ARC-AGI-3接着继续开卷，不再满足于静态谜题，而是引入了交互式的挑战元素。

你看，这条路还长着呢。别被那些“接近AGI”的标题带跑了，也别轻视正在发生的进步。聊天机器人那页已经翻篇，现在这些家伙在切切实实地帮人写代码、读长文档、多步操作工具，但它们离人类一样的普适智能，还隔着好几道沟。下一次再问“AGI到了吗”，答案可能仍然是“没有”——但我们会发现，问这个问题本身已经不那么重要了。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.