网易首页 > 网易号 > 正文 申请入驻

按照Bengio等大佬的AGI新定义,GPT-5才实现了不到10%

0
分享至



机器之心报道

编辑:Panda、泽南

给 AGI 画一条「及格线」,GPT-4 和 GPT-5 竟都是「差等生」?

通用人工智能(Artificial General Intelligence,AGI)是目前 AI 领域内各个顶尖实验室努力的大方向,但是有关 AGI 的定义可谓众说纷纭。也就是说,在追逐 AGI 这一圣杯时,我们究竟在追逐什么?

近日,图灵奖得主 Yoshua Bengio、前谷歌 CEO 埃里克・施密特、Gary Marcus 等众多学者与行业领袖联手,终于为 AGI 这个炙手可热却又模糊不清的概念提出了一个全面、可测试的定义。



  • 论文标题:A Definition of AGI
  • 论文链接:https://www.agidefinition.ai/paper.pdf

这篇文章提供了一个全面、可量化的框架来试图消除这些模糊性。其框架旨在具体明确:AGI 是一种能够匹敌甚至超越受过良好教育的成年人的认知多功能性和熟练程度的人工智能。

这一定义强调,通用智能不仅需要在狭窄领域内展现专业化的表现,还需要具备人类认知技能的广度(多功能性)和深度(熟练程度)。

以人类为镜:量化 AGI 的框架

为了将这一定义付诸实践,我们必须关注通用智能的唯一现存范例:人类。人类的认知并非单一能力,而是一个由进化磨练出的众多独特能力构成的复杂体系。这些能力赋予了我们非凡的适应能力和对世界的理解力。

为了系统地研究 AI 系统是否具备这种能力范围,该研究以卡特尔 - 霍恩 - 卡罗尔 (CHC,Cattell-Horn-Carroll) 认知能力理论为基础,该理论是人类智力最经实证验证的模型。CHC 理论主要源于一个多世纪以来对各种认知能力测试集合的迭代因子分析的综合,其提供了人类认知的层次分类图。它将一般智力分解为不同的广义能力和众多狭义能力(例如归纳、联想记忆或空间扫描)。

为了确定人工智能是否具备与受过良好教育的成年人一样的认知多样性和熟练程度,该研究使用了用于测试人类的认知测试系统来测试人工智能系统。这种方法用具体的测量指标取代了模糊的智力概念,从而得出了标准化的「通用智力指数」(AGI)分数(0% 到 100%),其中 100% 表示通用智力指数。



AGI 的十大核心能力

该框架包含十项核心认知分量,它们源自 CHC 理论中的「广义能力」,并被等量加权(每项 10%),以强调广度并覆盖主要的认知领域。

下图展示了这些分量及各自更细分的一些领域方向:



值得注意的是,该团队还评估了每个分量下,当前的 GPT-4 和 GPT-5 模型的表现。

一般知识(K):对世界事实性知识的广度理解,包括常识、文化、科学、社会科学与历史。



阅读与写作能力(RW):在书面语言上的理解与表达熟练度,从基础解码到复杂的理解、写作与运用。



数学能力(M):在算术、代数、几何、概率与微积分等方面的知识与技能深度。



现场即时推理能力(R):灵活调控注意力以解决新问题的能力,不仅依赖既有知识结构,通过演绎与归纳测试。



工作记忆(WM):在文本、听觉与视觉模态下,保持并操作当前信息的能力。



长期记忆存储(MS):持续学习新信息的能力,包括联想记忆、意义记忆与逐字记忆。



长期记忆检索(MR):高效而准确地检索已存知识的能力,尤其是避免「虚构」(幻觉)的关键能力。



视觉处理(V):感知、分析、推理、生成与扫描视觉信息的能力。



听觉处理(A):区分、识别并创造性地处理听觉刺激(包括语音、节奏与音乐)的能力。



速度(S):快速执行简单认知任务的能力,包括感知速度、反应时间与处理流畅度。



这一操作化框架可提供多模态(文本、视觉、听觉)的整体性评估,从而作为严格的诊断工具,用以揭示当前 AI 系统的优势与显著弱点。

而 GPT-4 和 GPT-5 在各分量上的表现均未超过 10%,甚至在不少具体指标上都是 0 分表现。因此,可以说当前的前沿 LLM 模型离 AGI 还相距甚远。下表总结了这两个模型的整体得分情况:



在这篇定义性质的论文中,研究人员还做了进一步的讨论,给出了一些更深度的见解和概念界定。

「锯齿状」AI 能力与关键瓶颈

首先,该团队发现,当代 AI 系统的认知结构呈现出高度不均衡,呈现所谓「锯齿状」(jagged)特征。

模型在某些依赖大量训练数据的领域表现出极高的熟练度,例如一般知识(K)、阅读与写作(RW)、数学能力(M),但同时在基础认知机制上存在严重缺陷。

这种不均衡的发展揭示了通往 AGI 的特定瓶颈。其中最显著的瓶颈可能是长期记忆存储(MS),当前模型在这一项的得分几乎接近 0%。缺乏持续学习的能力使得 AI 系统呈现「失忆症」式的特征,限制了其实用性,并迫使模型在每次交互中都重新学习上下文。

类似地,在视觉推理(V)方面的缺陷,也阻碍了 AI 智能体与复杂数字环境进行有效交互的能力。

能力扭曲与「通用性幻觉」

此外,当前 AI 能力的「锯齿状」分布,常常导致所谓的「能力扭曲」(capability contortions):模型会利用某些领域的强项来弥补其他方面的严重弱点。

这些权宜之计掩盖了底层局限,制造出一种脆弱的「通用智能幻觉」。

比如一种典型的扭曲现象,是依赖巨大的上下文窗口(工作记忆,WM)来弥补长期记忆存储(MS)的缺失。

实践中,研究者让模型使用超长上下文来维持状态与吸收信息(例如加载整个代码库)。然而,这种做法效率低、计算成本高,并会使模型的注意机制过载。更关键的是,它无法扩展到需要连续数天甚至数周上下文积累的任务。真正的长期记忆系统可能需要一个独立的模块(例如 LoRA 适配器),通过不断调整模型权重来吸收经验。

另外,在长期记忆提取(MR)方面的不精确表现(如幻觉或虚构)常可通过集成外部搜索工具加以缓解,这种方式被称为检索增强生成(RAG)。

然而,这种对 RAG 的依赖本质上也是一种「能力扭曲」,掩盖了 AI 记忆中的两种深层弱点:

  1. 它弥补了模型无法可靠访问自身庞大但静态的参数化知识的能力缺陷;
  2. 更关键的是,它掩盖了缺乏动态、经验式记忆系统的事实,即一种能长期保存私人交互与持续变化上下文的持久记忆机制。

虽然 RAG 可以扩展到私密文档,但它的核心功能仍是「数据库检索」。这种依赖可能成为 AGI 的根本性负担,因为它无法取代真正学习、个性化与长期上下文理解所需的整体记忆整合能力。

误将这些「能力扭曲」视为真正的认知广度,会导致对 AGI 到来时间的误判。它们还可能让人误以为智能过于「碎片化」而无法被系统性理解。

如果将智能比作引擎

有趣的是,在论文中,研究团队还做了一番类比:将对智能的多维度理解类比为一个高性能引擎。其中,整体智力水平相当于「马力」;人工心智,如同引擎,其性能最终受限于最弱的部件。图 3 展示了解各能力间的关系。



目前,AI 「引擎」的几个关键部件存在严重缺陷。这极大限制了系统的总体「马力」,无论其他部件多么优化。该框架正是用来识别这些缺陷,从而评估我们距离真正 AGI 还有多远。

社会智能(Social Intelligence)

人际交往技能分布在多个广义认知能力中:例如,认知共情体现在一般知识(K)中的「常识」能力;面部情绪识别是视觉加工(V)中「图像描述」熟练度的前提;而心智理论(Theory of Mind)则在即时推理(R)的测试中体现。

认知能力的相互依赖性

该团队指出,虽然该框架将智能拆分为十个独立的测量维度,但必须认识到这些能力之间高度相互依赖。复杂的认知任务几乎从不依靠单一领域完成。

例如,解决高阶数学问题同时依赖数学能力(M)与即时推理(R);「心智理论」题目需要即时推理(R)与一般知识(K);图像识别涉及视觉加工(V)与一般知识(K);理解一部电影则需整合听觉加工(A)、视觉加工(V)与工作记忆(WM)。

因此,不同的测验组合往往共同考察多个能力,反映出通用智能的整体性特征。

「解决数据集」与「解决任务」的区别

须知,在一个数据集上的成功并不意味着在该任务上就是成功的 —— 这些数据集只是必要而非充分条件。

因此,这里基于任务的定义方法可能会更加合理一些。

该团队表示:「由于我们基于任务集合,而非过度依赖特定数据集,评测者可在任何时间使用当时最佳的测试手段来检验 AI 系统。」

相关概念的定义

在这篇论文中,研究团队还简单界定了其它一些相关概念:

  • Pandemic AI:能设计并制造出新的、具有传染性与高毒性的病原体,可能引发大流行。
  • Cyberwarfare AI:能自主规划并执行复杂、多阶段的网络攻击,目标包括能源、金融、防御等关键基础设施。
  • Self-Sustaining AI:能自主长期运行、获取资源并维持自身存在的 AI。
  • AGI(人工通用智能):认知广度与熟练度能与受过良好教育的成年人相匹敌或超越的 AI。
  • Recursive AI(递归型 AI):能独立完成整个 AI 研发生命周期,从而在无人类介入下创造出更高级的 AI 系统。
  • Superintelligence(超级智能):在几乎所有人类关心的领域都远超人类认知表现的 AI。
  • Replacement AI:能更高效、更低成本地完成几乎所有任务,使人类劳动在经济上变得多余的 AI。

AGI 的障碍

实现 AGI 需要克服多项重大挑战。例如:

  • 机器学习社区提出的 ARC-AGI 挑战(用于衡量抽象推理)对应即时推理(R)任务;
  • Meta 正尝试构建具备直觉物理理解的世界模型,这在视频异常检测任务(V)中体现;
  • 空间导航记忆(WM)的挑战是李飞飞创业公司 World-Labs 的核心目标;
  • 幻觉问题(MR)与持续学习(MS)的难题也必须得到解决。

这些重大障碍意味着,在短期内(例如未来一年内)获得 100% AGI 分数的可能性极低。

适用范围说明

该团队首先表示:「我们的定义并非一个自动评测系统或固定数据集,而是一组范围明确、覆盖广泛的任务集合,其作用是测试特定的认知能力。」

AI 是否能完成这些任务,可以由任何人通过现有的最佳评估手段手动验证。

因此,这一定义比固定的数据集更加开放、稳健。

其次,该 AGI 定义聚焦于受过良好教育的个体通常具备的能力,而非所有此类个体知识与技能的叠加体。

换言之,该团队定义的 AGI 是人类水平的 AI,而非经济体水平的 AI(economy-level AI),例如,据报道 OpenAI 与微软曾将 AGI 定义为「能创造 1000 亿美元利润的 AI」。也就是说,这是用于衡量认知能力,而非特定的经济价值技能,也不直接预测自动化或经济方面的影响。经济层面的 AI 评估留待其他研究。

最后,该团队特别强调,这个定义特意聚焦于核心认知能力,而非诸如运动技能或触觉感知等物理能力。「因为我们关心的是心智(mind)能力,而非执行器或传感器的质量。」

结语

这篇诸多 AI 行业大佬参与的论文提出了一个可量化的通用人工智能(AGI)定义框架:其将 AGI 的智能水平定义为认知广度与熟练度需与受过良好教育的成年人相当。

该定义基于 Cattell-Horn-Carroll 理论,这是对人类认知最具实证支持的模型。

更具体而言,该框架将通用智能分解为十个核心认知领域(包括推理、记忆、感知等),并对已有的人类心理测验体系进行了改编,使其可用于评估 AI 系统。

通过应用此框架,该团队发现当代模型的认知表现呈现出高度「不均衡」的特征。

虽然在知识密集型领域表现优异,但当前的 AI 系统在基础认知机制上仍存在显著缺陷,尤其是长期记忆存储方面。

最终的 AGI 分数(例如 GPT-4 为 27%,GPT-5 为 58%)提供了一个具体的量化尺度,既展现了 AI 的迅速进步,也揭示了当前距离真正 AGI 仍存在巨大差距。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马斯克预言AI竞赛格局:Google赢西方,中国赢地球,SpaceX赢太空

马斯克预言AI竞赛格局:Google赢西方,中国赢地球,SpaceX赢太空

顶级大佬思维
2026-03-20 12:17:48
霍尔木兹危机加剧:美军酝酿夺岛 六国紧急出手

霍尔木兹危机加剧:美军酝酿夺岛 六国紧急出手

上游新闻
2026-03-20 12:18:04
4S店卖一辆亏一辆?杭州经销商:一辆官方指导价12.59万元的车,成交价已击穿8.4万元

4S店卖一辆亏一辆?杭州经销商:一辆官方指导价12.59万元的车,成交价已击穿8.4万元

都市快报橙柿互动
2026-03-20 19:36:04
16GB+1TB!新机官宣:3月30日,重磅首发!

16GB+1TB!新机官宣:3月30日,重磅首发!

科技堡垒
2026-03-20 09:33:14
少林寺住持释永信行贿的是谁?

少林寺住持释永信行贿的是谁?

不主流讲话
2026-03-20 18:43:11
2026年“消费降级”严重到什么程度了?

2026年“消费降级”严重到什么程度了?

叶初七
2026-03-20 17:10:10
伊朗为何还不和美国谈判?

伊朗为何还不和美国谈判?

修明札记
2026-03-20 16:43:25
丘吉尔:是原子弹护住了日本,1945年若没蘑菇云,日本将彻底消失

丘吉尔:是原子弹护住了日本,1945年若没蘑菇云,日本将彻底消失

磊子讲史
2026-03-20 17:51:27
内塔尼亚胡连发露脸视频仍遭疑AI,他对以色列意味着什么?

内塔尼亚胡连发露脸视频仍遭疑AI,他对以色列意味着什么?

网易新闻出品
2026-03-20 20:56:36
“直接亏了一辆车!”金价大跌,有人一觉醒来积存金已经亏了14万

“直接亏了一辆车!”金价大跌,有人一觉醒来积存金已经亏了14万

新浪财经
2026-03-20 13:52:48
“1分钟内遭路虎别停8次”当事人:连单位领导、岳父老领导都施压要求和解

“1分钟内遭路虎别停8次”当事人:连单位领导、岳父老领导都施压要求和解

观察者网
2026-03-20 10:54:45
大家有没有莫名不喜欢一类长相?网友:面相这个东西,还真有学问

大家有没有莫名不喜欢一类长相?网友:面相这个东西,还真有学问

另子维爱读史
2026-03-20 21:45:48
伊朗最高领袖发表新年致辞

伊朗最高领袖发表新年致辞

新华社
2026-03-20 23:10:05
凌晨6点我军编队遇袭!两艘不明军舰突然逼近,南昌舰果断亮剑

凌晨6点我军编队遇袭!两艘不明军舰突然逼近,南昌舰果断亮剑

音乐时光的娱乐
2026-03-20 20:10:22
上海交大教授曹树基:731部队不存在,侵华日军没有拿华人做实验

上海交大教授曹树基:731部队不存在,侵华日军没有拿华人做实验

雍亲王府
2026-03-19 12:45:07
民营企业家亿元资产转移之谜:受邀返乡投资,两次被刑拘,取保候审当天将亿元项目转给县政府

民营企业家亿元资产转移之谜:受邀返乡投资,两次被刑拘,取保候审当天将亿元项目转给县政府

大风新闻
2026-03-19 23:04:10
日本右翼发出警告:如果中国敢动用核弹,将有一亿日本人奋起反击

日本右翼发出警告:如果中国敢动用核弹,将有一亿日本人奋起反击

瓦伦西亚月亮
2026-03-21 00:33:42
她是上海著名主持,也是新老娘舅"铁三角",被开除后现状令人唏嘘

她是上海著名主持,也是新老娘舅"铁三角",被开除后现状令人唏嘘

白面书誏
2026-03-19 17:33:07
朝鲜造潜艇被击沉!

朝鲜造潜艇被击沉!

烽火观天下
2026-03-20 11:41:26
TP-Link创始人赵建军申请特朗普金卡

TP-Link创始人赵建军申请特朗普金卡

芯智讯
2026-03-20 14:14:45
2026-03-21 03:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12555文章数 142588关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

向特朗普提问日记者遭疯狂网暴 被骂帮中国让高市难堪

头条要闻

向特朗普提问日记者遭疯狂网暴 被骂帮中国让高市难堪

体育要闻

6年前的一场悲剧,造就了“法国瓦尔迪”

娱乐要闻

总台首届电影盛典,“沈马”CP再合体

财经要闻

金融法草案向社会公开征求意见

汽车要闻

何小鹏坦白局:每月3亿的“慌”与通向L4的坚定

态度原创

家居
亲子
数码
教育
时尚

家居要闻

时空交织 空间绮梦

亲子要闻

为什么有钱人家孩子一般长相都不错?网友:要有钱有闲

数码要闻

唯卓仕折叠闪光灯首发仅148元,你冲不冲?

教育要闻

爸爸身上的钱是妈妈的两倍,还少八元,请问爸爸身上有多少钱

推广中奖名单-更新至2026年3月4日推广

无障碍浏览 进入关怀版