网易首页 > 网易号 > 正文 申请入驻

AGI今天起有了量化标准!Bengio牵头定义,当前进度条58%

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

长期以来,AGI都笼罩在“类人智能”的模糊表述中。

都说它像人一样聪明,那到底有多聪明呢?

图灵奖得主Yoshua Bengio联合Center for AI Safety、加州大学伯克利分校等机构的新作《A Definition of AGI》给AGI下了个可衡量的定义。

  • “AGI is an AI that can match or exceed the cognitive versatility and proficiency of a well-educated adult.”
  • AGI是能匹配或超越受过良好教育成年人的认知广度(versatility )和熟练度( proficiency)的人工智能。



该定义包含两个关键维度:

  • 确定了参照系:直接锚定“受过良好教育的成年人”,避免了“AGI是超人类智能”这类模糊表述,让评估有了具体标准。
  • 强调全面性:不看AI在单一任务上的表现,而是要求它在多个核心认知领域(如推理、记忆、感知等)都达标,不能有严重的偏科。

研究团队设计了一套量化方法来评估当前AI离AGI的距离。

分数越高,离AGI越近

为了把这个标准落地,研究者参考了心理学里验证过的卡特尔-霍恩-卡罗尔(CHC)理论这个研究人类认知能力的经典模型。



该模型将人类通用智力拆解为10个相互独立但又关联的核心认知领域,涵盖了从基础感知到高阶推理的完整认知链条,基于这10个领域,研究团队对人类传统认知测试题进行了AI适配改造

剔除依赖人类生理感知(如触觉测试)或特定场景(如驾驶场景测试)的题目,保留核心认知逻辑,形成了一套包含500余道题目的AGI评估题库。具体包括:

  1. 知识(K):主要测试常识、自然科学、社会科学、历史、文化等方面的知识储备。
  2. 读写(RW):考察阅读和写作能力,包括对文本的理解、语言表达、文字创作等。
  3. 数学(M):涉及数学计算、定量推理、数字概念的掌握等数学能力。
  4. 临场推理(R):即处理新颖问题、进行逻辑分析与抽象思维的能力,也就是流体推理能力。
  5. 工作记忆(WM):指短期信息的保持与实时加工能力。
  6. 长时记忆存储(MS):衡量AI系统将信息进行长期稳定存储的能力。
  7. 长时记忆提取(MR):考查AI能否从长期记忆中高效地提取所需信息。
  8. 视觉(V):包括图像识别、空间定位、视觉信息解读等视觉加工能力。
  9. 听觉(A):涉及声音识别、语音理解、听觉信息处理等听觉加工能力。
  10. 速度(S):主要评估AI快速处理简单认知任务的效率。

评估采用百分制,每个认知领域满分10分,系统总分达到100分即判定为达到AGI水平,分数越高代表离AGI的距离越近。

AI虽然进步快,但离AGI还很远

研究团队运用上述评估体系,对当前主流LLM进行了全面测试,结果既展现了AI的快速进步,也暴露了其与AGI的巨大差距。

从总分来看,2023年发布的GPT-4总分仅为27分,而2025年版GPT-5总分提升至58分.

两年间,分数增幅超过115%,反映出大模型在认知能力上的快速迭代。



但从AGI的及格线100分来看,即使是GPT-5,也尚未突破半程线,甚至在长时记忆存储领域中拿了0分。

具体来说,当前AI与论文中定义的AGI更关键的差异体现在认知领域的不均衡性上。



优势领域集中

据实验结果来看,当前AI的优势高度集中于知识储备与符号处理类领域

在知识(K)、读写(RW)、数学(M)三个领域表现突出,GPT-5在这三项的得分都超过了8。


△知识(K)领域评估


△读写(RW)领域评估


△数学(M)领域评估

这些优势的共性在于均围绕文本符号的理解与应用展开,是大模型在万亿级数据训练中形成的模式匹配能力的集中体现。

AI在依赖海量数据训练的任务中,在这些方面展现出了接近人类成年人的水平。

核心短板显著

与集中的优势形成鲜明对比,实验暴露出AI在感知、记忆、推理等基础认知领域存在致命短板,并且这些短板无法通过单纯的扩大规模弥补。

在 “视觉(V)” 、 “听觉(A)”领域,大模型的表现堪称惨淡。


△视觉(V)领域评估


△听觉(A)领域评估

GPT-4完全不具备图像识别与声音处理能力,即使GPT-5也仅能完成简单的猫犬分类、基础语音转文字,远无法实现人类级别的复杂场景解读与情感识别。

“长时记忆存储(MS)”与“提取(MR)”是另一致命缺陷,说明AI有健忘症。


△长时记忆存储(MS)领域评估


△长时记忆提取(MR)领域评估

无法实现信息的长期稳定存储,也就做不到对学习的内容灵活运用。

“伪全能” 的本质

部分大模型看似具备多任务处理能力,实则是通过技术手段掩盖短板

例如,部分模型通过扩大上下文窗口(如支持128k tokens的文本输入),假装具备长期记忆能力,但本质上仍是短期工作记忆的扩展,无法实现信息的长期存储与跨场景调用。

还有模型依赖联网搜索功能补充知识,看似无所不知,实则暴露了自身知识更新滞后、易产生幻觉的缺陷。

而这项研究的评估体系明确排除了外部工具的辅助,仅衡量AI系统的原生认知能力,使得这些伪全能表现无所遁形。

当然了,论文也明确指出,这套评估只看AI自身的认知硬实力,不管它能调用多少外部工具,也不看它能赚多少钱、替代多少工作,纯粹聚焦于智力本身

就算某个AI总分再高,只要像长期记忆这样的核心领域是零分,本质上还是有严重缺陷的“残次版”智能,离真正的AGI也还差得远。

这下,AGI有了可以衡量的定义,从概念到现实,还有多久呢?

论文地址:https://www.agidefinition.ai/paper.pdf
参考链接:https://x.com/DanHendrycks/status/1978828377269117007

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
财政部答中经报记者问:居民参保长护险获财政补助

财政部答中经报记者问:居民参保长护险获财政补助

中国经营报
2026-03-26 19:43:15
北院裁定17年六个月,柯文哲去向已明,黄国昌说到做到,绿营急了

北院裁定17年六个月,柯文哲去向已明,黄国昌说到做到,绿营急了

爱看剧的阿峰
2026-03-26 16:32:02
曝张雪峰遗嘱内容,和原配离婚原因被扒,三段感情时间线全曝光!

曝张雪峰遗嘱内容,和原配离婚原因被扒,三段感情时间线全曝光!

古希腊掌管松饼的神
2026-03-26 09:30:58
国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

零度眼看球
2026-03-26 07:23:48
姐弟恋、吃软饭,把关之琳收入囊中的香港首席男模,如今怎样了?

姐弟恋、吃软饭,把关之琳收入囊中的香港首席男模,如今怎样了?

小樾说历史
2026-03-26 11:30:53
S家发威了!大S律师已报警,官方出手,张兰律师怒斥,牵连马筱梅

S家发威了!大S律师已报警,官方出手,张兰律师怒斥,牵连马筱梅

小舟谈历史
2026-03-26 15:44:38
从被嘘到被捧!维尼修斯用11场10球打脸质疑,伯纳乌新王归来

从被嘘到被捧!维尼修斯用11场10球打脸质疑,伯纳乌新王归来

星耀国际足坛
2026-03-26 23:34:11
未提车就变“老款”,问界M7“背刺”车主!律师:可能构成欺诈

未提车就变“老款”,问界M7“背刺”车主!律师:可能构成欺诈

北京商报
2026-03-25 19:00:22
《隐身的名字》收官!文毓秀人生尽毁,恶人葛文君柏庶均遭报应

《隐身的名字》收官!文毓秀人生尽毁,恶人葛文君柏庶均遭报应

一盅情怀
2026-03-23 14:30:22
马克西评NBA版漫威超英:詹姆斯是美国队长!运动员领袖!

马克西评NBA版漫威超英:詹姆斯是美国队长!运动员领袖!

历史第一人梅西
2026-03-25 21:19:08
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

爱看剧的阿峰
2026-03-26 17:47:28
来消息了!日本船主协会会长突然爆出猛料!

来消息了!日本船主协会会长突然爆出猛料!

达文西看世界
2026-03-26 10:48:30
为什么夜店的女孩都那么漂亮?看完你就明白了

为什么夜店的女孩都那么漂亮?看完你就明白了

复转这些年
2026-03-17 10:30:45
“以色列官方收到1.28万份赔偿申请”

“以色列官方收到1.28万份赔偿申请”

环球时报国际
2026-03-26 23:29:16
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
浅色系穿搭!这个组合让你在健身房瞬间吸引眼球!

浅色系穿搭!这个组合让你在健身房瞬间吸引眼球!

独角showing
2025-12-31 21:08:57
杜月笙在河边钓鱼,遇到地痞要保护费,杜月笙:找你们老板过来

杜月笙在河边钓鱼,遇到地痞要保护费,杜月笙:找你们老板过来

千秋文化
2026-03-25 21:29:50
苹果憋了3年没告诉你:你的充电器一直在"摸鱼"

苹果憋了3年没告诉你:你的充电器一直在"摸鱼"

全栈遛狗员
2026-03-25 23:00:33
人民日报、环球时报接连发出警示:日本的军国主义獠牙已露出来了

人民日报、环球时报接连发出警示:日本的军国主义獠牙已露出来了

贱议你读史
2026-03-24 00:30:08
5月起生效!俄罗斯关闸,8000吨黄金不卖了,全球金市变天

5月起生效!俄罗斯关闸,8000吨黄金不卖了,全球金市变天

瑛派儿老黄
2026-03-26 10:43:45
2026-03-27 00:28:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
游戏
艺术
家居
数码

400万人爱过的女孩,被黄谣网暴180天后

"死亡搁浅"外骨骼来了!小岛工作室转发联名 原度拉满

艺术要闻

哪一座桥不是风景?

家居要闻

傍海而居 静观蝴蝶海

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

无障碍浏览 进入关怀版