网易首页 > 网易号 > 正文 申请入驻

29所顶尖研究机构首次建立量化评估通用人工智能的完整框架

0
分享至

论文编号:arXiv:2510.18212】

2025年10月21日,斯坦福大学、MIT、加州大学伯克利分校等全球29所顶尖研究机构的学者,首次建立量化评估通用人工智能(AGI)的完整框架,为判断AI是否达到人类认知水平提供了客观标准,打破了此前AGI定义模糊的困境。



一、AGI 评估框架的构建:以人类智能为参照

1. AGI的核心定义

AGI即通用人工智能,指AI能像受过良好教育的成年人一样,应对各类认知任务,而非仅擅长单一领域(如下棋、写文章),类似“全科医生”,可应对多数场景的认知需求。此前,“聪明”的标准因人而异,有人认为会下围棋是聪明,有人觉得会写诗才算,这种模糊性让AGI研究难以衡量进展,而新框架彻底改变了这一现状。

2. 框架设计的理论基础

研究团队借鉴心理学权威的CHC理论(Cattell-Horn-Carroll 理论)—— 该理论经百年实验与数据分析验证,拆解人类智能为可测量部分,是当前主流智力测试的核心框架。基于此,团队将AGI拆解为10个认知领域,每个领域占10分,总分 100 分代表完全达到人类认知水平,这套评分系统被命名为 “AGI分数”。

二、AI“体检报告”:惊人的“锯齿状”能力分布

当用该框架测试GPT-4与GPT-5时,结果超出预期:GPT-4总分仅27分,GPT-5 为58分,且分数分布极不均衡,呈现 “锯齿状”—— 部分领域接近满分,部分领域却得零分,如同严重偏科的学生。

1. 突出的“强项”

GPT-5在知识储备(测常识、科学、社会、历史知识,如 “月球为何始终同一面朝向地球”)、读写能力(读懂复杂文本、写逻辑严密文章,如解析产品说明书、撰写 “远程工作利弊”文)、数学能力(覆盖算术到微积分,如计算公司三个月工资支出)上表现优异,均接近或达到10分(满分),堪称“学霸”级别。

2. 致命的“弱项”

长期记忆存储是最大短板,GPT-4与GPT-5均得0分:就像人聊完天后转身就忘,次日见面需重新介绍,无法积累经验;记忆检索虽在速度上得4分,但“幻觉”问题严重(如编造 “拿破仑南非战役战略”),避免幻觉得零分;GPT-4的视觉、听觉处理能力为零,GPT-5虽有突破(视觉4分、听觉6分),但仍远未完善;即时推理、工作记忆、多模态处理速度等领域,两者得分也普遍偏低。

3. 弱项的“补偿策略”:能力扭曲

当前AI靠“能力扭曲”弥补缺陷,比如用超大“工作记忆”(类似随身带笔记本)替代长期记忆,或依赖外部搜索工具解决“幻觉”问题。但这种策略低效且脆弱——笔记本丢了、搜索受限,系统就会崩溃,无法应对需要持续学习的场景。

三、十项认知领域测试:全方位扫描AI“大脑”

研究团队如同打造 “AI体检中心”,对10个认知领域逐一检测,全面暴露AI能力短板:

  1. 知识储备:GPT-4得8分,GPT-5得9分,“知识面广”;
  2. 读写能力:GPT-4得6分,GPT-5得10分,“理解与生成文字达人类水平”;
  3. 数学能力:GPT-4得4分,GPT-5得10分,“新一代AI实现质的飞跃”;
  4. 即时推理:GPT-4得0分,GPT-5得7分,“需临场分析,仍不完美”;
  5. 工作记忆:GPT-4得2分,GPT-5得4分,“临时存储信息能力弱”;
  6. 长期记忆存储:均得0分,“无法长久保存新信息”;
  7. 长期记忆检索:速度得4分,避免幻觉得0分,“常编造错误信息”;
  8. 视觉处理:GPT-4得0分,GPT-5得4分,“有基础能力但不完善”;
  9. 听觉处理:GPT-4得0分,GPT-5得6分,“优于视觉但仍需提升”;
  10. 速度:读写、简单计算得3分,多模态处理速度差,“GPT-5因‘思考’慢拖后腿”。



四、透过结果看本质:AI“智能”的特殊性

当前AI的“聪明”是“碎片化”的,而非“通用”的:擅长处理已有海量数据(因此知识、读写、数学强),但弱于学习新事物、灵活应用(长期记忆、推理等弱)。比如教 AI 新工作流程,人类示范几次就能记住并举一反三,而AI要么记不住,要么需反复输入流程,还无法判断应用场景。

研究团队用 “发动机” 类比揭示关键:AI像有超强涡轮增压器(知识储备)、高效变速箱(语言处理)的发动机,但冷却系统(长期记忆)、润滑系统(记忆检索)几乎失效。且智能各部分高度依赖 —— 数学再强,推理弱也解不了复杂应用题;理解电影需视觉、听觉、记忆、推理协同,缺一环就会卡顿。因此,GPT-5的58分虽看似 “及格”,却因关键部件缺失,远非真正的 “通用智能”。

五、研究的实际意义:为AGI发展指路

这项研究不仅是“AI能力测评”,更给普通人、研究者、开发者带来重要启示:

  1. 建立理性预期:AI离AGI仍有长路,虽部分领域惊艳,但基础能力缺陷大,无需恐慌也别盲目乐观;
  2. 指明研究方向:单纯扩大模型规模、增加数据量不够,需突破长期记忆等架构问题(如动态调整模型参数,让AI“成长”),如同建摩天大楼需先固地基;
  3. 指导 AI 应用:设计产品时要规避AI短板——不能指望AI助手次日主动推进项目,需每次补充背景信息,优化人机协作流程;
  4. 警惕 “幻觉” 风险:AI输出信息时,需独立验证,尤其做重要决策时,不能完全依赖;
  5. 理解智能多样性:智能含多维度,不能简单用 “聪明 / 笨” 评判,无论人类还是 AI,都需全面发展。

这项研究的最大贡献,是给了AI领域一把“客观尺子”——让人们跳出炒作与恐慌,清晰认知 “AI当前在哪”,进而规划 “未来去哪、怎么去”,为AGI的稳健发展奠定了基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普:对美伊达成协议“非常乐观”,伊朗最高领袖提出三点主张

特朗普:对美伊达成协议“非常乐观”,伊朗最高领袖提出三点主张

文汇报
2026-04-10 15:52:15
朝鲜最高领导人金正恩会见王毅

朝鲜最高领导人金正恩会见王毅

新华社
2026-04-10 18:38:12
东航一航班遇强烈气流备降厦门,后在南昌上空盘旋数圈降落,乘客:剧烈颠簸,吓得给对象留言,感谢机长带我平安回家

东航一航班遇强烈气流备降厦门,后在南昌上空盘旋数圈降落,乘客:剧烈颠簸,吓得给对象留言,感谢机长带我平安回家

极目新闻
2026-04-10 15:54:54
5女子坐临水栏杆上,悬空高难度瑜伽动作秀柔韧;网友:先问问五朵金花都会游泳吗?景区:发现了会制止

5女子坐临水栏杆上,悬空高难度瑜伽动作秀柔韧;网友:先问问五朵金花都会游泳吗?景区:发现了会制止

大风新闻
2026-04-10 12:29:16
"我不要活了!"上海一阿婆崩溃,买了近30年的保险全被退!警方:若继续持有价值百万

"我不要活了!"上海一阿婆崩溃,买了近30年的保险全被退!警方:若继续持有价值百万

台州交通广播
2026-04-09 22:32:54
多人反映在常熟农商银行贷款遭遇“利率翻倍”:口头承诺低息,还款五年发现年利率达8.7%,长期不交付合同原件

多人反映在常熟农商银行贷款遭遇“利率翻倍”:口头承诺低息,还款五年发现年利率达8.7%,长期不交付合同原件

极目新闻
2026-04-10 17:53:40
门店腰斩2万家!一线撤离、杂牌泛滥,国民快餐巨头彻底扛不住了

门店腰斩2万家!一线撤离、杂牌泛滥,国民快餐巨头彻底扛不住了

毒sir财经
2026-04-09 16:14:36
重磅!美国拟全面封杀中国实验室!

重磅!美国拟全面封杀中国实验室!

中国半导体论坛
2026-04-10 12:40:19
53条中日航线3月取消全部航班

53条中日航线3月取消全部航班

第一财经资讯
2026-04-10 12:59:47
“十多年没遇到过这样的!”浙江房东崩溃,租客两年藏近千斤尿液在房间,柜子全被塞满……

“十多年没遇到过这样的!”浙江房东崩溃,租客两年藏近千斤尿液在房间,柜子全被塞满……

扬子晚报
2026-04-10 11:06:50
收下中国26万桶柴油后,马科斯给南沙131处岛礁改名!菲律宾变脸

收下中国26万桶柴油后,马科斯给南沙131处岛礁改名!菲律宾变脸

趣文说娱
2026-04-09 20:17:07
记者现场直击!伊斯兰堡严阵以待

记者现场直击!伊斯兰堡严阵以待

环球网资讯
2026-04-10 13:56:00
全红婵后续:四人已被带走,全网追问群主,陈芋汐确认在群里!

全红婵后续:四人已被带走,全网追问群主,陈芋汐确认在群里!

眼光很亮
2026-04-10 13:53:56
伊朗媒体:哈拉齐伤重不治

伊朗媒体:哈拉齐伤重不治

中国基金报
2026-04-10 06:44:44
体检报告中,若3个指标都正常,基本可排除很多疾病

体检报告中,若3个指标都正常,基本可排除很多疾病

白话电影院
2026-04-09 16:11:20
6块钱的假螺栓,13条人命:一座跨黄河大桥是怎么被省塌的?

6块钱的假螺栓,13条人命:一座跨黄河大桥是怎么被省塌的?

李将平老师
2026-04-10 11:36:25
开路虎加油逃单后续:正脸曝光已死,身份被扒还是惯犯,警方介入

开路虎加油逃单后续:正脸曝光已死,身份被扒还是惯犯,警方介入

潮鹿逐梦
2026-04-10 12:03:49
突发!FCC拟禁止中国三大运营商!中方回应

突发!FCC拟禁止中国三大运营商!中方回应

EETOP半导体社区
2026-04-10 08:36:04
贾平凹之女贾浅浅被调查,连米芾的芾字都不认识,引起书法界震怒

贾平凹之女贾浅浅被调查,连米芾的芾字都不认识,引起书法界震怒

潮鹿逐梦
2026-04-10 12:43:59
如愿以偿!郑丽文终于见到了大陆行最重要的人物!

如愿以偿!郑丽文终于见到了大陆行最重要的人物!

阿龙聊军事
2026-04-10 18:02:00
2026-04-10 20:24:49
DATAVIEW
DATAVIEW
时刻讨论和分析世界、行业、AI等热门话题,只提取高价值信息
32文章数 2关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

73岁骑友抄近路摔倒身亡 女儿:赔偿问题无法达成共识

头条要闻

73岁骑友抄近路摔倒身亡 女儿:赔偿问题无法达成共识

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

创业板改革制度落地 增设第4套上市标准

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

游戏
旅游
教育
艺术
军事航空

粉丝发现《皇牌空战8》神进步:点开一看气笑了

旅游要闻

“让大雪山变致富山!”户外风吹进胆扎村 村民有了新期盼

教育要闻

直播预告|利楚教科“智慧校园·预见未来”发布会,定档4月16日!

艺术要闻

于小冬2026年4月油画新作《花季》

军事要闻

特朗普:对美国与伊朗达成和平协议“非常乐观”

无障碍浏览 进入关怀版