29家顶尖机构，联合定义通用人工智能AGI|数学|agi

分享至

你是否厌倦了各种AI炒作？

2025年10月21日，来自斯坦福大学、MIT、加州大学伯克利分校等全球29所顶尖研究机构的学者共同完成研究，首次建立了量化评估AGI的完整框架。研究基于心理学权威的CHC理论，将通用智能分解为10个可测量的认知领域，每个领域占10%，总分100%代表达到人类认知水平。测试结果显示，GPT-4得分27%，GPT-5得分58%，呈现出"锯齿状"能力分布，在知识和语言方面接近满分，但长期记忆存储为零分。

想象一下，你去医院做体检，医生不仅要测血压、验血，还要检查心肺功能、视力听力、反应速度等等。只有各项指标都合格，才能说你身体真正健康。同样的道理，这个研究团队认为，要判断一个AI是否真正"聪明"到了人类的水平，也需要这样一套全面的检查标准。他们给这个目标起了个名字：AGI，也就是"通用人工智能"。

什么是通用人工智能呢？简单说，就是一个AI不仅能下棋、不仅能写文章，而是能像一个受过良好教育的成年人那样，面对各种各样的认知任务都游刃有余。就像一个全科医生，不是只会看感冒或只会做手术，而是各科都懂一些，能应对大部分病症。

可问题来了：怎么判断一个AI是否达到了这个标准呢？以前，科学家们对AGI的定义非常模糊，就像大家都说"聪明"，但每个人心里对"聪明"的标准可能完全不同。有人觉得会下围棋就很聪明，有人觉得会写诗才算聪明。这种模糊性给研究和评估带来了巨大困扰，你无法衡量一个东西，就很难知道我们离目标还有多远。

这就是这篇论文的重要性所在。研究团队决定，不再满足于含糊其辞的定义，而是要建立一套可以打分的标准，就像我们的体检报告会给每项指标一个具体数值一样。他们的思路很巧妙：既然人类是目前唯一拥有"通用智能"的生物，那就参照人类大脑的运作方式来设计测试。

为了做到这一点，研究团队借鉴了心理学领域最权威的智力理论——CHC理论（Cattell-Horn-Carroll理论）。这个理论是心理学家花了一百多年时间，通过大量实验和数据分析总结出来的，基本上把人类的智能拆解成了各个可测量的部分，就像把一台复杂的机器拆成零件一样。这个理论的优势在于，它不是拍脑袋想出来的，而是基于大量真实数据验证过的。事实上，现在几乎所有主流的智力测试，都是按照CHC理论的框架设计的。

基于这个理论，研究团队把"通用智能"分成了十个大类，每个大类占10分，总分100分。这就像体检有十个大项目一样。这十个认知领域涵盖了从知识储备、语言能力、数学能力到记忆力、反应速度等各个方面。他们给这个评分系统起名叫"AGI分数"，100分就代表完全达到了人类的认知水平。

现在到了最激动人心的部分：当研究团队用这套标准去测试当前最先进的AI系统，比如GPT-4和GPT-5时，结果却让人大吃一惊。

意外的"体检报告"：AI的智能竟然如此"偏科"

如果你以为GPT-4或GPT-5这样的顶级AI会在各项测试中都接近满分，那你可能要失望了。GPT-4的总分只有27分（满分100），GPT-5也只有58分。更令人惊讶的是，这些分数的分布极不均匀，就像一个学生偏科严重，有的科目接近满分，有的科目却是零分。

研究团队把这种现象形象地称为"锯齿状"能力分布。想象一把锯子，锯齿有高有低，参差不齐。GPT-5在某些领域的表现确实令人印象深刻，比如在知识储备、阅读写作、数学能力上都能拿到9-10分（满分10分）。这就好比一个学霸，语文数学历史都考90多分。但是，同样是这个"学霸"，在长期记忆存储这一项上却得了零分，完全不及格！

这是什么概念呢？就好比一个人记忆力超强，能背诵整本百科全书，但只要你和他聊完天转身离开，第二天他就完全不记得你说过什么。每次见面都像第一次见面一样，需要重新介绍自己。这种"健忘症"对于一个号称智能的系统来说，简直是致命缺陷。

为什么会出现这种奇怪的现象呢？研究团队发现，当前的AI系统其实是在用它的强项来弥补弱项，这种策略被他们称为"能力扭曲"。打个比方，就像一个没有长期记忆的人，为了应付日常生活，不得不随身带着一个巨大的笔记本，把所有信息都记在上面。虽然表面上看起来他能"记住"很多事，但实际上他只是在不停地翻笔记本，而不是真的记在脑子里。

这种补偿策略在短期内看起来有效，但实际上既低效又脆弱。就像那个随身带笔记本的人，一旦笔记本丢了或者信息太多翻不过来，整个系统就崩溃了。对AI来说，这意味着它们虽然看起来能处理很多任务，但一旦遇到真正需要持续学习、积累经验的场景，就会暴露出严重的局限性。

十项全能测试：给AI的大脑做全方位扫描

那么，研究团队具体是如何测试这十个认知领域的呢？让我们像参观一个大型体检中心一样，逐一了解每个检查项目。

第一站是"知识储备"检查室。这里测试的是AI掌握了多少常识、科学知识、社会知识和历史文化。就像问一个人："你知道月球为什么总是同一面朝向地球吗？""美国总统是谁？""二战是怎么结束的？"这些都是受过良好教育的成年人应该知道的基本知识。测试结果显示，GPT-4在这方面得了8分（满分10分），GPT-5得了9分。这说明这些AI确实"读过很多书"，知识面相当广泛。

第二站是"读写能力"检查室。这里不仅测试AI能否读懂复杂文章，还要看它能否写出组织清晰、逻辑严密的文字。比如给它一篇长达几千字的产品说明书，问"这个产品的保修期是多久？"或者让它写一篇关于"远程工作利弊"的文章。结果显示，GPT-4在这方面得了6分，GPT-5则提升到了10分。这意味着最新的AI在理解和生成文字方面已经达到甚至超越了人类平均水平。

第三站是"数学能力"检查室。这里的测试从简单的算术一直到微积分，涵盖了代数、几何、概率论等各个数学分支。比如会问："一个公司最初有200名员工，每月新增20人，每人月薪4000美元，三个月后总工资支出是多少？"或者更复杂的几何问题。GPT-4在这里只得了4分，而GPT-5则跃升到了满分10分，说明新一代AI在数学能力上有了质的飞跃。

第四站是"即时推理"检查室，这里测试的是AI面对全新问题时的思考能力。注意，这不是靠背答案能解决的，而是需要临场分析、推理、规划。比如给AI一个逻辑谜题："大卫认识张先生的朋友杰克，杰克认识大卫的朋友林女士。认识杰克的人都有硕士学位，认识林女士的人都来自上海。那么谁既来自上海又有硕士学位？"这需要AI像侦探一样，根据线索一步步推理出答案。GPT-4在这方面得了零分！而GPT-5得了7分，有了显著进步，但仍然不完美。

第五站是"工作记忆"检查室。工作记忆就像电脑的内存，是你正在处理信息时的临时存储空间。比如测试会给AI展示一串数字[10, 20, 30]，然后要求"先在末尾加上40，再把整个列表倒序"。或者给AI看一组图片，过一会儿再问"刚才那组图里哪个飞机也出现在了现在这组图里？"GPT-4得了2分，GPT-5得了4分，说明在这方面还有较大提升空间。

第六站是"长期记忆存储"检查室。这是检测的重灾区！长期记忆存储是指能否把新学到的东西长久地记在"脑子里"，以便将来使用。比如今天你教AI认识了三个新朋友的名字和爱好，两天后再问它"还记得那个喜欢园艺的人叫什么名字吗？"结果，无论GPT-4还是GPT-5，在这一项上都是零分！这就像一个每天早上醒来都会失忆的人，虽然他很聪明，但无法积累经验，无法真正成长。

第七站是"长期记忆检索"检查室。这测试的是AI能否快速准确地从它已有的知识库中调取信息，以及最关键的：它会不会"编造"不存在的信息。比如问"拿破仑在南非战役中使用了什么关键战略？"正确答案应该是"拿破仑从未在南非作战，这个问题本身有误"。但如果AI信口开河编造一个答案，就说明它的记忆检索存在严重问题。这种"编造"在AI领域被称为"幻觉"。GPT-4和GPT-5在快速检索方面都得了4分，说明速度还可以，但在避免幻觉方面都是零分，意味着它们经常会自信满满地说出错误信息。

第八站是"视觉处理"检查室。现代AI应该能"看懂"图片和视频。测试包括识别图片内容、给图片写说明、判断视觉上的异常、甚至创造新图片等。比如给AI看一张扭曲的图片问"这是什么动物？"或者让它生成一张"金毛猎犬在公园玩耍"的图片。GPT-4因为完全不具备视觉能力得了零分，而GPT-5得了4分，说明有了基本的视觉能力，但还远不够完善。

第九站是"听觉处理"检查室。这里测试AI能否理解语音、识别音乐节奏、判断音调高低等。比如播放一段话让AI转写成文字，或者播放两段节奏问"这两段节奏一样吗？"同样，GPT-4得了零分，GPT-5得了6分，表现比视觉处理稍好一些。

最后一站是"速度"检查室。这里测试的不是AI能做什么，而是做得有多快。包括阅读速度、打字速度、反应时间等十个子项目。想象一个场景：给AI展示一大段文字，里面藏着字母"a"和"t"，要它快速数出有多少个。或者突然给它一个指令"看到这句话后立即说'你好'"，测试它的反应时间。结果显示，GPT-4和GPT-5在读写和简单计算方面速度尚可，各得3分，但在需要多模态处理（比如同时处理图像和声音）的速度测试中表现很差。特别是GPT-5，虽然能力更强，但因为需要"思考"的时间太长，反而拖慢了速度。

透过体检报告看本质：AI"聪明"得很特别

当我们把这十项测试的结果放在一起看时，就会发现一个有趣的模式：当前的AI系统并不是全面的"笨"或"聪明"，而是在某些方面极其出色，在另一些方面却几乎无能。这就像一个人可能是数学天才，但却完全不会游泳、不会骑车，他的智能是"碎片化"的，而不是"通用"的。

研究团队深入分析后指出，这种不均衡背后有深层原因。首先，目前的AI训练方式决定了它们擅长处理已有的大量数据。想象一下，如果你能瞬间阅读互联网上所有的书籍、文章和网页，你当然会在知识测验中表现出色。这就是为什么GPT在知识储备、阅读理解这些"见多识广"就能做好的领域表现优秀。

但是，真正的智能不仅仅是"知道很多"，更重要的是"会学习新东西"和"能灵活应用"。这就涉及到我们大脑中一些更基础的认知机制，比如长期记忆的形成、临时信息的操作、快速的模式识别等。这些能力看似简单（毕竟连小孩子都能记住昨天发生的事），但对AI来说却极其困难。

举个具体例子来说明这种差异。假设你在教AI学习一个新的工作流程。对人类来说，你可能示范几次，解释一下原理，过几天再复习一遍，这个流程就基本记住了，以后遇到类似情况能举一反三。但对当前的AI来说，要么它根本记不住（长期记忆为零），要么你得每次都把整个流程重新输入一遍（用工作记忆补偿），而且它很难判断什么时候该用这个流程，什么时候不该用（推理能力不足）。

更严重的问题是，为了弥补这些根本性缺陷，AI开发者采用了一些"曲线救国"的办法，研究团队称之为"能力扭曲"。最典型的例子就是用超大的"工作记忆"（也就是所谓的上下文窗口）来代替真正的"长期记忆"。这就好比一个人因为记不住东西，所以随身带着一个超大的背包，里面装满了笔记、文件和资料。需要什么信息就在背包里翻找。这种方法虽然表面上能工作，但效率极低，而且有严重的局限性：背包容量终究有限，翻找速度也慢，最关键的是，这样的系统永远无法真正"学习"和"成长"。

另一个补偿策略是依赖外部搜索工具。因为AI经常会"幻觉"，也就是自信地说出错误信息，所以现在的解决办法是给它配上互联网搜索功能，需要什么信息就实时去网上查。这又像一个人虽然记忆力很差，但手机网络很快，什么都可以百度。可问题是，这不是真正意义上的"记忆"，只是一种外部依赖。而且这种方法无法处理私密信息、个人经历这些不在互联网上的知识。

研究团队特别强调，这些"能力扭曲"现象如果不被识别和理解，会给我们对AGI进展的判断带来严重误导。我们可能会因为AI在某些任务上表现出色，就误以为它已经很接近通用智能了，但实际上它只是在用各种补偿策略掩盖根本性的认知缺陷。这就好比一个只会爬行的机器人，通过安装各种辅助轮子和支撑架，看起来能"走路"了，但本质上它还是不会真正的双足行走。

一个类比：把智能想象成"发动机"

为了帮助我们更直观地理解这些发现，研究团队提出了一个精妙的类比：把智能系统想象成一台高性能发动机。

一台发动机的总功率（相当于整体智能水平）取决于它所有零部件的配合。即使你有世界上最好的活塞、最先进的燃油喷射系统，只要有一个关键部件严重故障，比如冷却系统完全失效，整台发动机的性能就会被拖垮，甚至根本无法运转。

当前的AI系统就像一台有着超强涡轮增压器（知识储备）、高效变速箱（语言处理）、精密电子控制系统（数学能力）的发动机，但它的冷却系统（长期记忆）和润滑系统（记忆检索）却几乎不存在。短期内，通过各种临时措施，比如不停地浇冷水降温、频繁更换零件，这台发动机也许能勉强运转，但它永远无法真正发挥应有的性能，也无法长时间稳定工作。

这个类比还揭示了另一个重要洞察：智能的各个部分不是孤立的，而是高度相互依赖的。比如说，即使你数学能力再强（数学能力10分），如果推理能力跟不上（推理能力低分），你可能连复杂的数学应用题都做不好，因为你不知道该用哪个公式、按什么步骤解题。再比如，理解一部电影需要同时调用视觉处理（看画面）、听觉处理（听对白）、工作记忆（记住剧情）和推理能力（理解人物动机）。如果其中任何一环较弱，整体理解就会大打折扣。

从这个角度看，当前AI的58分（GPT-5）虽然看起来"及格"了，但因为有几个关键部件是零分，这台"发动机"实际上还远远谈不上是一台真正的"通用智能"发动机。它更像是一台特殊用途的机器，在某些特定赛道上跑得飞快，但换个环境就完全不行了。

至顶AI实验室洞见

读到这里，你可能会想：那又怎么样呢？这些技术细节离我们普通人的生活很远吧？其实不然。这项研究的发现对我们理解和使用AI有着非常实际的意义。

首先，它帮助我们建立正确的预期。现在各种媒体经常报道"AI要超越人类了"、"AGI即将来临"这样的标题。但这项严谨的研究告诉我们，即使是最先进的AI系统，离真正的通用智能还有很长的路要走。它们虽然在某些方面表现惊人，但在很多人类认为理所当然的基础能力上还有巨大缺陷。了解这一点，我们就能更理性地看待AI技术的发展进程，既不过度恐慌也不盲目乐观。

其次，它指明了AI研究的关键突破方向。过去，研究人员可能会认为只要不断增加训练数据、扩大模型规模，AI就会越来越"聪明"。但这项研究清楚地表明，单纯的规模扩大是不够的，必须要解决一些根本性的架构问题，特别是长期记忆机制。这就好比建造摩天大楼，如果地基有问题，楼层盖得再高也是危险的。研究团队指出，解决长期记忆问题可能需要全新的技术方案，比如动态调整模型参数的机制，让AI能够像人类一样通过不断的经历来"成长"。

第三，它对AI的实际应用有重要指导意义。比如，既然我们知道当前AI的长期记忆几乎为零，在设计AI产品时就要特别注意这一点。你不能指望一个AI助手今天和你深入讨论了一个项目方案，明天就能主动记起来继续推进，除非你每次都重新告诉它所有背景信息。了解这些局限性，能帮助我们更好地设计人机协作的工作流程，扬长避短。

第四，这项研究还提醒我们关注AI的"幻觉"问题。当AI自信满满地告诉你一个信息时，它很可能是在"编造"而不是真的"知道"。就像研究中提到的，GPT们在避免幻觉方面都是零分。这意味着在使用AI时，我们必须保持批判性思维，特别是在做重要决策时，不能完全依赖AI提供的信息，而要进行独立验证。

最后，从更宏观的角度看，这项研究揭示了"智能"这个概念的复杂性和多面性。我们往往会简单地说某个人或某个AI"聪明"或"不聪明"，但实际上智能包含许多不同的维度。一个在知识竞赛中表现出色的人，可能在需要快速反应的运动中表现平平；一个擅长数学的人，可能在人际交往中比较笨拙。承认这种多样性，能帮助我们更全面地评价和发展智能，无论是人类的还是人工的。

这篇论文最大的贡献不是告诉我们AI有多强或多弱，而是给了我们一把真正的尺子，让我们能够客观、具体地衡量AI的智能水平。有了这把尺子，我们就不会被各种炒作或恐慌所左右，而是能够基于事实来讨论AI的现状和未来。

这种清晰性对于AI这个影响深远的技术领域来说，再重要不过了。毕竟，只有先搞清楚"我们在哪里"，才能更好地规划"我们要去哪里"以及"我们该怎么去"。而这，正是这项研究为整个AI领域带来的宝贵礼物。

论文地址：https://arxiv.org/abs/2510.18212

本文来自至顶AI实验室，一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破，挖掘其潜在的应用场景，为企业和个人提供切实可行的解决方案。

Q&A

Q1：AGI分数58%是什么意思？是不是说AI已经完成了一半的进化？

A：不能这么简单理解。58%不是说AI"完成了一半"，而是说在十个认知领域的测试中，平均得到了58分（满分100）。更关键的是，这个分数分布极不均匀，有些领域接近满分，有些领域却是零分。就像一个学生虽然总分及格了，但其实有好几门课是零分，这样的"及格"其实问题很大。

Q2：为什么长期记忆存储这么重要？AI没有它不是也能工作吗？

A：确实，当前的AI通过各种补偿策略（比如超大的上下文窗口）可以勉强工作，但缺少长期记忆就像一个人每天醒来都会失忆一样，无法真正学习和成长。你和它交流过的所有内容，解决过的所有问题，一旦超出它的"工作记忆"范围就会被遗忘。这意味着它永远无法积累经验、建立深度关系或真正理解上下文背景。

Q3：这项研究对普通人使用ChatGPT这类AI有什么实际影响？

A：主要影响是帮助我们建立正确的预期。比如，不要期待AI能记住你上次对话的内容（除非在同一个会话中）；在重要决策时要验证AI提供的信息，因为它可能会"幻觉"编造内容；要理解AI虽然知识丰富，但在需要多步推理或灵活应变的任务中可能表现不佳。了解这些局限能帮你更有效地使用AI工具。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.