网易首页 > 网易号 > 正文 申请入驻

原来AI真的心里没数?研究表明GPT等主流大模型缺乏类人工作记忆

0
分享至

当一个大型语言模型(LLM,Large Language Model)被要求“在心里想一个数字”并确认完成后,它是否真的在内部“记住了”这个数字?来自美国约翰斯·霍普金斯大学和中国人民大学的研究团队通过一项新研究指出,答案可能是否定的。

这篇发表于arXiv预印本平台的论文《大型语言模型不具备类人工作记忆》(LLMs Do Not Have Human-Like Working Memory),通过一系列实验论证,当前主流的 LLM 虽然在处理语言任务上表现出色,但它们普遍缺乏一种对高级认知至关重要的能力——工作记忆。

这项研究认为,LLM 的许多行为,如产生矛盾信息或在复杂推理中失败,其根本原因可能在于它们无法像人类一样,在内部主动地、临时地存储和处理信息。

在认知科学中,工作记忆是一个核心概念。它指的是一个容量有限的系统,负责在执行思考、推理、学习等复杂任务时,临时性地存储并主动处理相关信息。例如,在不使用纸笔进行心算时,大脑就需要依靠工作记忆来暂存中间计算结果。这是一个主动、内化的心理过程。

研究人员强调,LLM 所依赖的“上下文窗口”与工作记忆存在本质区别。上下文窗口允许模型在生成回应时,回顾之前的对话历史。这更像是一种被动的查阅,所有信息都以文本形式外在地、明确地存在。相比之下,人类的工作记忆是在没有外部提示的情况下,于内部对信息表征进行操纵。当前对 LLM 能力的评估,很多时候混淆了这两种机制。

为了准确评估 LLM 是否具备内化的工作记忆,研究团队设计了三个实验,其共同点在于,要求模型处理的信息并不直接存在于其可访问的上下文(prompt)中。

第一个实验简单而犀利。研究团队让各种 LLM“在心中想一个 1 到 10 之间的数字”,然后分别询问是否为每个特定数字。关键在于数学逻辑:如果模型真的选择了一个数字并诚实回答,那么所有“是”回答的概率总和应该接近 1。这是因为在 200 次独立测试中,如果模型每次都真的选择一个数字,那么对所有可能数字的"是"回答频率加起来应该大致等于 100%。

结果发现。在测试的众多模型中,大部分的概率总和接近于 0。例如,GPT-4o-Mini、GPT-4o 的多个版本以及 Qwen 系列模型,它们对所有数字的“是”回答概率加起来都是 0,这意味着它们几乎从不给出肯定回答。即使是表现相对较好的模型,如 LLaMA-3.1-405B,其概率总和也达到了 1.195,超过了理论上限。

这种现象表明什么?要么这些模型根本没有真正“想”任何数字,要么它们在某种程度上“撒谎”了。更可能的情况是,它们缺乏维持内部状态的能力,无法在对话过程中保持一个一致的心理表征。

团队还发现,当模型确实给出“是”的回答时,它们表现出对数字 7 的强烈偏好。这种现象在人类中也存在——心理学研究表明,当被要求随机选择一个数字时,人们往往倾向于选择 7。但在 LLM 中,这种偏向可能并非来自真正的认知过程,而是训练数据中的统计规律。

研究者还测试了不同数字范围的影响。令人困惑的是,当范围较小(如 1-3 或 1-5)时,某些模型反而表现出强烈的“是”倾向,概率总和远大于 1。而当范围较大(如 1-40)时,模型又几乎不给出任何“是”的回答。这种不一致的表现进一步证实了 LLM 缺乏稳定的内部状态管理能力。

第二个实验更加接近真实的认知测试。研究者让模型想象一个物体,然后问一系列比较性问题,比如“这个物体比大象重吗?”、“它比猫轻吗?”等等。如果模型真的在“想象”一个具体物体,它应该能够保持回答的一致性。

研究团队预先定义了 60 种不同的物体,按照体积、长度、重量、密度和硬度五个属性进行排序。然后持续向模型提出多达 250 个比较问题,记录模型在第几个问题时出现自相矛盾。

结果显示,较小的模型(如 GPT-4o-Mini)几乎总是出现自相矛盾,200 次试验全部失败。即使是更大的模型 GPT-4o,也只有 27 次试验(13.5%)没有出现矛盾。更重要的是,模型出现矛盾的时机呈现出一定的规律性:GPT-4o-Mini 通常在 20-30 个问题后开始自相矛盾,而 GPT-4o 能坚持到 30-40 个问题。

这种渐进式的失败模式揭示了一个关键问题:LLM 并非真正在“想象”一个物体,而是试图通过检查之前的回答来保持一致性。随着问题数量的增加,维持一致性变得越来越困难,最终导致逻辑矛盾。研究者形象地描述道,模型可能会先说某个物体比汽车大,后来又说它比足球小。

第三个实验是最复杂的。研究者设计了一个基于著名的约瑟夫问题的“数学魔术”,要求模型在心中想象四个数字,然后执行一系列复杂的操作:复制、旋转、移除等等。由于数学约束,最终剩下的两个数字理论上应该相同。

这个任务需要模型在多个步骤中维持和操作内部状态,是对工作记忆能力的终极测试。结果再次印证了研究者的假设:大多数模型在这个任务上表现极差,准确率通常只有 0-20%,仅略高于随机猜测的基线(10%)。

即使是配备了高级推理能力的模型,如 OpenAI 的 o1 系列,也只能达到 16.7% 的准确率。表现最好的是 DeepSeek-R1,达到了 39.3% 的准确率,但这仍然远低于人类的表现水平。

有意思的是,研究者发现模型在这个任务中也表现出对数字 7 的偏好。在 DeepSeek-R1 的 59 次正确回答中,有 48 次(81.4%)涉及数字 7,这进一步表明模型可能并不是真正理解任务,而是依赖于训练中形成的数字偏好。

研究者还测试了当前最流行的提升 AI 推理能力的方法——思维链(CoT,Chain-of-Thought)推理。这种方法要求模型逐步展示其思考过程,理论上应该能帮助模型更好地管理复杂任务。

然而,实验结果显示,即使使用 CoT 推理,模型在工作记忆相关任务上的表现也没有显著改善。在数学魔术实验中,使用 CoT 的 GPT-4o 准确率从 4.7% 提升到 21.3%,虽有改善但仍然很低。这表明,简单地要求模型“展示思考过程”并不能弥补其根本的认知局限性。

尽管整体表现不佳,研究中还是发现了一些有趣的差异。Meta 的 LLaMA 系列模型在某些测试中表现相对较好,特别是在数字猜测游戏中。LLaMA-3.1-8B 甚至超越了更大的 70B 和 405B 版本,这表明模型大小并不总是决定性因素。

另一个令人意外的发现是,较新的模型版本并不一定比旧版本表现更好。在 GPT-4o 系列中,2024 年 8 月版本在数字猜测任务中表现最佳,超过了 11 月版本和最新的 GPT-4.1。这说明,在追求更强大的语言能力时,可能无意中削弱了其他认知功能。

综合这三个实验,该研究得出结论:当前的大型语言模型作为一个类别,并不具备类人的工作记忆。它们在需要内部表征和操纵瞬时信息的任务上,表现出系统性的失败。它们的强大能力更多地体现在处理和生成基于显式上下文的文本,而非进行内化的、主动的思考。

而这一发现或许也为我们理解当前 LLM 的一些能力局限提供了具体的证据。模型产生的逻辑矛盾、事实错误等问题,可能并只是因为“幻觉”,而因为其认知架构中缺少工作记忆这一核心组件的直接体现。因此,未来人工智能领域的发展,或许需要将研究重点从单纯扩大模型规模,转向探索能够整合有效工作记忆机制的新型模型架构。

参考资料:

1.https://arxiv.org/pdf/2505.10571v1

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
猜一猜这是本山大叔和谁的合影,评论区唠一唠

猜一猜这是本山大叔和谁的合影,评论区唠一唠

喜欢历史的阿繁
2026-01-28 08:48:04
中文互联网又震憾了美国一次!一个新词“北美懦夫”横空出世!

中文互联网又震憾了美国一次!一个新词“北美懦夫”横空出世!

达文西看世界
2026-01-28 15:20:57
五哈6加这两个女的干啥,没存在感还放不开,光看路透就看不下去

五哈6加这两个女的干啥,没存在感还放不开,光看路透就看不下去

萧狡科普解说
2026-01-29 06:19:41
中超转会最新动态:泰山、蓉城各添1名猛将,申花放弃2000万国脚

中超转会最新动态:泰山、蓉城各添1名猛将,申花放弃2000万国脚

二疯说球
2026-01-29 11:14:43
绕开欧盟27国一致同意,德国邀五国打造“多速欧洲”

绕开欧盟27国一致同意,德国邀五国打造“多速欧洲”

澎湃新闻
2026-01-29 21:15:11
专家提醒:不要买!不要吃!里面含有硼砂,危害健康,别害了自己

专家提醒:不要买!不要吃!里面含有硼砂,危害健康,别害了自己

蜉蝣说
2025-10-31 10:56:39
姐姐太有气质了

姐姐太有气质了

吃瓜党二号头目
2025-09-30 09:23:02
金晨名下多家工作室已注销

金晨名下多家工作室已注销

雷达财经
2026-01-29 14:50:12
新疆牧民十年前喂过一只小狼,说“混不下去我养你”,这狼记住了

新疆牧民十年前喂过一只小狼,说“混不下去我养你”,这狼记住了

南权先生
2026-01-29 16:01:11
山东一婚礼现场,新郎妈妈和新娘妈妈“撞脸”酷似双胞胎,面对面坐着就像照镜子!网友:一定是特别的缘分

山东一婚礼现场,新郎妈妈和新娘妈妈“撞脸”酷似双胞胎,面对面坐着就像照镜子!网友:一定是特别的缘分

鲁中晨报
2026-01-29 17:15:03
全网吵翻!女子带娃8小时突袭异地分居丈夫,网友们发现不对劲

全网吵翻!女子带娃8小时突袭异地分居丈夫,网友们发现不对劲

一盅情怀
2026-01-27 16:12:31
当年地道战的残酷真相:胜利背后的血与泪,哪里是电影所能描绘!

当年地道战的残酷真相:胜利背后的血与泪,哪里是电影所能描绘!

芊芊子吟
2026-01-29 23:45:03
世界银行:中国收入高增长周期结束了

世界银行:中国收入高增长周期结束了

谭谈投研
2026-01-12 18:48:33
要打就打痛!中国手段已升级,日本:中方不批准驻重庆总领事任命

要打就打痛!中国手段已升级,日本:中方不批准驻重庆总领事任命

浮光惊掠影
2026-01-30 01:49:21
央视揭秘“毒红薯”,以下5种红薯,再便宜也不要,别花冤枉钱了

央视揭秘“毒红薯”,以下5种红薯,再便宜也不要,别花冤枉钱了

餐饮新纪元
2026-01-29 07:11:32
进入“20元时代”,中式米饭快餐没有退路

进入“20元时代”,中式米饭快餐没有退路

蓝鲸新闻
2026-01-29 22:21:04
中国“微型小航母”亮相,乌克兰媒发现不对劲:在做全面战争准备

中国“微型小航母”亮相,乌克兰媒发现不对劲:在做全面战争准备

傲傲讲历史
2026-01-30 02:07:51
特朗普没料到,中国会果断放弃购买!俄一个电话打到北京,聊美了

特朗普没料到,中国会果断放弃购买!俄一个电话打到北京,聊美了

坠入二次元的海洋
2026-01-29 17:20:10
一场大战会不会到来?美航母已抵达伊朗,哈梅内伊身后事已交代!

一场大战会不会到来?美航母已抵达伊朗,哈梅内伊身后事已交代!

全球沸点直击
2026-01-30 01:53:24
新华时评丨“向东看”更是向发展看、向未来看

新华时评丨“向东看”更是向发展看、向未来看

新华社
2026-01-27 21:30:03
2026-01-30 03:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16197文章数 514560关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

金晨被指肇事逃逸让助理顶包 律师:顶包者或被判刑

头条要闻

金晨被指肇事逃逸让助理顶包 律师:顶包者或被判刑

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

曝金晨涉嫌交通肇事逃逸 本人尚未回应

财经要闻

崔东树:中国汽车未来年销或达5000万辆

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

本地
手机
时尚
教育
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

手机要闻

澎湃OS 3 Beta第二期招募开启:多款机型均在列,你的在内吗?

她穿一身大红参加葬礼,浪漫又感人?真是活久见哪

教育要闻

求两圆交点的方法还记得吗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版