原来AI真的心里没数？研究表明GPT等主流大模型缺乏类人工作记忆|数学|实验|推理|上下文

原来AI真的心里没数？研究表明GPT等主流大模型缺乏类人工作记忆

2025-06-17 16:08:21　来源: DeepTech深科技

北京举报

分享至

当一个大型语言模型（LLM，Large Language Model）被要求“在心里想一个数字”并确认完成后，它是否真的在内部“记住了”这个数字？来自美国约翰斯·霍普金斯大学和中国人民大学的研究团队通过一项新研究指出，答案可能是否定的。

这篇发表于arXiv预印本平台的论文《大型语言模型不具备类人工作记忆》（LLMs Do Not Have Human-Like Working Memory），通过一系列实验论证，当前主流的 LLM 虽然在处理语言任务上表现出色，但它们普遍缺乏一种对高级认知至关重要的能力——工作记忆。

这项研究认为，LLM 的许多行为，如产生矛盾信息或在复杂推理中失败，其根本原因可能在于它们无法像人类一样，在内部主动地、临时地存储和处理信息。

在认知科学中，工作记忆是一个核心概念。它指的是一个容量有限的系统，负责在执行思考、推理、学习等复杂任务时，临时性地存储并主动处理相关信息。例如，在不使用纸笔进行心算时，大脑就需要依靠工作记忆来暂存中间计算结果。这是一个主动、内化的心理过程。

研究人员强调，LLM 所依赖的“上下文窗口”与工作记忆存在本质区别。上下文窗口允许模型在生成回应时，回顾之前的对话历史。这更像是一种被动的查阅，所有信息都以文本形式外在地、明确地存在。相比之下，人类的工作记忆是在没有外部提示的情况下，于内部对信息表征进行操纵。当前对 LLM 能力的评估，很多时候混淆了这两种机制。

为了准确评估 LLM 是否具备内化的工作记忆，研究团队设计了三个实验，其共同点在于，要求模型处理的信息并不直接存在于其可访问的上下文（prompt）中。

第一个实验简单而犀利。研究团队让各种 LLM“在心中想一个 1 到 10 之间的数字”，然后分别询问是否为每个特定数字。关键在于数学逻辑：如果模型真的选择了一个数字并诚实回答，那么所有“是”回答的概率总和应该接近 1。这是因为在 200 次独立测试中，如果模型每次都真的选择一个数字，那么对所有可能数字的"是"回答频率加起来应该大致等于 100%。

结果发现。在测试的众多模型中，大部分的概率总和接近于 0。例如，GPT-4o-Mini、GPT-4o 的多个版本以及 Qwen 系列模型，它们对所有数字的“是”回答概率加起来都是 0，这意味着它们几乎从不给出肯定回答。即使是表现相对较好的模型，如 LLaMA-3.1-405B，其概率总和也达到了 1.195，超过了理论上限。

这种现象表明什么？要么这些模型根本没有真正“想”任何数字，要么它们在某种程度上“撒谎”了。更可能的情况是，它们缺乏维持内部状态的能力，无法在对话过程中保持一个一致的心理表征。

团队还发现，当模型确实给出“是”的回答时，它们表现出对数字 7 的强烈偏好。这种现象在人类中也存在——心理学研究表明，当被要求随机选择一个数字时，人们往往倾向于选择 7。但在 LLM 中，这种偏向可能并非来自真正的认知过程，而是训练数据中的统计规律。

研究者还测试了不同数字范围的影响。令人困惑的是，当范围较小（如 1-3 或 1-5）时，某些模型反而表现出强烈的“是”倾向，概率总和远大于 1。而当范围较大（如 1-40）时，模型又几乎不给出任何“是”的回答。这种不一致的表现进一步证实了 LLM 缺乏稳定的内部状态管理能力。

第二个实验更加接近真实的认知测试。研究者让模型想象一个物体，然后问一系列比较性问题，比如“这个物体比大象重吗？”、“它比猫轻吗？”等等。如果模型真的在“想象”一个具体物体，它应该能够保持回答的一致性。

研究团队预先定义了 60 种不同的物体，按照体积、长度、重量、密度和硬度五个属性进行排序。然后持续向模型提出多达 250 个比较问题，记录模型在第几个问题时出现自相矛盾。

结果显示，较小的模型（如 GPT-4o-Mini）几乎总是出现自相矛盾，200 次试验全部失败。即使是更大的模型 GPT-4o，也只有 27 次试验（13.5%）没有出现矛盾。更重要的是，模型出现矛盾的时机呈现出一定的规律性：GPT-4o-Mini 通常在 20-30 个问题后开始自相矛盾，而 GPT-4o 能坚持到 30-40 个问题。

这种渐进式的失败模式揭示了一个关键问题：LLM 并非真正在“想象”一个物体，而是试图通过检查之前的回答来保持一致性。随着问题数量的增加，维持一致性变得越来越困难，最终导致逻辑矛盾。研究者形象地描述道，模型可能会先说某个物体比汽车大，后来又说它比足球小。

第三个实验是最复杂的。研究者设计了一个基于著名的约瑟夫问题的“数学魔术”，要求模型在心中想象四个数字，然后执行一系列复杂的操作：复制、旋转、移除等等。由于数学约束，最终剩下的两个数字理论上应该相同。

这个任务需要模型在多个步骤中维持和操作内部状态，是对工作记忆能力的终极测试。结果再次印证了研究者的假设：大多数模型在这个任务上表现极差，准确率通常只有 0-20%，仅略高于随机猜测的基线（10%）。

即使是配备了高级推理能力的模型，如 OpenAI 的 o1 系列，也只能达到 16.7% 的准确率。表现最好的是 DeepSeek-R1，达到了 39.3% 的准确率，但这仍然远低于人类的表现水平。

有意思的是，研究者发现模型在这个任务中也表现出对数字 7 的偏好。在 DeepSeek-R1 的 59 次正确回答中，有 48 次（81.4%）涉及数字 7，这进一步表明模型可能并不是真正理解任务，而是依赖于训练中形成的数字偏好。

研究者还测试了当前最流行的提升 AI 推理能力的方法——思维链（CoT，Chain-of-Thought）推理。这种方法要求模型逐步展示其思考过程，理论上应该能帮助模型更好地管理复杂任务。

然而，实验结果显示，即使使用 CoT 推理，模型在工作记忆相关任务上的表现也没有显著改善。在数学魔术实验中，使用 CoT 的 GPT-4o 准确率从 4.7% 提升到 21.3%，虽有改善但仍然很低。这表明，简单地要求模型“展示思考过程”并不能弥补其根本的认知局限性。

尽管整体表现不佳，研究中还是发现了一些有趣的差异。Meta 的 LLaMA 系列模型在某些测试中表现相对较好，特别是在数字猜测游戏中。LLaMA-3.1-8B 甚至超越了更大的 70B 和 405B 版本，这表明模型大小并不总是决定性因素。

另一个令人意外的发现是，较新的模型版本并不一定比旧版本表现更好。在 GPT-4o 系列中，2024 年 8 月版本在数字猜测任务中表现最佳，超过了 11 月版本和最新的 GPT-4.1。这说明，在追求更强大的语言能力时，可能无意中削弱了其他认知功能。

综合这三个实验，该研究得出结论：当前的大型语言模型作为一个类别，并不具备类人的工作记忆。它们在需要内部表征和操纵瞬时信息的任务上，表现出系统性的失败。它们的强大能力更多地体现在处理和生成基于显式上下文的文本，而非进行内化的、主动的思考。

而这一发现或许也为我们理解当前 LLM 的一些能力局限提供了具体的证据。模型产生的逻辑矛盾、事实错误等问题，可能并只是因为“幻觉”，而因为其认知架构中缺少工作记忆这一核心组件的直接体现。因此，未来人工智能领域的发展，或许需要将研究重点从单纯扩大模型规模，转向探索能够整合有效工作记忆机制的新型模型架构。

参考资料：

1.https://arxiv.org/pdf/2505.10571v1

运营/排版：何晨龙

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.