![]()
每一次对话重启,大语言模型就会失去“短期记忆”——这种数字时代的“失忆症”正困扰着当前所有AI系统。
前一天,你告诉DeepSeek,说你喜欢橘子;可第二天换了个对话进程,Ta便全忘光了——就像《土拨鼠之日》中永远被困在昨天的菲尔,时间一到,之前的经历便被清空。
如今人类与AI的深度协同正在重塑智能的边界,而这种“反复失忆”却成为了共同进化的桎梏。没有持续的记忆积累,AI系统始终无法真正参与到人类的认知进程中,也就无法成为人类智能的有机延伸。本文将深入探讨大模型在情景记忆方面的技术挑战,分析现有解决方案的优劣,以及探索未来的发展方向。
![]()
为何大模型需要情景记忆
情景记忆(Episodic Memory),首先由Endel Tulving提出[1],是对特定经验和事件进行编码、存储和检索,例如去年春节看的电影,去某地游玩时发生的趣事。情景记忆使我们能够进行心理时间旅行,重温过去经历,或将自己投射到假设的未来场景中。情景记忆不仅仅是记录机制;它的出现从根本上塑造了我们从过去经验中学习、做出明智决策和在新型情况下调整行为的能力。
当前大模型学到的都是陈述式记忆而非情景记忆,它们能够获取百科全书中的词条知识,却无法像人类一样构建与知识相关的情境体验。那么,大模型拥有情境记忆后会有何不同呢? 图1对比了缺少情景记忆的当前大模型(左)与包含情景记忆的大模型(右)。可以看到,加入情景记忆后,大模型会拒绝回答不存在历史人物的问题(减少幻觉),具有一致的个性,能够根据过去的信息进行推理。这些改进对于提升陪伴类机器人的用户体验是必不可少的。
![]()
▷图1. 对比包含和包含情景记忆的大模型的表现。 图源:[2]
为何大模型缺少像人类那样的情景记忆,会带来如此明显的差距呢?
首先是大模型会将上下文窗口内的所有信息视在时间上具有同等的重要性。而缺乏时间定位导致语言生成和理解问题。模型可能无意中将历史事实与当前事件混合,或在讲故事时无法维持连贯的时间线。
其次,人类的认知深深植根于自传式记忆,这允许人维持一致的个性并根据过去积累的经验调整行为。大模型缺乏持续的自我认知,导致在互动中表现出不一致的个性特征,并且无法随着时间的推移与用户建立和维持关系。这严重阻碍了大模型与人类建立起深度、有意义的关系,并阻止大模型进行真正的内省或自我反思。
而且,由于情景记忆的缺失,大模型还难以通过交互进行实时学习或知识积累。与人类不同,人类可以从单一的重大事件中快速学习,而大模型无法根据交互过程中提供的反馈或纠正真正改进或细化其响应,根据提示词的案例进行的少尝试学习同样缺少时间轴。缺乏基于经验的学习还阻碍了大模型参与创造性问题解决或产生真正新颖想法的能力。人类可以将不同的经验结合起来形成新的见解,而大模型只能在其训练数据中重新组合现有信息,无法以有意义、持久的方式将新经验或外部输入纳入其知识库。
此外,虽然大模型幻觉出现的原因不仅仅是缺少情景记忆,但由于因为没有“亲身经历”作为锚点,模型容易把编的故事当成事实,无法区分训练数据中的信息是新闻报道还是小说,在需要精确信息的医疗、法律的应用场景,这会带来隐患。
![]()
当前大模型的外部记忆
和人类的情景记忆有何不同
大模型中包含了人类所拥有的大部分知识,但这些知识的存储方式,和人类的情境记忆有着显著的差异,明确这些大模型记忆和情境记忆的区别,能够更好地理解为何只依赖当前大模型的机制难以复现情景记忆。
![]()
▷图2. 上下文窗口中的自注意力。 图源:[3]
大模型中最常用的记忆机制是自注意力机制,即通过在上下文窗口(context window)内计算查询(query)与键(key)的匹配,动态整合信息。当上下文窗口较短时(如几百个token),这种机制可类比于人类工作记忆对近期信息的灵活操作。但当上下文窗口被扩展至数万甚至数十万token(如GPT-4的128K),窗口长度远超人类工作记忆容量(约4–7个组块),此时自注意力被迫同时承担其无法承担的长期存储与信息检索的功能。
自注意力通常对所有上下文中的键进行加权组合,相当于同时激活多个记忆片段,这容易导致干扰和混淆,尤其在记忆内容相似时。但人类情景记忆检索是竞争性的,检索时被提取的记忆片段可能不止一个,但最终只有最匹配的一个记忆片段被进入意识。
自注意力还缺少能识别“一个事件在什么时候结束、另一个从何开始”的机制,也无法自然产生跨时间点的一连串记忆,其全连接的结构,也会在长上下文中带来巨大计算开销。因此,只是基于自注意力是无法再现情景记忆的。
那么,若给大模型加上了外部记忆,又能否做重现情景记忆的特征?
当前大模型标配的RAG(检索增强生成)以及动态的知识图谱,是大模型常见的记忆补全模块,除此之外,还包括离线的retrain以及小数据集的提示词工程,可视为为大模型更新记忆的方式。
![]()
▷图3. 大模型常见的记忆更新方式。 图源:[2]
用RAG为代表,大模型的外部记忆和人类的情景记忆存在本质的不同。RAG中的文本,会被切割成固定长度的片段(uniform-length chunks);不考虑事件结构或语义边界;切割后的片段一旦存储,通常不再更新(遗忘,加强或修正);而在检索时,RAG是会返回相似度最高的n个片段;最关键的差异是,由于缺乏与语义记忆的双向互动:外部记忆主要用于辅助生成,无法用于更新模型内部的语义知识(即缺乏“记忆巩固”机制)。
与之相对,人类的情景记忆存储在突触间的权重中,记忆可被强化、削弱、修改甚至遗忘。通过记忆重放(replay),情景记忆中的结构信息可被整合进陈述式记忆。连续经验会被自动划分为有意义的事件单元,事件边界是编码和检索的关键节点。在检索时,并非所有信息都被赋予同等权重;检索通常发生在理解出现“缺口”或不确定性高的时刻(如事件边界),通常只有最匹配的一个记忆片段被有意识地提取,从而避免混淆。
![]()
▷图4. 大模型的RAG与语义记忆区别. 图源:[3]
上述差异限制了RAG作为大模型情景记忆的局限,也暗示了未来改进方向——例如引入事件分割、选择性检索、记忆更新和竞争机制等人类记忆的关键特性。这些改进不仅能提升模型的认知真实性,也可能增强其在现实任务中的性能。
![]()
增加情景记忆的大模型需要的基准任务
由于人类天生具有情景记忆,因此难以想象失去情景记忆是什么状态,这导致量化地评估硅基智能体在多大程度上具备情景记忆变得有挑战。我们无法借鉴像评估一个人是否患上老年痴呆一样,简单地评估智能体是否具有情景记忆。然而在机器学习领域,很多进步的源头,是由于存在一个基准任务,例如视觉领域ImageNet的图像分类。而图5对应的,正是这样一个可以评估情景记忆增强大语言模型(MA-LLM)的基准任务[3]。
![]()
▷图5. 考察大模型是否具有情景记忆的基准任务. 图源:[3]
该任务要求模型在编码阶段一次性学习大量新电视剧本(没有出现在训练数据集中),将这些剧本存储在外部的情景记忆数据库中。随后在任务阶段逐句接收某剧集的摘要,并在每句后自主决定是继续查看剧情摘要(“continue”)还是认为已经有了足够的背景信息,可以接管并用自己的话续复现对应剧集的剧情(“take over”)。
例如,当模型看到摘要“6个月后,艾尔德派恩战役结束……”“一个可怕的超自然威胁出现……”时,它必须判断:这些线索是否足以唯一指向外部记忆库中的剧集?是否存在混淆风险(因记忆库中存有大量情节相似的剧本)?是否应等待更多信息以避免错误回忆?评分机制是准确回忆未在摘要中出现的细节加分,回忆错误的细节减分,若大模型不接管续写则无分。
这一设计迫使系统发展出选择性检索策略——只在线索足够明确、存在相关记忆且收益大于风险时才调用情景记忆。该任务凸显了人类记忆的关键特性:连续输入下的自主决策、在存在不确定性(不完全信息无法定位对应的剧集)时进行判断、只看一遍即可学习,以及高干扰环境下的精准检索。当前多数RAG在标准问答的基准任务中无需应对这些挑战,而要考察MA-LLMs能否真正模拟人类情景记忆,必须在任务层面还原现实世界的不确定性、连续性和高风险性。在上述基准任务下,可比较普通的RAG系统和MA-LLMs的得分差异,用来评估新加入的改进,是否真的让大模型具有了情景记忆。
![]()
▷图6. MA-LLM用于预测记忆编码时和人脑活动的相似性。 图源:[3]
除此之外,还有另一种评估方法,即考察MA-LLMs能否解释人类大脑在处理自然语言时的神经活动模式(图6)。该方法首先让MA-LLM处理一段连续的自然语言叙事,在其处理过程中提取模型每一时刻的内部表征(即隐藏层嵌入);然后训练一个线性映射模型,将这些嵌入与人类被试在相同叙事下记录的fMRI脑活动(如海马体或默认模式网络的体素Voxels响应)关联起来;最后,用该映射预测未见过的脑数据,并比较MA-LLM与普通LLM(无外部记忆)的预测准确性。若MA-LLM在涉及记忆检索的关键时刻(如事件边界或回忆触发点)能显著更好地预测海马或皮层活动,则说明其记忆机制在功能上更接近人类。
上述评价方法,建立在大模型和人类在处理语言上具有相似性。然而人类的情景记忆,是一个涉及多个脑区(海马体,大脑皮层,杏仁核等)的复杂过程。图6描述的只是考察fMRI得到的粗粒度,或来自少数神经元的稀疏数据,即使MA-LLM的预测更准确,也难以支持MA-LLM能预测大脑在参与情景记忆时的特征这一过于泛化的结论。
![]()
有哪些给大模型加上情景记忆的尝试
在分析了大模型的情景记忆缺失问题以及相应的评估基准任务后,下面我们来关注解决方案的具体探索。在深入具体案例之前,我们先来看一个理想的情景记忆框架设计。
![]()
▷图7. 在大模型中加入情景记忆的方案框架. 图源:[2]
图7中描述的方法构建了一套独立于自注意力的外部记忆系统(如基于事件分割、竞争检索、可更新存储的架构)以及交互接口,以更真实地模拟人类情景记忆。
图中左侧是传统的大模型,负责语言生成、理解上下文、执行推理等核心任务。它拥有一个有限的上下文窗口,用于处理当前对话或任务的即时信息。
图中右侧是独立的情景记忆模块,它的设计体现了三个核心特征。
首先,每段切分后的记忆片段不仅仅包括对话文本,还包含丰富的元数据:时间标记记录事件发生的时间点或顺序;情感标记记录该次互动情感色彩(积极/消极),可影响后续的回忆优先级;以及语境信息如用户身份、对话主题、环境设定等。
其次,为了高效存储,多个相关的情景痕迹,会通过一个动态压缩算法(Dynamic Compression Algorithm),进行抽象和整合,形成层级化的抽象表征。
最后,该模块采用智能化的记忆管理机制——并非所有记忆都值得永久保留。该模块会根据时效性、情感强度和访问频率等因素,动态调整记忆的保留期限,从而避免记忆库无限膨胀。
基于上述设计,当模型接收到一个新的查询时,模型和记忆接口会主动从记忆模块中搜索相关的过往经验。例如,用户问:“你上次推荐的甜点怎么样?”接口会立刻检索出最近一次关于甜点的对话。而当模型在生成回复的过程中遇到不确定或需要背景信息时,接口还会被动触发检索。例如,模型在回答一个法律问题时,可能会触发接口去查找之前学习过的相关案例。
为确保检索的质量和可靠性,该系统还包含两个关键组件。首先是元学习组件,它通过持续学习来优化存取效率。具体而言,该组件会根据任务的表现和用户的反馈,动态调整记忆编码(如何存储新经验)和检索(如何找到最相关经验)的策略。其次是来源跟踪机制,它会给每一条从记忆模块中检索出来的信息打上“标签”,标明其来源是“亲身经历”还是“书本知识”。这样,在生成回复时,模型就能区分哪些是事实,哪些是基于自身经验的推断,从而大幅降低编造虚假信息的可能性。
目前上述框架仍停留在理论设计阶段,但研究者们已在不同方面展开了具体实践。目前已有三个代表性案例,它们分别从动态事件分割、对话时序建模和在线知识更新这三个不同角度,探索如何为大模型添加情景记忆的特征。
(1)EM-LLM的事件驱动记忆机制
![]()
▷图8. EM-LLM将静态的、固定长度的上下文窗口转变为动态的、基于事件的记忆系统。 图源:[4]
EM-LLM提出了一套创新的记忆形成与检索机制[4],如图8所示。其核心特点体现在两个方面:首先,在记忆形成阶段,输入序列是基于“意外度”(surprise)进行事件分割,而非像RAG那样进行固定长度的切分;其次,在检索阶段,系统会通过K-NN选择与当前查询最相似的事件,同时加入被检索事件的前后邻近事件,从而构成包含上下文的完整事件片段,确保时序连贯性。
作为一种即插即用的架构,EM-LLM可以在任何大模型中使用,可提升模型在信息检索任务上的表现,还可实现了对实际无限长度上下文的高效处理,同时保持计算效率。该方法除了根据意外度之外,还包含由相邻事件构建图,通过在构建的图中最大化模块度(Modularity)进一步优化事件边界,使事件内部的token更相似、事件之间更分离,这使得EM-LLM更接近人脑的连续事件分割。
(2)MADGF的多智能体数据生成框架
与EM-LLM主要聚焦事件对动态分割不同,多智能体数据生成框架Multi-Agent Data Generation Framework, MADGF)着重于构建训练数据[5]。该框架通过模拟人类角色与AI助手之间的多轮对话场景,生成富含情景记忆内容的训练数据集(EM-Train)。这些对话包括了完整的上下文信息,如对话角色的职业、年龄、对话事件的真实性以及对话发生的时间先后顺序等。
基于EM-Train数据集的微调,使大模型能够将实时时间信息整合到用户输入中,增强了时间感知能力。虽然该方法致力于解决大模型在对话中缺乏时序推理的问题,但这仅涵盖了情景记忆的部分特征,且需要模型微调,无法做到即插即用。
(3)AriGraph的图谱化记忆方案
![]()
▷图9. AriGraph中的情景记忆生成和构建。 图源:[6]
AriGraph采用类知识图谱的方式构建情景记忆,将记忆建模为情景顶点和情景边缘的组合[6]。当智能体与环境交互并接收到新的观察后,将当前的完整观察作为一个新的情景顶点添加到情景记忆中,之后使用大模型从观察中解析并提取相关的语义三元组(对象1, 关系, 对象2),用以创建新的情景边缘。这一步骤将具体的事件(观察)与其所包含的抽象知识(语义三元组)关联起来。而大模型决策过程中,当需要回忆特定细节时,检索模块首先进行语义搜索找到相关的语义三元组,然后利用情景边反向追溯,找到与这些三元组相关联的所有情景顶点。
相比其他方案,AriGraph的独特之处在于注重情景记忆与语义记忆之间的交互。系统通过将新发生的事件构建为知识图谱,在推理时情景记忆可提供丰富的上下文和细节,不仅用于补充和验证语义记忆,还支持智能体从结构化的语义知识回溯到具体的原始事件,这种双向映射机制显著增强了系统在复杂推理、规划和探索任务中的表现。
然而该方法也存在局限性——虽然能够有效提取上下文相关信息,但没有考虑情景记忆中时序关联特性。无论是上述的三种具体实现,都只是模仿了人脑情景记忆中多个特征中的一部分,目前还没有一种能够完全模仿人脑情景记忆的,如图7所示的那样完整解决方案。
![]()
小结
缺少情景记忆,让大模型即使知识丰富,只要超过了上下文长度,就如同患上阿尔茨海默。单纯追求模型规模和数据量,始终无法解决这些问题,造成了大模型在陪伴,教学等场景的应用上限。人脑能够拥有情景记忆,其源头可归因于智能的具身性,正是由于个人有身体,才得以活在时间里”、拥有“个人历史”。而当下让大模型拥有情景记忆的尝试,还都有着各自的不足。情景记忆作为解决大模型无法持续学习,幻觉,缺少个性等痛点的关键一环,文中图7给出的方案,只是一家之言,或许可借助神经科学中对记忆机制,用更加整合的机制来让大模型拥有情景记忆。
![]()
[1] Renoult, L., & Rugg, M. D. (2020). An historical perspective on Endel Tulving’s episodic-semantic distinction. Neuropsychologia, 139(107366), 107366. https://doi.org/10.1016/j.neuropsychologia.2020.107366
[2] Large Language Models need Episodic Memory https://inria.hal.science/hal-05202747/file/Large_Language_Models_need_Episodic_Memory.pdf
[3] Dong, C. V., Lu, Q., Norman, K. A., & Michelmann, S. (2025). Towards large language models with human-like episodic memory. Trends in Cognitive Sciences. https://doi.org/10.1016/j.tics.2025.06.016
[4] Fountas, Z., Benfeghoul, M. A., Oomerjee, A., Christopoulou, F., Lampouras, G., Bou-Ammar, H., & Wang, J. (2024). Human-like Episodic Memory for Infinite Context LLMs. ArXiv.org. https://arxiv.org/abs/2407.09450
[5] Liu, W., Zhang, R., Zhou, A., Gao, F., & Liu, J. (2025). Echo: A Large Language Model with Temporal Episodic Memory. ArXiv.org. https://arxiv.org/abs/2502.16090
[6] Anokhin, P., Semenov, N., Sorokin, A., Evseev, D., Kravchenko, A., Burtsev, M., & Burnaev, E. (2024). AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents. ArXiv.org. https://arxiv.org/abs/2407.04363
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
关于追问nextquestion
天桥脑科学研究院旗下科学媒体,旨在以科学追问为纽带,深入探究AI与人类智能相互融合与促进,不断探索科学的边界。欢迎评论区留言,或后台留言“社群”即可加入社群与我们互动。您也可以在后台提问,我们将基于追问知识库为你做出智能回复哦~
关于天桥脑科学研究院
天桥脑科学研究院(Tianqiao and Chrissy Chen Institute)是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一,围绕全球化、跨学科和青年科学家三大重点,支持脑科学研究,造福人类。
Chen Institute与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、AI与精神健康前沿实验室;与加州理工学院合作成立了加州理工天桥神经科学研究院。
Chen Institute建成了支持脑科学和AI领域研究的生态系统,项目遍布欧美、亚洲和大洋洲,包括、、、科研型临床医生奖励计划、、、大圆镜科普等。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.