赛博脑白金，能治好AI的失忆症吗？|算法|序列|上下文|新论文

分享至

小时候有个魔性广告，叫“今年过节不收礼，收礼只收脑白金”。

于是经历过那个年代的人，通常把“补脑”和“脑白金”绑定在了一起。至于这玩意儿到底有没有用？这我不好说。

20多年过去了，AI时代到来，我突然发现，现在的AI也开始吃“脑白金”了。

你有没有类似的经历。比如说跟某个AI聊到第30轮，它突然“失忆”了。你前面刚说过的需求，它转头就忘得一干二净。你用Claude写了一下午代码，第二天重新打开，它对昨天的任务毫无印象，你问它某个代码，它只能从头过一遍代码库再回答你。

整个AI行业，苦这个系统性“老年痴呆症”久矣。

于是，一个新兴产业诞生了。从外挂层、系统层、模型层给AI喂“赛博脑白金”。

比如在GitHub上已经有5万多颗星的Claude-Mem，还有DeepSeek DSA、阿里的Qwen3-Next这样的底层架构优化，整个产业都在疯狂给AI增加记忆力。

AI再聪明，记不住事儿也白搭。

那么2026年，到底都有哪些“赛博脑白金”在给AI补脑，它们各自的配方又是什么？

赛博脑白金产品图鉴

压缩式记忆管理是第一种思路，核心逻辑是把长篇大论变成“小作文”。

当然和咱们贴吧论坛看到的那些小作文肯定不一样了，这种“小作文”是给大模型看的，只有上下文中的关键信息。

这类产品不是扩大AI的记忆容量，而是让同样的空间装下更多东西。就像你整理行李箱一样，你把衣服揉成团，你可能只塞得下几件衣服，但你要是叠好了再放进去，就能塞很多衣服。

Claude-Mem是这个领域最火的产品。

这个项目在2025年底发布，到现在GitHub上已经有5万多颗星了。它专门为Claude Code设计，解决的就是记忆太短的问题。

Claude-Mem的做法很巧妙，它通过5个生命周期钩子自动捕获你和AI的所有对话，然后用AI本身来压缩这些信息。会话开始时加载轻量级索引，需要时再展开详细内容，模仿人类记忆的工作方式。

这种“渐进式披露”的设计很聪明。

你不需要一次性把所有历史对话都塞进上下文窗口，而是先看个目录，需要哪部分再调出来。

它这个做法就像我写文章讲故事，你不能一上来就把事情都说了，你得先说个时间线，多少多少年间，然后再说那个时间段发生的事。

类似的技术还有LongLLMLingua和Acon。

LongLLMLingua通过提示词压缩实现高达20倍的压缩率，特别适合那些只能通过API调用、看不到内部结构的黑盒模型。

Acon则更进一步，它在自然语言空间里做压缩优化，在AppWorld等基准测试中把内存使用降低了26%到54%，同时基本不影响任务表现。

这些工具本质上都在做同一件事，用更少的token说更多的话。

但压缩终究有极限，你再怎么压缩，到最后至少得保留基本信息。

这时候就需要第二种思路，外挂式记忆系统。

如果说压缩是“节流”，外挂记忆就是“开源”。这类系统不再试图把所有东西塞进AI的上下文窗口，而是在模型外部建立一个独立的记忆仓库。

需要的时候，AI可以主动去这个仓库里翻找相关信息。

Mem0是这个方向的代表作品。它采用动态提取、整合和检索的架构，把对话中的关键信息存储到外部数据库。

需要时通过语义相似度检索相关记忆。实验数据显示，Mem0在LOCOMO基准测试中比OpenAI的记忆系统提升了26%，同时响应时间降低91%, token使用量减少90%以上。

LOCOMO是目前较有代表性的长期对话记忆基准之一。

它包含单跳问题、时序问题、多跳问题和开放域问题四大类。单跳问题考验AI能否记住单个事实，多跳问题则要求AI综合多次对话中分散的信息。

Mem0在多跳问题上的F1分数达到28.64，J分数51.15，明显超过其他方案。

这说明它不只是能记住零散的事实，还能把这些事实串联起来。

更有意思的是MemGPT，不过它现在已经改叫Letta了。它的工作原理是把LLM视为操作系统，实现类似计算机虚拟内存的分层管理。

跟苹果Mac用的储存技术原理一样，当物理内存不够用时，系统会把暂时不用的数据挪到硬盘上，需要时再调回来。

MemGPT把这套逻辑搬到了AI记忆管理上。它通过显式的读写操作让模型自主管理内存，在工作记忆、短期记忆和长期记忆之间灵活调度。

这个设计的精妙之处在于，它不是人为规定什么该记什么该忘，而是让AI自己决定。AI可以调用函数把当前不重要的信息写入外部存储，也可以在需要时把旧记忆读回上下文窗口。

这种自主管理能力让AI的记忆系统跟我们是一样的。

我们也不是把所有经历都时刻记在脑子里，而是需要时才努力回忆。

还有Zep、Second Me、Cognee等一系列产品，它们各有特色但殊途同归，都是在模型的固定上下文窗口之外构建可扩展的外部记忆层。

第三种思路叫做软提示编码。

这种方法不存储文本，而是把提示词编码成连续的可训练嵌入或键值对。像是500xCompressor这样的架构，能通过软提示编码实现了高达480倍的压缩率。

这个技术的本质是给AI发明一套“暗号”。就像“今晚老地方”这句话一样，这是只有你和你朋友之间才懂的梗，一个眼神、一个词就能想到一块去。

软提示编码也是这样，用几个特殊token就能让模型回想起大段内容。这些特殊token在人类看来毫无意义，但对模型来说，它们是高度浓缩的信息载体。

这种方法的压缩率远超前两种，但也有明显的局限。

这些编码后的“暗号”只对训练过的特定模型有效，换个模型就不认识了。而且编码过程需要额外的训练成本，不像前两种方法那样即插即用。所以软提示编码更适合那些长期使用同一个模型、对压缩率要求极高的场景。

这三种外挂式的解决方案各有千秋。

压缩式记忆管理实现简单，成本低，但压缩率有上限。外挂式记忆系统容量几乎无限，但需要额外的数据库和检索机制。软提示编码压缩率最高，但灵活性最差。实际应用中，很多产品会把这几种方法结合起来，在不同场景下选择最合适的策略。

但这些终究是“打补丁”。它们在模型外部做文章，没有触及问题的根源。真正的突破，需要从模型架构本身下手。

从架构层面动刀子

前面说的那些方案，它们能缓解记忆问题，却无法根治。因为问题的根源在Transformer架构本身是有缺陷的，注意力机制的计算复杂度是序列长度的平方。上下文窗口每扩大一倍，计算成本就翻四倍。

这不是工程优化能解决的，需要从数学原理上重新设计。

DeepSeek Sparse Attention（DSA）是这个方向的代表性突破。

DSA在2025年随DeepSeek-V3.2-Exp一起发布，核心思想是“不是所有token都需要互相看”。传统的全量注意力机制里，每个token都要和序列中的所有其他token计算注意力分数。

这在短序列里没问题，但当上下文窗口扩展到几十万token时，计算量就变得不可接受了。

DSA采用两阶段设计：先用一个轻量级的“索引器”快速评估哪些token最相关，然后只对这些精选出来的token做完整的注意力计算。

核心注意力计算从对所有token做精算，变成只对top-k候选做精算；索引器仍要扫描候选历史，但用更轻量的低维/低精度方式降低成本。

关键在于，这种稀疏化是动态的、基于内容的。不像有些方法只看固定窗口内的token或随机采样，DSA会根据实际内容决定哪些token重要。

说白了，就是让AI先快速扫一遍所有内容，找出跟当前问题最相关的那些部分，然后只仔细看这些重点。就像你看书找资料一样，你不可能逐字逐句读，你会先翻目录和关键词，定位到相关章节再去仔细阅读。

这让它在大幅降低计算量的同时，几乎不损失模型性能。在各种推理任务和智能体环境的测试中，DSA的表现和全量注意力基本持平。

另一个重要方向是混合注意力架构。

这个思路认为，不是所有层都需要昂贵的全量注意力。大部分层可以用更便宜的线性注意力或状态空间模型，只在关键位置保留全量注意力。

阿里的Qwen3-Next在2025年9月发布，核心是Hybrid Attention机制。它用Gated DeltaNet加Gated Attention替代传统全量注意力，原生支持256K上下文，理论上可扩展到100万token。

Gated DeltaNet是一种线性注意力变体，计算复杂度从平方降到线性。但纯粹的线性注意力在某些任务上表现不如全量注意力，所以Qwen3-Next采用3:1的混合比例。每3层用Gated DeltaNet，1层用Gated Attention。

这个设计很聪明。

线性注意力层负责处理大部分的上下文信息，成本低但能力稍弱。全量注意力层则在关键位置做精细的全局建模，成本高但效果好。两者配合，既保证了性能，又大幅降低了计算开销。

官方数据显示，Qwen3-Next-80B-A3B-Base相比Qwen3-32B-Base，在超过32K上下文时有10倍推理吞吐优势。

月之暗面的Kimi Linear，采用Kimi Delta Attention加全局MLA，也是3:1比例的混合架构。

Kimi Delta Attention本质上是对Gated DeltaNet的改进。在100万token场景下，KV cache最多减少75%，解码吞吐最高提升6倍。

这些混合架构的共同点是，他们都把长上下文处理从“每个token都互相看一遍”改成“多数层用更便宜的记忆状态，少数层保留全局注意力”。

换个说法，你开车得用导航吧？

大部分时间你只需要看着前方道路和路标往前走，这是“便宜的记忆状态”。但到了复杂路口，有行人、有电摩托车、可能还有刚才发生追尾的事故车，这时候你就得抬头看整个路况、回忆来时的路、判断该往哪拐，因此你需要“全局注意力”。

不是每一秒都要动用全部脑力，而是只在关键节点才全力思考。

这不是简单的性能妥协，这是在对注意力机制本质进行重新思考。AI并不需要时刻记住所有细节，只需要在关键决策点做全局审视。

然而当下最流行的玩法，还得是硬件与算法协同优化。

再好的算法，如果硬件跟不上，也发挥不出全部威力。英伟达在GTC 2026上发布的BlueField-4 CMX平台就是这个方向最具代表性的产品。

这是一个专门为“百万级token上下文”时代设计的上下文记忆存储平台。

传统GPU的显存带宽虽然高，但容量有限。当上下文窗口扩展到几十万甚至上百万token时，KV cache的大小会超过单张GPU的显存容量。BlueField-4 CMX通过专用的内存扩展硬件，在保持高带宽的同时大幅扩展容量。

它采用分层存储架构，把热数据放在GPU显存，温数据放在扩展内存，冷数据放在系统内存或SSD，通过智能调度实现大容量支持。

好比说GPU显存是你的工作台，它空间有限。

BlueField-4 CMX就相当于在这个工作台旁边加了个置物架，常用的工具放台面，偶尔用的放第一层架子，不常用的放更远的柜子。

需要时系统自动帮你把东西拿过来，你感觉不到区别，但实际上能放的东西多了几十倍。

像亚马逊的Trainium芯片，谷歌的TPU，现在AI芯片的开发商，都会和大模型厂商共同研发下一代芯片，其原因就在于能让芯片专业对口，满足模型的各项需求，进而达到更好的训练以及推理效果。

记忆，AGI最后一块拼图

当前的AI记忆系统缺乏人类记忆的关键特征。

人类记忆有遗忘机制，不重要的细节会自然淡化。人类记忆有巩固过程，重要的经历会在睡眠中被强化。人类记忆有学习能力，相似的经验会被归纳成模式。人类记忆有压缩策略，我们不记得每顿饭吃了什么，但记得那次特别的生日宴会。

AI的记忆系统没有这些玩意。

所有记忆都是“平的”，3个月前的随口一句话和昨天的重要决定被同等对待。

没有轻重缓急，没有遗忘更新，没有主动整理。

结果就是记忆越多，上下文反而越混乱。就像一个从不整理的仓库，堆的东西越多，越难找到需要的那一件。

奥特曼在2025年的采访中提到记忆是通往AGI很重要的一个板块，而这个判断也正在成为硅谷的新共识。

真正的智能不仅需要理解当下，更需要从过往经验中学习和积累。一个每天都“失忆”的AI，无论单次对话多么聪明，也很难称得上真正的智能。

人类之所以聪明，很大程度上归功于记忆系统本身的运作机制。

我们能区分短期记忆和长期记忆，能根据情感强度和重要性为记忆打上不同标签，能在需要时快速检索相关经验，也能主动遗忘不重要的细节。

这套复杂的记忆机制，是几亿年进化的结果。AI想要达到人类水平的智能，至少也需要类似复杂度的记忆系统。

从技术路径来看，未来可能会出现多种方案的融合。

应用层的外挂记忆系统提供灵活性和可控性，你可以随时查看AI记住了什么，也可以手动删除或添加记忆。架构层的优化提供效率和性能，让AI能够原生处理更长的上下文，不需要复杂的外部系统。认知科学启发的记忆机制设计则提供智能性，让AI知道什么该记，什么该忘，什么该巩固，什么该压缩。

这跟我们人类大脑是一样的。我们同时拥有海马体、前额叶皮层、杏仁核等多个记忆相关区域，它们分工合作，共同构成了完整的记忆系统。

海马体负责形成新记忆，前额叶皮层负责工作记忆和决策，杏仁核负责情绪记忆。未来的AI系统也可能需要多层次、多模态的记忆架构。

有些记忆需要快速访问，就放在类似工作记忆的地方。

有些记忆需要长期保存，就存入类似长期记忆的仓库。

有些记忆需要情感标签，就加上重要性权重。

有些记忆需要定期巩固，就设计主动回顾机制。这些不同类型的记忆，需要不同的存储和检索策略。

现在关于AI记忆的研究，还处于早期阶段。大部分方案都在解决“如何记住更多”的问题，很少考虑“如何聪明地遗忘”。

但遗忘和记忆一样重要。一个记住所有细节的系统，未必比一个知道什么该记什么该忘的系统更智能。人类大脑每天都在主动遗忘，这不是缺陷，这是优秀的物种特性。

未来的AI记忆系统，可能需要学会遗忘。不是简单的删除旧数据，而是智能的信息衰减和压缩。不重要的细节逐渐模糊，但核心要点保留下来。

就像你记得童年的某个夏天很快乐，但不记得那天具体吃了什么、具体玩了哪款游戏。

这种有损压缩，反而让记忆更有价值。

赛博脑白金们的使命，就是在AGI到来之前，先帮AI把“记性”补上来。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

赛博脑白金，能治好AI的失忆症吗？

手机无死角上网？亚马逊砸百亿硬刚马斯克

浙江61岁男子持长矛杀邻居后自首 被判死刑立即执行

浙江61岁男子持长矛杀邻居后自首 被判死刑立即执行

三球准绝杀戴大金链：轰30+10自我救赎

曾志伟办73岁生日派对，逾百艺人到场

业绩失速的Lululemon:"健康"人设崩塌?

海豹08内饰首秀 大满配“海王”旗舰

态度原创

重磅调规！341亩商改住+中小学用地！宝龙城这把稳了？

简而不减 暖居之道

一直以为不给他玩、不给他吃不健康的东西是为他好

干细胞抗衰4大误区,90%的人都中招

万斯：对当前美伊局势进展“感到乐观”

浙江61岁男子持长矛杀邻居后自首被判死刑立即执行

浙江61岁男子持长矛杀邻居后自首被判死刑立即执行

海豹08内饰首秀大满配“海王”旗舰

简而不减暖居之道