网易首页 > 网易号 > 正文 申请入驻

Titans + MIRAS:让AI拥有长期记忆能力

0
分享至


我们推出了Titans架构和MIRAS框架,这些技术能让AI模型在运行时更新核心记忆,从而实现更快的处理速度并处理大规模上下文内容。

Transformer架构通过引入注意力机制彻底改变了序列建模,该机制允许模型回顾早期输入以优先处理相关的输入数据。然而,计算成本随序列长度急剧增加,这限制了基于Transformer的模型扩展到极长上下文的能力,比如完整文档理解或基因组分析所需的上下文。

研究社区探索了各种解决方案,例如高效的线性循环神经网络(RNN)和状态空间模型(SSM),如Mamba-2。这些模型通过将上下文压缩到固定大小来提供快速的线性扩展。然而,这种固定大小的压缩无法充分捕获超长序列中的丰富信息。

在两篇新论文Titans和MIRAS中,我们介绍了一种架构和理论蓝图,它结合了RNN的速度和Transformer的准确性。Titans是具体的架构(工具),MIRAS是推广这些方法的理论框架(蓝图)。它们共同推进了测试时记忆化的概念,即AI模型在运行时通过融入更强大的"惊喜"指标(即意外信息片段)来维持长期记忆的能力,无需专门的离线重训练。

MIRAS框架以Titans为例,引入了向实时适应的重要转变。该架构不是将信息压缩到静态状态,而是在数据流入时主动学习和更新自身参数。这一关键机制使模型能够即时将新的具体细节纳入其核心知识。

有效的学习系统需要独特而相互连接的记忆模块

有效的学习系统需要独特而相互连接的记忆模块,这反映了人类大脑对短期和长期记忆的分离。

虽然注意力机制在精确的短期记忆方面表现出色,但Titans引入了一个新颖的神经长期记忆模块,与传统RNN中的固定大小向量或矩阵记忆不同,它作为一个深度神经网络(具体来说,是一个多层感知器)。这个记忆模块提供了显著更高的表达能力,允许模型在不丢失重要上下文的情况下总结大量信息。模型不仅仅是做笔记,而是理解和综合整个故事。

至关重要的是,Titans不只是被动地存储数据。它主动学习如何识别和保留连接整个输入中Token的重要关系和概念主题。这种能力的一个关键方面是我们称之为"惊喜指标"的东西。在人类心理学中,我们知道我们会快速且容易地忘记常规、预期的事件,但会记住打破模式的事情——意外的、令人惊讶的或高度情感化的事件。

在Titans的上下文中,"惊喜指标"是模型检测当前记忆的内容与新输入告诉它的内容之间的巨大差异。

模型使用这个内部错误信号(梯度)作为数学上等价于说"这是意外的和重要的!"这允许Titans架构仅用最新颖和打破上下文的信息选择性地更新其长期记忆,保持整个过程的快速和高效。

Titans通过融入两个关键元素来完善这一机制:

序列建模中的每一个重大突破——从现代Transformer到新的超高速线性RNN——本质上都是同一回事:一个高度复杂的联想记忆模块。

相应地,MIRAS的独特性和实用性在于它看待AI建模的方式。它不是看到多样化的架构,而是看到解决同一问题的不同方法:有效地将新信息与旧记忆结合,而不让基本概念被遗忘。

MIRAS通过四个关键设计选择定义序列模型:

几乎所有成功的现有序列模型都依赖均方误差(MSE)或点积相似性来实现其偏差和保留。这种依赖可能使模型对异常值敏感,并限制其表达能力。

MIRAS通过提供一个生成框架来超越这种限制,探索一个由优化和统计学文献指导的更丰富的设计空间。这允许创建具有非欧几里得目标和正则化的新颖架构。

使用MIRAS,我们创建了三个具体的无注意力模型:

我们严格比较了Titans以及MIRAS变体(YAAD、MONETA、MEMORA)与领先架构,包括Transformer++、Mamba-2和Gated DeltaNet。我们通过在基因组建模(DNA)和时间序列预测上测试Titans,进一步验证了其多功能性,证明该架构在文本之外有效地泛化。

在标准语言建模数据集(C4、WikiText)和零样本推理任务(HellaSwag、PIQA)中,我们的模型始终表现出更高的准确性和困惑度(衡量大语言模型在查看一段文本时的惊讶程度)。

消融研究清楚地表明,记忆架构的深度至关重要。当比较相同大小但不同深度的长期记忆模块时,具有更深记忆的模块在语言建模中始终实现更低的困惑度。此外,它们表现出更好的扩展特性,随着序列长度显著增加时保持性能。

在语言建模和常识推理任务中,Titans架构优于最先进的线性循环模型(如Mamba-2和Gated DeltaNet)和可比较大小的Transformer++基线。新颖的MIRAS变体(MONETA、YAAD、MEMORA)与这些基线相比也实现了改进的性能,验证了探索鲁棒的非MSE优化机制的益处。重要的是,这些模型保持了高效的可并行化训练和快速的线性推理速度。

这些新架构最显著的优势是它们处理超长上下文的能力。这在BABILong基准测试中得到了突出体现,该任务需要对分布在超长文档中的事实进行推理。在这种具有挑战性的设置中,Titans优于所有基线,包括像GPT-4这样的超大型模型,尽管参数要少得多。Titans进一步证明了有效扩展到超过200万Token的上下文窗口大小的能力。

Titans和MIRAS框架的引入标志着序列建模的重大进步。通过采用深度神经网络作为学会在数据流入时记忆的记忆模块,这些方法克服了固定大小循环状态的限制。此外,MIRAS提供了强大的理论统一,揭示了在线优化、联想记忆和架构设计之间的联系。通过超越标准的欧几里得范式,这项研究为新一代序列模型打开了大门,这些模型结合了RNN的效率和长上下文AI时代所需的表达能力。

Q&A

Q1:Titans是什么,它有什么特别的能力?

A:Titans是一种新型AI架构,能够在运行时更新核心记忆,实现更快的处理速度并处理大规模上下文内容。它的特别能力是结合了RNN的速度和Transformer的准确性,可以有效处理超长上下文,例如完整文档理解或基因组分析。

Q2:什么是"惊喜指标",它在Titans中如何工作?

A:"惊喜指标"是Titans检测当前记忆内容与新输入信息之间巨大差异的机制。类似人类容易忘记常规事件但记住意外事件的特点,Titans使用这个内部错误信号来识别"意外且重要"的信息,只用最新颖和打破上下文的信息来更新长期记忆。

Q3:Titans相比传统模型有什么优势?

A:Titans最显著的优势是处理超长上下文的能力。在BABILong基准测试中,Titans优于所有基线,包括GPT-4等超大型模型,尽管参数更少。它能有效扩展到超过200万Token的上下文窗口,同时保持高效的可并行化训练和快速的线性推理速度。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金银惊魂72小时!给我们投资者哪些启发?

金银惊魂72小时!给我们投资者哪些启发?

雪球
2026-02-03 21:32:28
精神病不够,正常人来凑!襄阳精神病院成国内园区,产业链被曝光

精神病不够,正常人来凑!襄阳精神病院成国内园区,产业链被曝光

垛垛糖
2026-02-04 10:52:50
阿尔卡拉斯澳网夺冠很幸运?纳达尔叔叔:对手不够强

阿尔卡拉斯澳网夺冠很幸运?纳达尔叔叔:对手不够强

体育妞世界
2026-02-05 09:30:13
胡春华发表署名文章

胡春华发表署名文章

社评
2025-10-31 10:11:37
周星驰《女足》不上春节档,拍摄现场简陋,烂过《新喜剧之王》

周星驰《女足》不上春节档,拍摄现场简陋,烂过《新喜剧之王》

光影新天地
2026-02-02 21:24:56
最新!广州11区房价出炉!这7个区暴跌!

最新!广州11区房价出炉!这7个区暴跌!

羊城攻略
2026-02-04 21:36:03
黄晓明在人民日报发文

黄晓明在人民日报发文

新京报政事儿
2026-02-05 07:46:28
为什么世界上没有一个面积在300~700万平方公里的国家?

为什么世界上没有一个面积在300~700万平方公里的国家?

孤云朗境
2026-02-04 23:52:06
20 岁女子与 40 岁钓鱼男多次开房,两人却辩称:只是师徒关系

20 岁女子与 40 岁钓鱼男多次开房,两人却辩称:只是师徒关系

没有偏旁的常庆
2026-01-05 06:15:03
墙倒众人推!人民网怒斥、保姆举报,51岁的何炅还是走到了这一步

墙倒众人推!人民网怒斥、保姆举报,51岁的何炅还是走到了这一步

深析古今
2026-02-02 11:28:53
1966年言慧珠家中自尽,留下的11岁儿子言清卿惨遭继父与保姆虐待

1966年言慧珠家中自尽,留下的11岁儿子言清卿惨遭继父与保姆虐待

鉴史录
2026-02-02 22:00:19
大快人心!乌情报总局官宣:俄军战犯佐托夫被击毙,血债终须血偿

大快人心!乌情报总局官宣:俄军战犯佐托夫被击毙,血债终须血偿

老马拉车莫少装
2026-02-03 23:23:30
太意外了!苹果突然发布 iOS 26.3 新系统

太意外了!苹果突然发布 iOS 26.3 新系统

XCiOS俱乐部
2026-02-05 09:02:13
安徽美女干部吴晓梅被查,深耕基层21年分管拆迁

安徽美女干部吴晓梅被查,深耕基层21年分管拆迁

李橑在北漂
2026-02-05 07:01:56
国共会面成功,达成15条共同意见,郑丽文说出心里话,只有5个字

国共会面成功,达成15条共同意见,郑丽文说出心里话,只有5个字

墨兰史书
2026-02-04 18:57:26
越南披露中越战争内幕,坦言中国若迟撤军五日,谅山主力将被全歼

越南披露中越战争内幕,坦言中国若迟撤军五日,谅山主力将被全歼

磊子讲史
2026-02-04 12:02:50
大S雕像仪式刚结束,葛斯齐深夜爆其猛料,许雅钧表现逆转口碑!

大S雕像仪式刚结束,葛斯齐深夜爆其猛料,许雅钧表现逆转口碑!

古希腊掌管月桂的神
2026-02-03 10:20:14
蔡英文可能回锅参选吗?蓝营议员:萧美琴接棒可能性极高

蔡英文可能回锅参选吗?蓝营议员:萧美琴接棒可能性极高

海峡导报社
2026-02-04 10:02:02
挪威王储妃在爱泼斯坦别墅中的照片曝光,金融家对她“垂涎三尺”

挪威王储妃在爱泼斯坦别墅中的照片曝光,金融家对她“垂涎三尺”

译言
2026-02-05 06:00:33
随着C罗的事情越闹越大,大胆猜测他可能的下家和最后的结局!

随着C罗的事情越闹越大,大胆猜测他可能的下家和最后的结局!

田先生篮球
2026-02-04 08:59:34
2026-02-05 11:15:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15916文章数 49689关注度
往期回顾 全部

科技要闻

微信给马化腾浇了“一盆冷水”

头条要闻

媒体:高市想让自卫队介入台海 是对解放军缺乏了解

头条要闻

媒体:高市想让自卫队介入台海 是对解放军缺乏了解

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

谢娜明年开演唱会:带老歌出来见见人

财经要闻

黄金,出现拐点

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

房产
时尚
旅游
家居
手机

房产要闻

还在涨!成交量连飙四个月 海口二手房开始稳了!

2026春夏八大流行趋势,早穿早美!

旅游要闻

北京将推动中轴线旅游服务提升

家居要闻

简雅序章 自然且闲适

手机要闻

35款2025年美国上市手机评测,苹果iPhone 17 Pro Max成续航之王

无障碍浏览 进入关怀版