英伟达联合多所顶尖机构推出的TTT-E2E记忆压缩方案,直接打破效率瓶颈。不用额外缓存,还能实现数倍提速,这波操作属实惊艳。
![]()
TTT-E2E的核心亮点就是摆脱额外缓存依赖,走动态学习路线。这和DeepSeek的Engram模块差异明显,后者靠的是按需查表的静态路径。
![]()
团队还设计了三项优化策略平衡效率与稳定性。迷你批处理加8K滑动窗口组合,解决单token梯度更新爆炸问题。精准更新仅针对部分网络块,减少计算成本。
![]()
![]()
![]()
这项技术已在视频生成领域落地应用。据澎湃新闻报道,研究人员利用TTT层增强预训练Transformer,微调后生成了60秒《猫和老鼠》动画片段。
![]()
TTT-E2E并非完美无缺,存在两处明显局限。大海捞针类精准回忆细节任务中,表现远不如全注意力模型。
核心原因是它会过滤看似无关的细节,而全注意力模型能近乎无损召回所有信息。另外训练阶段的元学习需计算梯度的梯度,实现速度比标准预训练慢。
![]()
教育领域也有尝试,把方案应用到在线题库解析中,能快速处理超长题干和解析内容,响应速度较之前缩短至三分之一。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.