品玩1月13日讯,据 36氪报道,DeepSeek与北京大学合作发布新论文,由Liang Wenfeng等作者提出“Engram”模块,旨在解决Transformer缺乏原生知识检索能力的核心缺陷。该方法引入“条件记忆”稀疏轴,通过现代化哈希N-gram嵌入,实现近似O(1)时间复杂度的确定性知识查找。
Engram将语言建模中的静态模式(如固定搭配、实体名称)交由可扩展查表模块处理,使主干网络专注组合推理任务。在27B参数规模下,其在等参数、等计算量条件下优于MoE基线。
研究团队发现MoE与Engram之间存在“U型缩放律”,需平衡计算与静态记忆资源配比。该技术有望集成至下一代V4模型,为稀疏大模型开辟新路径。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.