AI智能体的记忆系统长期困在一个两难选择里:要么把所有信息塞进对话窗口,让模型"时刻在线"却容量有限;要么依赖向量数据库深度存储,却在关键时刻调不出来。开发者@akshay_pachaar提出的Hermes Agent用三层记忆架构给出了新答案——核心上下文压缩到2200字符,同时保留万级文档的秒级检索能力。
这套架构的底层逻辑是"分层服务"而非"大一统"。第一层由两个微型Markdown文件构成:MEMORY.md固定2200字符,存放项目规范、工具特性和经验总结;USER.md仅1375字符,记录用户姓名、沟通风格和技能水平。它们作为"冻结快照"在会话启动时注入系统提示,始终在线但体积极小。当MEMORY.md达到约80%容量时,智能体会自动执行合并与精简——相关条目融合、冗余信息剔除,只保留最密集的事实。这是一种施加在记忆上的自然选择压力:文件保持小巧,内容却随时间愈发精准。
![]()
第二层解决深度召回问题。SQLite配合FTS5全文索引存储所有历史对话,当智能体调用session_search时,系统能在1万篇以上文档中完成约10毫秒的匹配排序,再由大语言模型对头部结果摘要,最终返回简洁结论。这一层容量无上限,但需要主动触发搜索,与第一层的"被动常驻"形成互补。
第三层是8个可插拔的外部提供商,与上两层并行运行而非替代。其中包括Honcho(12层身份建模的辩证用户画像)、Holographic(本地优先的HRR向量方案,零外部调用)、Supermemory(上下文围栏机制防止同一事实无限重复存储)。当任一提供商激活时,Hermes执行自动同步:对话前预取、对话后同步、会话结束时提取语义。
三层架构在每轮对话中通过五步循环协同:会话开启时第一层已在提示中,第三层预取并前置;智能体综合三层上下文生成回复;约每300秒触发一次周期性提醒,智能体反思"是否有值得持久化的事件",有则写入、无则静默;记忆写入MEMORY.md磁盘,但因前缀缓存保持温热,当前会话不可见;会话结束时第二层记录完整对话,第三层提取语义,为下一轮做准备。
这套设计的突破在于承认了"记忆"本身的异质性:有些东西需要像本能一样即时可用,有些东西应当像图书馆一样按需检索,还有些东西适合外包给专业工具。2200字符的核心上下文不是妥协,而是一种约束下的进化机制——当容量成为稀缺资源,只有最高密度的信息才能存活下来。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.