网易首页 > 网易号 > 正文 申请入驻

突破Agent长程推理效率瓶颈!MIT&NUS联合推出强化学习新训练方法

0
分享至

MEM1团队 投稿
量子位 | 公众号 QbitAI

AI Agent正在被要求处理越来越多复杂的任务。

但当它要不停地查资料、跳页面、筛选信息时,显存狂飙、算力吃紧的问题就来了。

针对这一难题,MIT和新加坡国立大学联合提出了MEM1框架。实验结果显示,7B参数MEM1模型的推理速度能达到传统14B模型的3.5倍,同时峰值上下文token(peak token)数量约为后者1/4。

该框架提出了一种基于强化学习的推理方案,通过让智能体学会将记忆更新作为上下文的一部分,从而实现近似常量级的显存开销(near constant memory)。

目前相关论文已被大语言模型会议COLM 2025 Reasoning,Attention & Memory:RAM 2 workshop收录为口头报告(Oral),会议将于今年10月份在加拿大蒙特利尔举办。

MEM1:让AI学会自主整理思绪+管理工作记忆

想象一位科研工作者连续工作一周后的大脑——充斥着各种公式、实验数据和临时灵感,但真正用于解决问题的只是其中核心片段。

对于人来说,每过一段时间起身喝杯咖啡醒醒脑,可以整理思绪,但是对于AI agent来说,这就难了。

经典的大语言模型采用全上下文提示技术,每轮交互都完整附上所有历史记录。随着对话轮次增加,计算成本和内存需求都呈线性增长(O(N))

无限线性增长的上下文导致三个严重问题:

  • 无限增长的计算代价;
  • 超出训练长度的泛化失效;
  • 因信息过载导致的推理能力退化,即使相关信息仍在上下文中,模型也无法有效利用它们。

MEM1的核心创新在于通过训练的方式让模型自主将记忆与推理统一

不同于简单地添加外部记忆模块(如RAG类的方法),MEM1通过端到端强化学习训练代理,使其在每一步自动完成三个关键操作:

1、提取——从新观察中识别关键信息;
2、整合——将新信息与内部记忆状态融合;
3、修剪——丢弃冗余或无关内容。

通过这种训练方法,AI Agent仅需维护自己上下文中的一个(Internal State),这个

内部状态

包含之前上下文中所有模型自己认为需要保留的重要信息。

通过引入不会随交互轮次增加而膨胀

,模型的上下文

不仅如此,

的引入使得模型的推理过程与记忆整合可以有机地结合在一起,它不仅提供对当前查询的深度洞察,还充当“工作记忆”,从收集信息中提取关键组件构建下一步推理。

这种过程也十分符合人们自己整理思绪的过程:杂乱陈旧的记忆被遗忘,同时随着记忆被整合,下一步的工作重点也随之显现出来。

MEM1采用端到端的基于结果奖励(Outcome Reward)的强化学习训练方式,并引入一种特殊的注意力掩码机制(Attention Mask)

该机制限定Agent在生成下一步输出时只能关注到上一轮交互的内容,从而迫使其学会对历史信息进行高效压缩,同时提升推理与问题求解能力。

相对于传统的RL训练,MEM1在rollout期间引入了多个trajectories来训练compressed reasoning。为了提升训练效率,MEM1使用attention masking技巧将面向同一个任务的多个trajectories压缩成一个进行高效训练。

在推理阶段,MEM1 agent会在推理时由agent自主地不断整合自己的context。整合完之后,之前的memory会自动从context中移出,从而达到在长程环境交互任务下控制context长度的目的。

上图为MEM1(下)和现有推理模型(上)在长程任务上上下文占用的对比,可以看出现有推理模型上下文会随着轮次增加线性增长,但MEM1每一轮后将被压缩过的信息移出context使得上下文保持近似不变。

推理与信息整合的双重能力

经典的RL环境通常是为短交互设计,并不能很好的鼓励模型进行长期多轮的推理。大家比较熟知的多轮对话数据集,例如hotpot QA等通常也只需要模型进行两轮推理。

为了验证MEM1训练方法的效果,MEM1团队基于现有的数据集构造了一个高难度多目标问答任务的训练环境。团队基于以下不同领域的数据集构建了训练环境并进行训练:

1、Doc检索QA:模拟研究代理查阅内部文档;
2、开放域Web QA:真实网络环境信息获取;
3、多轮网购:WebShop平台的复杂决策链。

团队在2目标任务上训练MEM1 agent,然后在复杂的16目标任务上测试。

MEM1展现出了超越训练范围的强大泛化能力,在16目标任务上,MEM1准确率,上下文长度,推理速度三个维度上全方面超过比他更大的模型以及带有外部记忆模块的模型。

随后,研究团队对MEM1 agent的推理行为进行了定性分析,发现MEM1在处理多轮搜索推理任务时成功展现出了推理与信息整合的双重能力

记忆方面,MEM1展现出了分问题独立存储以及信息更新能力。在推理方面,MEM1能够掌握自适应的搜索策略,例如拆解子问题,调整关键词查询,以及任务规划等等。

MEM1为处理AI Agent长推理上下文这一重大挑战提供了一个非常有意思的思路。

当下工业界处理上下文仍是以接入外部记忆模块作为主流方法。但是这种做法通常需要很繁琐的工程,而且效果难以掌控。

随着AI Agent端到端强化学习范式的兴起,智能体记忆或许可以通过RL的方式让模型自己来处理。正如MEM1团队提到的:智能不是让AI记住一切,而是教会它自己决定应该如何记忆。

论文地址:https://arxiv.org/abs/2506.15841
代码地址:https://github.com/MIT-MI/MEM1
开源模型:https://huggingface.co/Mem-Lab/Qwen2.5-7B-RL-RAG-Q2-EM-Release

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
通用丰田等联名致函:敦促美国继续限制进口中国车

通用丰田等联名致函:敦促美国继续限制进口中国车

快科技
2026-03-24 11:18:08
离谱!火箭加时13-0遭逆转,杜兰特失误+关键罚球打铁,申京30分

离谱!火箭加时13-0遭逆转,杜兰特失误+关键罚球打铁,申京30分

老梁体育漫谈
2026-03-26 13:00:48
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
富人圈子里选儿媳铁律:美貌和文凭都是浮云,这3个品质缺一不可

富人圈子里选儿媳铁律:美貌和文凭都是浮云,这3个品质缺一不可

千秋文化
2026-02-15 20:12:48
德国人日常三餐曝光!6个习惯让人不去医院,国人看完沉默了?

德国人日常三餐曝光!6个习惯让人不去医院,国人看完沉默了?

路医生健康科普
2026-03-04 12:30:03
中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

带你感受人间冷暖
2026-03-23 00:02:19
英国发癫:中国风力涡轮机危险,不能用

英国发癫:中国风力涡轮机危险,不能用

观察者网
2026-03-26 12:09:10
纪录收割机!细数詹姆斯20个难以企及的历史最佳纪录

纪录收割机!细数詹姆斯20个难以企及的历史最佳纪录

麦子的篮球故事
2026-03-26 13:40:14
Altman发感谢信,16000名被裁程序员集体破防

Altman发感谢信,16000名被裁程序员集体破防

Ping值焦虑
2026-03-25 17:02:40
以色列要让全世界禁声?斩首俄罗斯记者,普京下令,撞枪口上了

以色列要让全世界禁声?斩首俄罗斯记者,普京下令,撞枪口上了

林子说事
2026-03-24 00:50:49
民政局离完婚,我拨通父亲电话:离婚了,父亲只说俩字:动手

民政局离完婚,我拨通父亲电话:离婚了,父亲只说俩字:动手

九哥哥车评
2026-03-26 09:04:16
1955年,韩先楚被列入中将名单,毛主席看后质问到:叫罗荣桓来

1955年,韩先楚被列入中将名单,毛主席看后质问到:叫罗荣桓来

思雨忆史录
2026-01-28 09:16:29
整容脸千万别祸害年代剧!《冬去春来》30岁章若楠和30岁林允对比

整容脸千万别祸害年代剧!《冬去春来》30岁章若楠和30岁林允对比

白面书誏
2026-03-25 00:55:20
赚麻了!深圳32座“最吸金”商场曝光,网友:第二名封神了!

赚麻了!深圳32座“最吸金”商场曝光,网友:第二名封神了!

深圳买房计划
2026-03-25 22:26:10
高铁直达!比起昆明和大理,我更爱这个被严重低估的云南小城!

高铁直达!比起昆明和大理,我更爱这个被严重低估的云南小城!

匿旅
2026-03-25 23:05:23
最近全网都在夸陈若琳长得好看,我真的想说:别光看脸啊

最近全网都在夸陈若琳长得好看,我真的想说:别光看脸啊

小光侃娱乐
2026-03-26 06:55:03
半裸coser玩大了?知名平台游戏频道突遭大清洗

半裸coser玩大了?知名平台游戏频道突遭大清洗

游民星空
2026-03-25 16:13:20
初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

娱乐圈笔娱君
2026-03-24 16:08:36
内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

老马拉车莫少装
2026-03-22 23:24:28
随着萨拉赫宣布离开利物浦,英超历史最佳阵容出炉!C罗+亨利在列

随着萨拉赫宣布离开利物浦,英超历史最佳阵容出炉!C罗+亨利在列

球场没跑道
2026-03-25 11:55:38
2026-03-26 14:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12346文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
亲子
房产
艺术
公开课

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

艺术要闻

哪一座桥不是风景?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版