网易首页 > 网易号 > 正文 申请入驻

AI记住失败经验:微软提出Re-TRAC框架,4B性能SOTA,30B超越358B

0
分享至



想象一下,你让 AI 助手结合搜索工具探索一个复杂问题。它第一次探索时走错了方向,但第二次、第三次,它依然重复同样的错误探索路径。虽然你可能可以从最终得到的多次探索结果中挑选出一个勉强满意的答案,但是这既低效,也需要人工干预。这就是当前大多数深度搜索智能体面临的困境——它们无法「记住」之前的探索经验,每次都是从头开始,导致大量冗余搜索和资源浪费。

现有的深度搜索智能体大多基于 ReAct 框架构建,采用线性推理方式:「思考→调用工具→观察→再思考」。这种设计在简单任务上表现良好,但在需要多轮探索的深度搜索任务中,往往陷入局部最优、重复探索和低效搜索的困境。

来自东南大学、微软亚洲研究院等机构的研究团队提出了一种全新的解决方案——Re-TRAC(REcursive TRAjectory Compression),这个框架让 AI 智能体能够「记住」每次探索的经验,在多个探索轨迹之间传递经验,实现渐进式的智能搜索。



  • 论文标题:RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents
  • 论文链接:
  • https://arxiv.org/abs/2602.02486
  • 项目链接:
  • https://github.com/microsoft/InfoAgent

让探索变成「渐进式学习」过程

为什么 ReAct 会失败?

ReAct 框架的核心问题在于其线性设计。每个探索轨迹都是独立的,模型无法回顾先前尝试的状态。在长上下文场景下,早期制定的计划逐渐被遗忘,关键线索被埋没。

研究团队通过深入分析发现,现有深度搜索模型即使经过大量强化学习训练,其 Pass@K 性能仍远高于 Pass@1。这意味着模型本身具备解决问题的推理能力潜能,问题在于受限于上下文长度限制,单次探索难以生成足够多样的探索路径,无法覆盖足够宽广的搜索空间。

Re-TRAC:递归式轨迹压缩

Re-TRAC 的核心思想是将探索从一系列独立尝试转变为渐进式学习过程。具体而言,在每个探索轨迹结束时生成一个结构化的状态表示,针对深度搜索任务,记录以下三个维度的信息:

  • 答案与分析结论:当前可能性最高的答案与其关键推理结果——为后续推理提供锚点。

  • 证据库与来源验证:已搜集到的证据及其来源,并标记哪些已被查阅、已被验证——避免冗余的工具调用和重复检查。

  • 不确定项与待探索方向:现阶段需要继续探索验证的角度、曾被遗漏的候选探索分支与曾因失败放弃的探索方向;帮助模型在下一轮中补全未探索的搜索空间。

这个结构化状态将被添加到下一轮探索的输入中,确保智能体在每轮新尝试开始时,都能清楚地了解什么已被验证、什么仍未解决,以及应该将探索重点放在哪里。



小模型也能「以小博大」

研究团队在五个具有挑战性的搜索导向基准上评估了 Re-TRAC:BrowseComp、BrowseComp-ZH、XBench、GAIA 和 HLE。



4B 模型性能 SOTA

RE-TRAC-4B 在所有小于 15B 参数的基线中表现最佳:

  • BrowseComp上达到 30.0% 的准确率;
  • BrowseComp-ZH上达到 36.1%;
  • GAIA上达到 70.4%;
  • XBench上达到 76.6%;
  • HLE上达到 22.2%。

更令人惊讶的是,这个仅 4B 参数的模型在多个基准上超越了更大规模的模型。

  • XBench基准上,RE-TRAC-4B 的 76.6% 准确率不仅远超 InfoAgent-14B 的 40.4%(提升了近 90%),也超过了 NestBrowse-4B 的 74.0%。

  • GAIA基准上,RE-TRAC-4B 的 70.4% 准确率超过了 AgentCPM-Explore-4B 的 63.9% 和 NestBrowse-4B 的 68.9%。

30B 模型的进一步突破

RE-TRAC-30B 同样表现出色,在除 HLE 外的所有基准上都击败了 MiniMAX-M2-229B。

  • BrowseComp上,其准确率达到 53%,甚至超过了 GLM-4.7-358B 的 52%。

  • GAIA上,RE-TRAC-30B 击败了所有闭源模型,在 BrowseComp 和 BrowseComp-ZH 上排名第二。

这些结果说明,通过轨迹压缩与跨轮次信息传递,小模型在资源受限场景下也能获得接近甚至超过更大模型的效果。

更少的消耗、更高的性能的通用拓展

Re-TRAC 不仅可以通过训练提升小模型性能,还可以作为无需训练的测试扩展直接应用于前沿模型。

研究团队在 o4-mini、o3、GPT-5、DeepSeek-V3.2、GLM-4.7 和 MiniMax-M2.1 上实现了 Re-TRAC 框架,并与多数投票(Majority Voting)、加权投票(Weighted Voting)和最佳选择(Best-of-N)等方法进行了对比。



结果显示,Re-TRAC 在所有模型上都达到了最佳或具有竞争力的性能。在 BrowseComp300 子集上:

  • o4-mini通过 Re-TRAC 从 25.7% 提升到 46.8%;
  • o3从 54.9% 提升到 69.8%;
  • GPT-5-medium从 48.3% 提升到 66.6%;
  • DeepSeek-V3.2从 45.3% 提升到 60.8%;
  • GLM-4.7从 37.7% 提升到 60.7%。

在传统框架中,由于轨迹相互独立,资源使用量通常随扩展近似线性增长。Re-TRAC 会继承之前轮次的状态,使搜索空间逐步收敛,从而减少冗余工具调用与重复探索,提升探索的效率。

技术细节:

如何训练 Re-TRAC 模型

研究团队开发了一种后训练方法,构建了基于结构化状态表示的监督微调(SFT)数据。训练数据通过实体树方法构建:从维基百科收集大量实体作为树根,然后递归搜索相关实体作为子节点,直到树达到预定义深度。

通过选择从根到叶节点的路径并将边转换为子问题,团队合成了 33K 个问答对。然后,收集 GLM-4.7 在这些合成问题上的 Re-TRAC(4 轮)轨迹,经过过滤后得到 104k 个训练样本,用于训练 RE-TRAC-4B 和 RE-TRAC-30B 模型。

实验结果显示,经过 SFT 训练后,Qwen3-4B-Instruct 在 BrowseComp 上的准确率从 2.7% 大幅提升到 30.0%,在 BrowseComp-ZH 上从 6.9% 提升到 36.1%,在 GAIA 上从 24.4% 提升到 70.4%,在 XBench 上从 45.0% 提升到 76.6%。

这表明通过简单的 SFT 训练,配合 Re-TRAC 框架,可以产生强大的搜索智能体,实现与通过大规模强化学习训练的模型相当甚至更好的性能。

总结:

优化 ReAct 的搜索框架,

让小模型跑出大模型表现

Re-TRAC 可以看作是针对深度搜索任务优化过的 ReAct 框架:在原有「思考→调用工具→观察→再思考」的范式上,引入了跨轮次的轨迹压缩和结构化状态表示,让智能体在开放网络检索、复杂信息汇总等场景中不再「从零开始」,而是像人一样复用既有证据、总结失败教训并规划未来方向。

更重要的是,这种有针对性的框架设计让小模型也能跑出大模型级别的效果,为资源受限场景(如边缘设备、本地部署)提供了一条「用小模型做大事」的现实路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
来俊臣的酷刑有多狠?曾有女犯哀求:只要不上刑,杀全族都行

来俊臣的酷刑有多狠?曾有女犯哀求:只要不上刑,杀全族都行

铭记历史呀
2026-03-09 15:28:19
克林顿:我一生对两件事倍感遗憾,一中国加入WTO,二我做错了

克林顿:我一生对两件事倍感遗憾,一中国加入WTO,二我做错了

近史谈
2026-03-24 19:08:48
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

阿凫爱吐槽
2026-03-25 15:24:29
匈牙利的“通俄门”代价很大:防泄密,欧盟把匈排除在敏感谈判外

匈牙利的“通俄门”代价很大:防泄密,欧盟把匈排除在敏感谈判外

深析古今
2026-03-25 05:54:08
霓虹暗黑界车大灯天花板:十位现役丰腴女老师,她们究竟有何魅力

霓虹暗黑界车大灯天花板:十位现役丰腴女老师,她们究竟有何魅力

碧波万览
2026-03-26 05:40:03
战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

子桑说
2026-03-25 17:27:05
这是清朝格格们的真实容貌,都看看吧,这不是演员扮演的

这是清朝格格们的真实容貌,都看看吧,这不是演员扮演的

圆梦的小老头
2026-03-24 13:38:33
章泽天看展带火春日穿搭叫“针织衫+弯刀裤”,配色清新很少女!

章泽天看展带火春日穿搭叫“针织衫+弯刀裤”,配色清新很少女!

明星私服穿搭daily
2026-03-26 09:44:53
55年授衔,当主席看到名单中有个熟悉的名字,大笔一挥:他不是少将

55年授衔,当主席看到名单中有个熟悉的名字,大笔一挥:他不是少将

睡前讲故事
2025-12-12 13:58:11
50℃高温锁住国运!电不够水没有,印度的未来,彻底没希望了?

50℃高温锁住国运!电不够水没有,印度的未来,彻底没希望了?

Hi科普啦
2026-03-25 14:57:31
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
清末民初:四川总督赵尔丰、冒着热气的小吃摊、末代状元刘春霖

清末民初:四川总督赵尔丰、冒着热气的小吃摊、末代状元刘春霖

历史小破站
2026-03-19 04:05:03
0.028%!无罪判决率跌至谷底,为何国际水平是我们的35倍?

0.028%!无罪判决率跌至谷底,为何国际水平是我们的35倍?

深析古今
2026-03-25 01:10:47
日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

沧海旅行家
2026-03-26 13:46:41
伊朗没想到,等来的不是美军地面部队,而是特朗普的和谈请求

伊朗没想到,等来的不是美军地面部队,而是特朗普的和谈请求

孟彦说
2026-03-26 13:07:44
为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

廖保平
2026-03-17 09:04:38
“只要决心够大,诺贝尔奖不在话下!”

“只要决心够大,诺贝尔奖不在话下!”

槽逻辑
2026-03-24 18:46:27
广汽集团,你疯了吗?

广汽集团,你疯了吗?

汽车K线
2026-03-26 09:20:19
冲突加剧,日本援兵赶到,中方直接封海四天,越南警告中国别造岛

冲突加剧,日本援兵赶到,中方直接封海四天,越南警告中国别造岛

云上乌托邦
2026-03-24 14:50:45
是否有中国船只顺利通过霍尔木兹海峡?外交部回应

是否有中国船只顺利通过霍尔木兹海峡?外交部回应

财联社
2026-03-25 15:46:15
2026-03-26 14:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
时尚
亲子
房产
公开课

数码要闻

Intel史上最先进!酷睿Ultra 300系列vPro平台发布

2026年了,最好看的还是“这件针织”!

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版