网易首页 > 网易号 > 正文 申请入驻

经验记忆黑科技:LightSearcher让AI工具调用减39.6%推理快48.6%

0
分享至



如今,以 DeepSeek-R1 为代表的深度思考大模型能够处理复杂的推理任务,而DeepSearch 作为深度思考大模型的核心搜索器,在推理过程中通过迭代调用外部搜索工具,访问参数边界之外的最新、领域特定知识,从而提升推理的深度和事实可靠性。

然而,现有的 RL 驱动的深度思考大模型系统常常面临准确率与效率的「跷跷板」困境:频繁调用搜索工具提升准确性,却带来计算开销和效率低下。具体而言,高频调用外部搜索工具虽能补充实时信息、提升推理准确率,但使得推理延迟大幅升高,等待时间可达几十秒至几分钟。从用户体验角度来看,若信息加载时间超过 10 秒,50% 的移动用户会放弃访问

北邮百家 AI 团队提出 LightSearcher 框架,首创基于经验记忆的高效 RL 优化技术,通过引入文本化经验记忆和自适应奖励塑造机制,巧妙解决了这一痛点。

在保持与 SOTA 基线 ReSearch 相当准确率的同时,搜索工具调用和模型回复时间显著缩短,搜索工具调用次数减少 39.6%,推理时间缩短 48.6%,Token 消耗降低 21.2%,在保持模型效果的同时显著提升了工具调用效率。



  • 论文标题:LightSearcher: Efficient DeepSearch via Experiential Memory
  • 论文链接:https://arxiv.org/abs/2512.06653
  • 百家 AI 主页:https://baijia.online/homepage/index

引言

如何教会深度思考大模型策略性地控制搜索工具的使用,优化何时以及如何查询外部知识源,是深度思考大模型亟待解决的问题。现有方法存在以下显著缺陷:

  1. 提示工程或监督学习方法依赖人工标注,成本高且泛化差;RL 驱动方法虽能自主优化,但奖励偏重准确性,导致模型为确保正确而频繁调用工具,造成冗余开销;
  2. 工具调用「过度依赖」,现有模型往往不分难易,对简单查询也反复检索,导致推理时间延长、token 消耗激增;
  3. 准确性与效率失衡,部分方法虽提升准确率,但牺牲效率;另一些虽减少调用,却降低答案质量,无法兼顾双重目标。

这些问题导致现有模型要么答案不准、可靠性差,要么工具调用过多、效率低下,难以同时满足推理准确和高效执行的核心需求。

LightSearcher 框架

为解决上述缺陷,北邮百家 AI 团队提出基于经验记忆的高效 DeepSearch 框架(LightSearcher),核心思路是在大模型强化推理过程中,通过「对比经验学习」将隐性推理轨迹转化为显性指导经验,并结合自适应奖励优化工具调用,具体包含三大关键组件:

  1. 对比经验推理机制(Contrastive Experiential Reasoning):收集高低质量推理轨迹,通过 LLM 生成成功模式的自然语言总结(如「简单查询优先用内部知识」),构建动态经验记忆库;
  2. 自适应奖励塑造机制(Adaptive Reward Shaping):引入最小工具调用基准,仅在答案正确时惩罚冗余调用,使用指数衰减函数动态平衡准确性和效率,避免盲目优化;
  3. 基于经验的 RL 训练机制:采用 GRPO 算法,将积累经验和少样本示例融入提示模板,指导模型生成高效轨迹,确保探索与利用的均衡。



模型最终优化目标为多目标奖励函数的加权和,确保工具调用精简与答案质量的协同提升。

实验

研究团队在四个多跳 QA 基准数据集(NQ、HotpotQA、Musique、2WikiMultihopQA)上进行了全面评估,对比了多种主流 DeepSearch 方法。

3.1 主实验结果



实验结果显示:

  • 模型准确性保持顶尖:LightSearcher 在 F1 分数和 LLM 评判上与 SOTA 基线 ReSearch 相当,甚至在部分数据集上优于 ReSearch;
  • 效率显著提升:工具调用减少 39.6%,推理时间缩短 48.6%,token 消耗降低 21.2%;
  • 泛化能力强:在不同难度的查询(易 / 难)上均表现稳定,即使在域外测试集也能超越依赖固定检索的迭代方法。

3.2 消融实验

移除经验导致 F1 下降 7.2%,证明其核心作用。



LightSearcher 框架通过「经验记忆」这一核心理念,为构建高效、可靠的深度推理系统提供了新路径。尽管目前限于多跳 QA,未来可扩展到代码合成、策略规划等领域。论文成功解决了现有 DeepSearch 的关键痛点:

  • 从隐性到显性:将对比轨迹转化为可解释的推理指导
  • 精准平衡:通过自适应奖励确保工具调用最小化
  • 效率优先:利用 RL 训练维持准确与开销的连贯性
  • 双重优化:同时提升推理质量和执行效率,而非顾此失彼

最后,大模型的 DeepSearch 能力需设计有效的经验机制。相比于复杂的手动标注,LightSearcher 通过其「对比经验」的设计思想,在推理过程依赖可靠的外部知识调用,为构建更加高效、可靠的 AI 深度思考系统提供了重要的技术路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

谢说篮球
2026-03-26 16:45:05
第81轮反击来了!飞弹直击以军集结地

第81轮反击来了!飞弹直击以军集结地

星火聊天下
2026-03-26 07:27:33
张雪峰追悼会周六将在苏州殡仪馆举行

张雪峰追悼会周六将在苏州殡仪馆举行

界面新闻
2026-03-26 07:04:27
邓超孙俪正式解绑:16年婚姻,各自安好

邓超孙俪正式解绑:16年婚姻,各自安好

LULU生活家
2026-03-26 14:50:15
流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

澎湃新闻
2026-03-26 07:06:31
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
张雪峰生前日常:1份饭6个菜,日均睡眠不足4小时,最后露面疲惫

张雪峰生前日常:1份饭6个菜,日均睡眠不足4小时,最后露面疲惫

洲洲影视娱评
2026-03-25 13:16:24
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
张雪峰去世后续!公司现状曝光,门上对联被拆下,葬礼低调举行

张雪峰去世后续!公司现状曝光,门上对联被拆下,葬礼低调举行

180视角
2026-03-25 10:17:11
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
姐弟恋、吃软饭,把关之琳收入囊中的香港首席男模,如今怎样了?

姐弟恋、吃软饭,把关之琳收入囊中的香港首席男模,如今怎样了?

小樾说历史
2026-03-26 11:30:53
心眼坏的人,最爱问这3件事,别傻乎乎全说!

心眼坏的人,最爱问这3件事,别傻乎乎全说!

唯晨说
2026-03-25 13:12:14
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

千秋文化
2026-01-29 21:22:16
4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

小舟谈历史
2026-03-19 17:27:44
血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

消化石医生
2026-03-26 12:52:28
2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

复转这些年
2026-03-26 09:26:17
昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

都市快报橙柿互动
2026-03-26 08:00:05
张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

谈史论天地
2026-03-26 07:45:53
2026-03-26 16:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
游戏
健康
房产
公开课

亲子要闻

妈妈是时尚小达人爸爸是朴素老模范!我要当爸爸的专属赞助人

商业互吹or真心话?制作人玩《红色沙漠》忘记工作

转头就晕的耳石症,能开车上班吗?

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版