网易首页 > 网易号 > 正文 申请入驻

美团6篇顶会论文,揭开智能体搜索进化路线图

0
分享至

周三下午,一位工程师盯着搜索推荐模型的训练日志:明明喂进去更多数据,强化学习给出的奖励信号却像被噪声淹没了,有效样本用一次就丢掉,下次训练又得从零开始筛选。这一幕不是想象——在可验证奖励的强化学习后训练中,低质量样本引入干扰,高质量样本被随手丢弃,几乎是普遍存在的系统性尴尬。美团业务研发平台旗下的搜推 ASX(Agentic System X)团队最近公开的一批论文,就围绕这个窘境展开了面向不同方向的突围尝试,其中既有直接对样本调度机制动刀的思路,也有绕开调度、从惩罚策略入手的方案,仿佛同一场技术辩论的正反两方。

正方站“样本调度派”。在论文《Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards》中,团队把每一条候选样本都看作一台老虎机,提出CBS算法(Contextual Bandit Sampler)——只要快速预测出哪个样本能带来更高的训练增益,就优先给它“拉杆”的机会。整个动态决策过程被建模为上下文多臂老虎机问题:每一个候选 rollout 视为一个臂,奖励就是训练后模型性能的提升量;在线反馈的滚动累积,使得调度策略可以实时修正对样本价值的估计。实验覆盖6个数学推理数据集,CBS能与多种策略优化方法结合,既减少了噪声样本的反复干扰,也避免了高质量样本单次使用后就被浪费的窘境。这种做法相当于给训练流程安装了一个“样本质检员”,但质检标准不是死的,而是随着模型进步不断自更新的。


反方则把焦点放在惩罚机制上。《ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning》直接点出一个更隐蔽的陷阱:惩罚负样本时,常常连正负样本共享的那部分有效语义也一起误伤了,这直接导致输出多样性下降。ResRL的解法是引入奇异值分解(SVD)构 建一个“正确子空间”,再通过投影残差把惩罚力度精准地约束在“真正的错误方向”上,相当于只打压模型走歪的那一步,而不削弱它本已学会的能力。论文给出的数据相当具体:数学推理超过之前的负样本强化方法NSR 9.4%,代码任务刷新CodeForces的SOTA,在具身智能环境ALFWorld里更是比PPO高出7.8%,且Pass@1与Pass@k兼得,没有为了一次通过率而牺牲多次尝试的多样性。

两篇论文对同一难题给出了侧重不同、但并非互斥的答案——调度优化的是“数 据利用效率”,残差惩罚优化的是“信号精度”。前者关心哪批样本值得被多看几眼,后者关心即便看的是负样本,惩罚也要做到精准打击、不伤无辜。短期来看,任何一种粗糙的奖励设计,都会在样本侧或者信号侧撞上瓶颈;长期来看,这两条技术路径大概率会走向融合,构成更细粒度的在线样本调控和奖励修正闭环。

奖励模型本身的可解释性,也是这批研究中的重要支线。《CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling》发现传统的奖励模型是一个“黑箱”,依赖昂贵人工标注,而现有的基于评分准则的方法又容易引入冗余和偏见。CDRRM采用“对比-聚合”流程:先同时看好回答和差回答,精准定位两者之间的关键差异,再把这些差异合并成简洁、紧贴任务的评分准则,用来指导评判模型。在三个基准评测上达到最先进水平,同时缓解了模型“话痨偏好”和位置偏见等常见问题。更值得注意的是高效性——仅用3000个样本就让未微调的模型超越了全量微调基线,具备相当高的数据效率,也让奖励模型的决策过程比以往更透明。

当智能体从数学推理和代码这类相对封闭的场景,迈入真实的本地生活服务领域时,挑战立刻复杂了不止一个量级。《LocalSearchBench: Benchmarking Agentic Search in Real-World Local Life Services》就搭建了这样一个现实评测场:覆盖国内9座城市、6大服务品类,包含超过134万商户数据与900道用户多跳问答任务,配套交互环境LocalPlayground和商户检索工具LocalRAG。团队用16款主流大语言推理模型逐一测试,结果相当冷静——表现最好的DeepSeek-V3.2答题正确率仅35.60%,普遍存在信息完整性不足、可信度不高的问题。进一步剖析暴露出的典型缺陷,包括工具调用策略单一、多跳推理容易中断等,这些缺陷在本地生活这类强信息检索、强逻辑串联的任务中被迅速放大。这份基准同时也为相关模型的训练和迭代提供了一个定位缺陷的参照系。

同样从单一走向多元视角的,还有饮食领域的感知与推理。《DiningBench: A Hierarchical Multi-view Benchmark for Perception and Reasoning in the Dietary Domain》专为多模态大语言模型(VLM)设计,覆盖细粒度菜品分类、营养估计和视觉问答三类任务,包含3,021道菜品的多视角图像。对29个主流VLM的评测结果表明,现有模型在细粒度识别、跨视角融合和营养推理上差距明显,暴露出的是视觉与知识联合建模时的高阶短板——不仅要认得哪道菜,还要跨角度推测热量和食材构成,这对当前多模态模型仍是笔不小的考验。

如果说前面几篇研究是在固定能力边界内找最优解,那么《Mem²Evolve: Towards Self-Evolving Agents via Co-Evolutionary Capability Expansion and Experience Distillation》则直接把目标指向了持续进化。Mem2Evolve框架内置Asset Memory与Experience Memory双记忆机制,前者负责动态复用或创建工具与专家智能体,实现能力扩展;后者从成功和失败轨迹中蒸馏可迁移经验。8个基准、6类任务的实验结果表明,Mem2Evolve显著优于普通大语言模型和单一进化策略,显现出更强的持续学习与任务泛化能力。不再是把一次任务当作终局,而是让智能体在与环境不断交互的过程中把自己变成更称手的工具集成体。

将这些研究连起来看,一条从“样本级优化”到“智能体级自我进化”的技术路线逐步清晰:先用Contextual Bandit把好样本留住,再用ResRL把惩罚做对,接着通过CDRRM让奖励模型变得可解释且数据高效,同时在LocalSearchBench和DiningBench这样的真实场景基准中逼迫模型暴露推理与感知缺陷,最后以双记忆进化框架收束,让智能体在任务中长出新的工具和能力。这不是一次性功能修补,而是在逐步解构搜索推荐的 Agent化 进程,从底层训练信号到上层进化机制,都在被重新审视并重写。美团搜推ASX团队在ICLR、NeurIPS、CVPR等顶会连续发表数十篇成果的底气,或许正来自于这种不打补丁、直接重构底层的探索节奏。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
梅罗之争吵了十几年,一个小孩用两句话让甲亢哥闭嘴了

梅罗之争吵了十几年,一个小孩用两句话让甲亢哥闭嘴了

圣西罗的太阳
2026-07-03 08:32:18
7闺蜜众筹70万开咖啡馆  4个月后从“七仙女”变成“战国七雄”

7闺蜜众筹70万开咖啡馆 4个月后从“七仙女”变成“战国七雄”

尘埃里的看客
2026-06-28 10:42:41
两外援休战!宿茂臻主动放弃京鲁德比强攻,保全阵容放眼后半程

两外援休战!宿茂臻主动放弃京鲁德比强攻,保全阵容放眼后半程

兰亭墨未干
2026-07-04 00:22:03
大海的拥抱:那不是浪花,是深渊递来的体温

大海的拥抱:那不是浪花,是深渊递来的体温

疾跑的小蜗牛
2026-07-03 23:49:36
若中日再次爆发战争,结局会如何?俄罗斯和美国看法一致

若中日再次爆发战争,结局会如何?俄罗斯和美国看法一致

史行途
2026-07-02 17:53:41
Codex 的办公能力被严重低估了,Word、Excel、PPT、PDF 全都能进工作流了

Codex 的办公能力被严重低估了,Word、Excel、PPT、PDF 全都能进工作流了

Ai学习的老章
2026-07-03 21:09:44
宗馥莉现身杭州街头 身穿蓝色吊带裙 乘坐紫色劳斯莱斯离开

宗馥莉现身杭州街头 身穿蓝色吊带裙 乘坐紫色劳斯莱斯离开

快科技
2026-07-03 15:58:20
戴志诚和袁茵结婚多年后的合影,二人看起来挺有夫妻相的

戴志诚和袁茵结婚多年后的合影,二人看起来挺有夫妻相的

喜文多见01
2026-06-01 07:30:43
央视怒批,目不识丁,洋相百出,绝望文盲再翻车,冯远征又说对了

央视怒批,目不识丁,洋相百出,绝望文盲再翻车,冯远征又说对了

墨印斋
2026-05-29 13:20:21
新宝马X5对比奥迪Q7:这一局,差距肉眼可见

新宝马X5对比奥迪Q7:这一局,差距肉眼可见

元气满分吖
2026-07-02 01:17:34
C罗:相比进球被取消和被换下,更难受的是没有进入首发阵容

C罗:相比进球被取消和被换下,更难受的是没有进入首发阵容

懂球帝
2026-07-03 12:14:29
C罗1点球0助攻!评分7.1分!却是全场最佳!引发巨大争议!

C罗1点球0助攻!评分7.1分!却是全场最佳!引发巨大争议!

历史第一人梅西
2026-07-03 10:47:22
国内上半年票房暴跌 118 亿,北美同期大涨 54 亿,凭什么?

国内上半年票房暴跌 118 亿,北美同期大涨 54 亿,凭什么?

极客电影
2026-07-03 18:13:10
“胖贾玲”终于回归?她这波一鱼两吃,让整个娱乐圈刮目相看

“胖贾玲”终于回归?她这波一鱼两吃,让整个娱乐圈刮目相看

真的八卦小学弟
2026-07-01 11:30:09
法国民众为抢空调撞烂超市门!现场打起来了

法国民众为抢空调撞烂超市门!现场打起来了

看看新闻Knews
2026-07-03 11:29:07
普京发起严酷报复,基辅被打爆,泽连斯基:愿意谈判,结束战争

普京发起严酷报复,基辅被打爆,泽连斯基:愿意谈判,结束战争

莫地方
2026-07-04 00:15:52
FIFA规则令英格兰束手无策,图赫尔警告墨西哥存重大隐患

FIFA规则令英格兰束手无策,图赫尔警告墨西哥存重大隐患

各生欢喜者
2026-07-04 00:40:12
老哈梅国葬,100国代表参加,中方宣布出席规格,特朗普把话挑明

老哈梅国葬,100国代表参加,中方宣布出席规格,特朗普把话挑明

墨子翟的日记y
2026-07-03 17:20:45
科技股突然暴跌,杭州90后小登破防,哭诉“真的太痛”,炒股9年来最惨的一天,满仓长电科技、兆易创新等科技股

科技股突然暴跌,杭州90后小登破防,哭诉“真的太痛”,炒股9年来最惨的一天,满仓长电科技、兆易创新等科技股

金融界
2026-07-03 12:05:48
iPhone15用户注意!219元换原厂电池,先别急着换新机

iPhone15用户注意!219元换原厂电池,先别急着换新机

小柱解说游戏
2026-07-03 11:59:04
2026-07-04 05:07:00
野生运营
野生运营
懂点产品,懂点AI,正在努力给平淡日子搞点新花样。
256文章数 56关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

美媒询问中方是否接受霍尔木兹海峡收费 外交部回应

头条要闻

美媒询问中方是否接受霍尔木兹海峡收费 外交部回应

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

房产
教育
亲子
健康
艺术

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

教育要闻

广东19市中考作文题最像高考,你会写吗?范文来喽!

亲子要闻

《孩要来香港》 EP04 打包孩子最好的暑假礼物,陈牧歌这次要帮姐姐陈子鸢和妈妈完成心愿,这趟有爱之旅,最后会收获什么礼物?

听说少吃点能抗衰老?专家讲解!

艺术要闻

OPPO研发总部地块易主,山子高科“双O”新方案曝光!

无障碍浏览 进入关怀版