网易首页 > 网易号 > 正文 申请入驻

告别「单科专家」:首个Agent全面进化框架EEVEE发布

0
分享至



过去两年,AI Agent 的能力边界被不断刷新:会写代码、会调用工具、会反思失败,也开始能在任务执行中积累经验。

但一个更现实的问题正在浮现:

如果一个 Agent 真的被部署到真实世界,它还能继续变强吗?

不是在一个固定 benchmark 上反复刷分,也不是只针对某一种任务改 prompt,而是在真实使用中同时面对代码、数学、知识问答、公式计算、复杂推理等不断变化的任务输入,还能不能持续适应、稳定提升?

这正是 EEVEE 想解决的问题。

来自上海交通大学与普林斯顿大学的研究团队发布了 EEVEE,一个面向 LLM Agent 的测试时提示学习框架。它试图把 prompt learning 从 “单一任务优化” 推向更接近真实部署的场景:让智能体在多类型任务不断涌入时,仍然能够继续学习,而不是顾此失彼。



  • 论文链接:https://arxiv.org/abs/2606.11182
  • 项目主页:https://princeton-ai2-lab.github.io/EEVEE/
  • 开源代码:https://github.com/Princeton-AI2-Lab/EEVEE

单一任务上的进步,还不够

今天已经有很多 prompt optimization 方法可以让模型在一个任务上变得更好。

例如,在一个数学题集上学会更严谨的解题步骤;在一个代码任务上学会输出更规范的函数体;在一个问答任务上学会更符合评测格式的回答。

这很有价值,但它离真实 Agent 还差一步。

真实部署中的 Agent 不会只遇到一种任务。它可能上一秒在写代码,下一秒在做金融公式计算,再下一步又要回答科学问题。不同任务需要的行为完全不同:有的要求严格输出格式,有的要求符号推理,有的要求知识判断,有的要求可执行代码。

如果所有反馈都被塞进同一个 prompt,问题就会出现:

一个任务上学到的经验,可能会伤害另一个任务。

比如,为了公式题学到 “只输出数字”,可能会影响需要解释推理过程的题;为了代码题学到 “只输出函数体”,也可能不适合知识问答。任务越多,单一 prompt 越容易变成一个互相冲突的杂糅体。

这就是 EEVEE 要面对的核心挑战:智能体不能只在单科变强,而要在多种任务中一起进化。

任务越多,差距越明显

EEVEE 最有说服力的结果,不是单个任务上的分数,而是任务不断增加时的表现。

研究团队把多个不同类型的任务依次加入同一个学习过程,观察 prompt learning 方法能不能持续累积收益。

结果非常直接:

当任务越来越多时,一些强基线方法的收益开始停止叠加,甚至跌到负数;而 EEVEE 仍然保持正向提升,最终在任务全部加入后达到约+42 的累计提升

换句话说,EEVEE 的优势不是 “单点提分”,而是任务变复杂之后还能继续往上走。

这非常关键。因为真实世界里的 Agent,面对的永远不是一个干净、封闭、单一的任务环境,而是不断变化的任务组合。



全方位提升:不同模型上都有效

在主实验中,研究团队使用了四类代表性任务:知识问答、公式计算、数学 / 符号推理、代码生成。这些任务放在一起,构成了一个更接近真实 Agent 工作负载的混合环境。

在这个设置下,EEVEE 在不同 backbone 上都带来了明显提升:

  • 在 Qwen3-4B-Instruct 上,平均分从 41.37 提升到 51.75,相对提升约25%
  • 在 DeepSeek-V3.2 上,平均分从 39.75 提升到 64.07,相对提升约61%
  • 相比现有 SOTA prompt-learning 方法,最高相对提升达到48.2%

这说明 EEVEE 并不是只对某个模型、某个任务有效,而是在更广泛的混合任务设置中,都能让智能体获得更稳定的整体提升。



不只是 “多开几个 prompt”:EEVEE 如何让智能体分工进化?

EEVEE 的思路可以用一句话概括:

先分流,再用专门 prompt 推理。

它不再让所有任务共享一个 prompt,而是维护多个 specialized prompts。每当输入到来,EEVEE 会先判断它更适合哪一类 prompt,再让模型带着对应 prompt 去回答。

但这不是简单的人工分类。

EEVEE 不会事先规定 “数学题走数学 prompt,代码题走代码 prompt”。因为真实任务的差异往往不在表面任务名称上,而在不同 prompt 的实际表现上。

同样是数学题,有的需要公式计算,有的需要定理推理,有的需要严格输出格式。真正有用的划分,是在学习过程中逐渐形成的。

这也带来了关键难点:router 和 prompt 不能分开学。

router 决定每个 prompt 会看到哪些样本;prompt 的能力又决定了怎样的路由是有意义的。

因此,EEVEE 采用 router–prompt co-evolution:先优化 router,重新划分任务;再优化每个 prompt;随后把更新后的 prompt 反馈给下一轮 router。这个过程不断循环,让路由更清晰,prompt 更专门化。

最终,智能体不是靠一个越来越长、越来越混乱的 prompt 适应所有任务,而是把经验组织起来,让不同任务模式进入更合适的学习路径。



单一任务上依旧优秀

一个自然的问题是:如果 EEVEE 是为多任务设计的,它会不会牺牲单任务能力?

实验显示并没有。

当每个 benchmark 单独进行 prompt learning 时,EEVEE 仍然保持很强的竞争力。例如:

  • Formula 任务达到
  • HumanEval 任务达到
  • TheoremQA 从 14.73 提升到

这说明 EEVEE 不是靠 “路由” 掩盖 prompt learning 本身的不足。相反,它的 prompt 学习机制在单任务上同样有效;当任务变多时,router 才进一步发挥组织经验、避免互相干扰的作用。



不靠堆砌上下文

很多让 Agent 变强的方法,都有一个共同副作用:上下文越来越长。

系统不断把经验、规则、案例、playbook 追加进 prompt,短期看可能有效,但任务一多,成本就会迅速上升,prompt 也会变得冗长混乱。

EEVEE 没有走这条路。

虽然它增加了一个路由步骤,但整体 token 成本仍然保持在较低水平。实验显示,EEVEE 平均每个测试样本使用4.32K tokens,接近高效 prompt-learning 基线 GEPA 的3.47K,远低于 ACE 的21.30K

也就是说,EEVEE 的提升并不是靠无限扩展上下文堆出来的,而是来自更有效的任务组织和 prompt specialization。



Prompt learning 真正学到的是什么?

论文中的案例分析也揭示了一个很重要的现象:

Prompt learning 最擅长学习的,不是凭空补充知识,而是把反馈转化成可复用的做事方式。

在代码任务中,它能学会保持函数接口、输出可执行代码、处理边界条件;在公式任务中,它能学会正确套公式、保持单位尺度、输出符合评测要求的答案格式。

但对于知识密集型问答,情况会更复杂。Prompt learning 可以让模型推理更系统,却不一定能补上缺失的领域知识。如果模型本身缺少关键事实,单靠 prompt 不一定能解决。

这说明 EEVEE 并不是在宣称 prompt learning 可以解决一切。它真正展示的是:当反馈能够变成可复用的过程、格式和策略时,智能体可以在测试时持续吸收这些经验,并把它们组织到更合适的 prompt 中。

这比单纯 “改一个 prompt” 更接近真实 Agent 的学习方式。



让 Agent 从单科进步走向全方位进化

过去的 prompt optimization,更像是在训练一个 Agent 做好某一门课。

它可以在一个固定任务上反复练习,逐渐摸清规律,拿到更高分数。

但真实世界要求的不是 “单科提分”,而是更接近 “全科成长”:任务不断变化,反馈不断变化,能力需求也不断变化。一个真正有用的 self-improving Agent,必须能在部署后继续适应这些变化,而不是只在单一 benchmark 上越来越熟练。

EEVEE 的意义就在于此。

它把 test-time prompt learning 从单一任务推向多类型任务共同到来的场景,让智能体开始学习如何组织经验、区分任务模式、保留不同能力,并在复杂任务流中继续提升整体表现。

这还不是最终形态。论文也指出,EEVEE 仍然依赖 ground-truth 或 rule-based feedback,还不是完全在线、完全自监督的自我提升系统。

但它迈出了关键一步:当智能体真正面对真实世界中复杂、多样、不断变化的任务时,prompt learning 仍然可以成为一种有效的持续适应机制。

从单一任务到全方位进化,这正是 EEVEE 想打开的一扇门。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赚麻了!51岁贝克汉姆成世界杯最大赢家,一届赛事狂赚1.7亿

赚麻了!51岁贝克汉姆成世界杯最大赢家,一届赛事狂赚1.7亿

王大发不懂球
2026-06-21 20:30:05
贝尔萨:没拿下本该获胜的比赛,我对此负责

贝尔萨:没拿下本该获胜的比赛,我对此负责

体坛周报
2026-06-22 15:20:11
马云预言成真?刘强东宣布:快递员将彻底消失,70万兄弟怎么办?

马云预言成真?刘强东宣布:快递员将彻底消失,70万兄弟怎么办?

一个有灵魂的作者
2026-06-21 20:38:33
8分钟豪赌400万美元,2小时狂赚900万:世界杯爆出“最离谱神单”

8分钟豪赌400万美元,2小时狂赚900万:世界杯爆出“最离谱神单”

复转这些年
2026-06-22 11:18:10
独家——美日台三方首次同步开展涉台海方向上的大规模军事演习

独家——美日台三方首次同步开展涉台海方向上的大规模军事演习

东海观澜
2026-06-22 10:58:20
上海陆家嘴地铁站惊现“白蚁大军” 地铁工作人员:梅雨季大量繁殖所致 已清理消杀完毕

上海陆家嘴地铁站惊现“白蚁大军” 地铁工作人员:梅雨季大量繁殖所致 已清理消杀完毕

封面新闻
2026-06-22 17:01:39
佛得角本土球员月薪仅一两千元,门将粉丝暴涨至1600万却要失业了,经纪人:已收到中国多个商务邀请,要帮他开中国社媒账号

佛得角本土球员月薪仅一两千元,门将粉丝暴涨至1600万却要失业了,经纪人:已收到中国多个商务邀请,要帮他开中国社媒账号

大象新闻
2026-06-22 15:53:03
王毅刚走,蒙古恳求中国,"借道"把稀土运给日本!成全蒙日合作?

王毅刚走,蒙古恳求中国,"借道"把稀土运给日本!成全蒙日合作?

阿器谈史
2026-06-22 00:18:40
张韶涵演唱会上的丝袜,应该借给谢娜穿穿,差距一目了然!

张韶涵演唱会上的丝袜,应该借给谢娜穿穿,差距一目了然!

木子爱娱乐大号
2026-06-22 14:53:51
法国巨头联合创始人坠机身亡

法国巨头联合创始人坠机身亡

第一财经资讯
2026-06-22 12:59:57
江苏连云港通报:废品收购站经营者已被采取刑事拘留强制措施

江苏连云港通报:废品收购站经营者已被采取刑事拘留强制措施

观察者网
2026-06-22 10:47:09
券商爆发原因找到了

券商爆发原因找到了

贩财局
2026-06-22 14:10:35
网友揭秘:现在市场上到底有多少失业的人

网友揭秘:现在市场上到底有多少失业的人

慧翔百科
2026-06-22 08:57:48
英国首相斯塔默宣布辞职!上任不到两年,英国10年内将迎来第7位首相

英国首相斯塔默宣布辞职!上任不到两年,英国10年内将迎来第7位首相

极目新闻
2026-06-22 17:14:12
调查记者王文志和“甲酰胺纸尿裤”的48小时

调查记者王文志和“甲酰胺纸尿裤”的48小时

南传
2026-06-22 11:11:28
又是疯狂一夜!伊朗升榜首,阿根廷16强稳了!世界第10或遭淘汰

又是疯狂一夜!伊朗升榜首,阿根廷16强稳了!世界第10或遭淘汰

小彭美识
2026-06-22 09:32:17
私生活混乱、被央视“开除”、陪睡上位,她身上哪个标签是真的?

私生活混乱、被央视“开除”、陪睡上位,她身上哪个标签是真的?

素衣读史
2026-06-18 21:37:31
墙倒众人扶,没想到,曾被人民日报点名表扬的李维刚,如今更牛了

墙倒众人扶,没想到,曾被人民日报点名表扬的李维刚,如今更牛了

趣文说娱
2026-06-17 21:27:16
益阳市安化县水利局党组书记、局长谢智兴被查

益阳市安化县水利局党组书记、局长谢智兴被查

三湘都市报
2026-06-22 16:25:38
不平等的热浪:印度人的高温生存战

不平等的热浪:印度人的高温生存战

澎湃新闻
2026-06-22 07:18:29
2026-06-22 18:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13328文章数 142677关注度
往期回顾 全部

科技要闻

智谱盘中狂飙超40%,市值破万亿港元

头条要闻

离异男爽快加价20万买房 过户后卖家傻眼:房子被抵押

头条要闻

离异男爽快加价20万买房 过户后卖家傻眼:房子被抵押

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

陪睡陪玩是皮毛,向佐揭内娱暗规则

财经要闻

多部门核查"婴幼儿纸尿裤甲酰胺问题"

汽车要闻

电动MINIJCW缎光特别版藏锋上市尽显低调赛道本色

态度原创

本地
手机
时尚
教育
公开课

本地新闻

龙腾资江 韵动邵阳

手机要闻

消息称苹果iPhone 18 Pro / Max、iPad Mini OLED面板已量产

不得不说,“T恤+九分裤”真的很适合夏天,清爽减龄又高级!

教育要闻

发现没:越是会顶嘴的孩子后劲越足,乖巧听话的孩子成绩反而一般

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版