告别「单科专家」：首个Agent全面进化框架EEVEE发布|代码|上下文|真实世界|agent|eevee

告别「单科专家」：首个Agent全面进化框架EEVEE发布

2026-06-22 13:12:53　来源: 机器之心Pro

天津举报

分享至

过去两年，AI Agent 的能力边界被不断刷新：会写代码、会调用工具、会反思失败，也开始能在任务执行中积累经验。

但一个更现实的问题正在浮现：

如果一个 Agent 真的被部署到真实世界，它还能继续变强吗？

不是在一个固定 benchmark 上反复刷分，也不是只针对某一种任务改 prompt，而是在真实使用中同时面对代码、数学、知识问答、公式计算、复杂推理等不断变化的任务输入，还能不能持续适应、稳定提升？

这正是 EEVEE 想解决的问题。

来自上海交通大学与普林斯顿大学的研究团队发布了 EEVEE，一个面向 LLM Agent 的测试时提示学习框架。它试图把 prompt learning 从 “单一任务优化” 推向更接近真实部署的场景：让智能体在多类型任务不断涌入时，仍然能够继续学习，而不是顾此失彼。

论文链接：https://arxiv.org/abs/2606.11182
项目主页：https://princeton-ai2-lab.github.io/EEVEE/
开源代码：https://github.com/Princeton-AI2-Lab/EEVEE

单一任务上的进步，还不够

今天已经有很多 prompt optimization 方法可以让模型在一个任务上变得更好。

例如，在一个数学题集上学会更严谨的解题步骤；在一个代码任务上学会输出更规范的函数体；在一个问答任务上学会更符合评测格式的回答。

这很有价值，但它离真实 Agent 还差一步。

真实部署中的 Agent 不会只遇到一种任务。它可能上一秒在写代码，下一秒在做金融公式计算，再下一步又要回答科学问题。不同任务需要的行为完全不同：有的要求严格输出格式，有的要求符号推理，有的要求知识判断，有的要求可执行代码。

如果所有反馈都被塞进同一个 prompt，问题就会出现：

一个任务上学到的经验，可能会伤害另一个任务。

比如，为了公式题学到 “只输出数字”，可能会影响需要解释推理过程的题；为了代码题学到 “只输出函数体”，也可能不适合知识问答。任务越多，单一 prompt 越容易变成一个互相冲突的杂糅体。

这就是 EEVEE 要面对的核心挑战：智能体不能只在单科变强，而要在多种任务中一起进化。

任务越多，差距越明显

EEVEE 最有说服力的结果，不是单个任务上的分数，而是任务不断增加时的表现。

研究团队把多个不同类型的任务依次加入同一个学习过程，观察 prompt learning 方法能不能持续累积收益。

结果非常直接：

当任务越来越多时，一些强基线方法的收益开始停止叠加，甚至跌到负数；而 EEVEE 仍然保持正向提升，最终在任务全部加入后达到约+42 的累计提升

换句话说，EEVEE 的优势不是 “单点提分”，而是任务变复杂之后还能继续往上走。

这非常关键。因为真实世界里的 Agent，面对的永远不是一个干净、封闭、单一的任务环境，而是不断变化的任务组合。

全方位提升：不同模型上都有效

在主实验中，研究团队使用了四类代表性任务：知识问答、公式计算、数学 / 符号推理、代码生成。这些任务放在一起，构成了一个更接近真实 Agent 工作负载的混合环境。

在这个设置下，EEVEE 在不同 backbone 上都带来了明显提升：

在 Qwen3-4B-Instruct 上，平均分从 41.37 提升到 51.75，相对提升约25%
在 DeepSeek-V3.2 上，平均分从 39.75 提升到 64.07，相对提升约61%
相比现有 SOTA prompt-learning 方法，最高相对提升达到48.2%

这说明 EEVEE 并不是只对某个模型、某个任务有效，而是在更广泛的混合任务设置中，都能让智能体获得更稳定的整体提升。

不只是 “多开几个 prompt”：EEVEE 如何让智能体分工进化？

EEVEE 的思路可以用一句话概括：

先分流，再用专门 prompt 推理。

它不再让所有任务共享一个 prompt，而是维护多个 specialized prompts。每当输入到来，EEVEE 会先判断它更适合哪一类 prompt，再让模型带着对应 prompt 去回答。

但这不是简单的人工分类。

EEVEE 不会事先规定 “数学题走数学 prompt，代码题走代码 prompt”。因为真实任务的差异往往不在表面任务名称上，而在不同 prompt 的实际表现上。

同样是数学题，有的需要公式计算，有的需要定理推理，有的需要严格输出格式。真正有用的划分，是在学习过程中逐渐形成的。

这也带来了关键难点：router 和 prompt 不能分开学。

router 决定每个 prompt 会看到哪些样本；prompt 的能力又决定了怎样的路由是有意义的。

因此，EEVEE 采用 router–prompt co-evolution：先优化 router，重新划分任务；再优化每个 prompt；随后把更新后的 prompt 反馈给下一轮 router。这个过程不断循环，让路由更清晰，prompt 更专门化。

最终，智能体不是靠一个越来越长、越来越混乱的 prompt 适应所有任务，而是把经验组织起来，让不同任务模式进入更合适的学习路径。

单一任务上依旧优秀

一个自然的问题是：如果 EEVEE 是为多任务设计的，它会不会牺牲单任务能力？

实验显示并没有。

当每个 benchmark 单独进行 prompt learning 时，EEVEE 仍然保持很强的竞争力。例如：

Formula 任务达到
HumanEval 任务达到
TheoremQA 从 14.73 提升到

这说明 EEVEE 不是靠 “路由” 掩盖 prompt learning 本身的不足。相反，它的 prompt 学习机制在单任务上同样有效；当任务变多时，router 才进一步发挥组织经验、避免互相干扰的作用。

不靠堆砌上下文

很多让 Agent 变强的方法，都有一个共同副作用：上下文越来越长。

系统不断把经验、规则、案例、playbook 追加进 prompt，短期看可能有效，但任务一多，成本就会迅速上升，prompt 也会变得冗长混乱。

EEVEE 没有走这条路。

虽然它增加了一个路由步骤，但整体 token 成本仍然保持在较低水平。实验显示，EEVEE 平均每个测试样本使用4.32K tokens，接近高效 prompt-learning 基线 GEPA 的3.47K，远低于 ACE 的21.30K

也就是说，EEVEE 的提升并不是靠无限扩展上下文堆出来的，而是来自更有效的任务组织和 prompt specialization。

Prompt learning 真正学到的是什么？

论文中的案例分析也揭示了一个很重要的现象：

Prompt learning 最擅长学习的，不是凭空补充知识，而是把反馈转化成可复用的做事方式。

在代码任务中，它能学会保持函数接口、输出可执行代码、处理边界条件；在公式任务中，它能学会正确套公式、保持单位尺度、输出符合评测要求的答案格式。

但对于知识密集型问答，情况会更复杂。Prompt learning 可以让模型推理更系统，却不一定能补上缺失的领域知识。如果模型本身缺少关键事实，单靠 prompt 不一定能解决。

这说明 EEVEE 并不是在宣称 prompt learning 可以解决一切。它真正展示的是：当反馈能够变成可复用的过程、格式和策略时，智能体可以在测试时持续吸收这些经验，并把它们组织到更合适的 prompt 中。

这比单纯 “改一个 prompt” 更接近真实 Agent 的学习方式。

让 Agent 从单科进步走向全方位进化

过去的 prompt optimization，更像是在训练一个 Agent 做好某一门课。

它可以在一个固定任务上反复练习，逐渐摸清规律，拿到更高分数。

但真实世界要求的不是 “单科提分”，而是更接近 “全科成长”：任务不断变化，反馈不断变化，能力需求也不断变化。一个真正有用的 self-improving Agent，必须能在部署后继续适应这些变化，而不是只在单一 benchmark 上越来越熟练。

EEVEE 的意义就在于此。

它把 test-time prompt learning 从单一任务推向多类型任务共同到来的场景，让智能体开始学习如何组织经验、区分任务模式、保留不同能力，并在复杂任务流中继续提升整体表现。

这还不是最终形态。论文也指出，EEVEE 仍然依赖 ground-truth 或 rule-based feedback，还不是完全在线、完全自监督的自我提升系统。

但它迈出了关键一步：当智能体真正面对真实世界中复杂、多样、不断变化的任务时，prompt learning 仍然可以成为一种有效的持续适应机制。

从单一任务到全方位进化，这正是 EEVEE 想打开的一扇门。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

告别「单科专家」：首个Agent全面进化框架EEVEE发布

智谱盘中狂飙超40%，市值破万亿港元

离异男爽快加价20万买房 过户后卖家傻眼：房子被抵押

离异男爽快加价20万买房 过户后卖家傻眼：房子被抵押

法国球星祝中国队下届世界杯取得好成绩

陪睡陪玩是皮毛，向佐揭内娱暗规则

多部门核查"婴幼儿纸尿裤甲酰胺问题"

电动MINIJCW缎光特别版藏锋上市尽显低调赛道本色

态度原创

龙腾资江 韵动邵阳

消息称苹果iPhone 18 Pro / Max、iPad Mini OLED面板已量产

不得不说，“T恤＋九分裤”真的很适合夏天，清爽减龄又高级！

发现没：越是会顶嘴的孩子后劲越足，乖巧听话的孩子成绩反而一般

离异男爽快加价20万买房过户后卖家傻眼：房子被抵押

离异男爽快加价20万买房过户后卖家傻眼：房子被抵押

龙腾资江韵动邵阳