网易首页 > 网易号 > 正文 申请入驻

从物竞天择到智能进化,首篇自进化智能体综述的ASI之路

0
分享至

近年来,大语言模型(LLM)已展现出卓越的通用能力,但其核心仍是静态的。面对日新月异的任务、知识领域和交互环境,模型无法实时调整其内部参数,这一根本性瓶颈日益凸显。

当我们将视野从提升静态模型的规模,转向构建能够实时学习和适应的动态智能体时,一个全新的范式——自进化智能体(Self-evolving Agents)——正引领着人工智能领域的变革。

然而,尽管学术界与工业界对自进化智能体的兴趣与日俱增,但整个领域仍缺乏一个系统性的梳理与顶层设计。多数研究将「演化」作为智能体整体框架的一个子集,未能深入回答该领域三个最根本的问题:智能体的哪些部分应该演化(What)?演化何时发生(When)?以及,演化如何实现(How)?

为应对上述挑战,普林斯顿大学联合多所顶尖机构的研究者们联合发布了首个全面且系统的自进化智能体综述。该综述旨在为这一新兴领域建立一个统一的理论框架和清晰的路线图,最终为实现通用人工智能(AGI)乃至人工超级智能(ASI)铺平道路。

  • 论文标题:A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence
  • 论文地址:
  • https://arxiv.org/pdf/2507.21046
  • GitHub:
  • https://github.com/CharlesQ9/Self-Evolving-Agents
  • X (Twitter):
  • https://x.com/JiahaoQiu99/status/1950093150003089823

自进化智能体的形式化定义

为确保研究的严谨性,该综述首先为「自进化智能体」提供了一套形式化的定义,为整个领域的研究和讨论奠定了数学基础。

  • 环境(Environment):智能体所处的环境被定义为一个部分可观察马尔可夫决策过程(POMDP)。这个环境包含了智能体需要实现的潜在目标(Goals)、环境的内部状态(States)、智能体可以执行的动作(Actions,如文本推理、工具调用)、状态转移概率,以及用于评估的反馈/奖励函数(Reward Function)。智能体无法完全观测到环境的全部状态,只能接收到观测(Observations)。

  • 智能体系统(Agent System):一个智能体系统(Π)被解构为四个核心组成部分:

  • 架构(Γ):决定了系统的控制流程或多智能体间的协作结构。
  • 模型({ψi}):底层的语言模型或多模态模型。
  • 上下文({Ci}):包含提示(Prompts)和记忆(Memory)等信息。
  • 工具集({Wi}):智能体可用的工具或 API 集合。

  • 自进化策略(Self-evolving Strategy):这是定义的核心。一个自进化策略被形式化为一个转换函数。该函数接收当前智能体系统(Π)、其在任务中生成的轨迹(τ)以及获得的反馈(r)作为输入,然后输出一个全新的、经过演化的智能体系统(Π')。这个过程精确地描述了「进化」这一行为。
  • f
  • Π' = f(Π, τ, r)

  • 终极目标(Objective):自进化智能体的设计目标,是构建一个最优的自进化策略,使得智能体在一系列连续任务上的累积效用(Cumulative Utility)最大化。这为所有演化方法提供了一个统一的优化方向。
  • f

核心框架:四大维度定义智能体演化

该综述的核心贡献是围绕「What、When、How、Where」四个维度,构建了一个用于分析和设计自进化智能体的完整框架,并系统梳理了相关的前沿技术。

What to Evolve?(演化什么?)

此维度明确了智能体系统中可以进行自我提升的四大核心支柱:

  • 模型(Models):这是智能体认知能力的核心。演化可以发生在两个层面:一是决策策略(Policy)的优化,例如通过自我生成挑战性任务(如 SCA)或利用自然语言反馈进行在线微调(如 SELF、TextGrad),直接更新模型参数;二是经验(Experience)的积累与学习,智能体通过与环境交互(如 Reflexion 的自我反思机制、RAGEN 的强化学习框架)将成功或失败的经验转化为学习信号,驱动迭代改进。

  • 上下文(Context):这是塑造智能体行为的动态信息流。演化体现在两个方面:一是记忆(Memory)的演化,智能体需要学会动态管理其长期记忆,例如通过 Mem0 框架中的 ADD/MERGE/DELETE 机制来保持记忆的一致性,或像 Expel 一样从经验中提炼出可泛化的规则和见解;二是指令提示(Prompt)的自动化优化,从简单的候选提示生成(如 APE),到将整个工作流视为可微分程序进行联合优化的复杂框架(如 DSPy),再到面向多智能体系统的通信模式优化(如 MASS)。

  • 工具(Tools):这是智能体与外部世界交互的桥梁,也是能力拓展的关键。其演化路径可分为三步:首先是新工具的自主创造(Creation),智能体或通过探索式学习(如 Voyager),或通过响应式代码生成(如 Alita)来弥补能力短板;其次是已有工具的精通(Mastery),通过自我纠错循环(如 LearnAct)来修复和完善工具的功能与文档;最后是管理与选择(Management & Selection),当工具库变得庞大时,智能体需要高效地检索和组合工具,例如 ToolGen 将工具调用转化为生成问题,而 AgentSquare 则通过元学习自动寻找最优的组件配置。

  • 架构(Architecture):这是智能体系统的顶层设计。演化既可以针对单智能体,例如优化其内部固定的工作流节点(如 TextGrad),甚至赋予其重写自身源代码的能力(如 Darwin Gödel Machine);也可以针对多智能体系统,例如通过蒙特卡洛树搜索等方法自动发现最优的协作流程(如 AFlow),或利用多智能体强化学习(如ReMA)来共同演化出高效的协同策略。

When to Evolve?(何时演化?)

演化的时机决定了学习与任务执行的关系,主要分为两大模式,每种模式下都可以运用上下文学习(ICL)、监督微调(SFT)和强化学习(RL)等范式。

  • 测试时自进化(Intra-test-time Self-evolution):这指的是在任务执行期间发生的实时适应。当智能体在解决某个特定问题时遇到障碍,它会即时启动学习机制。例如,AdaPlanner 通过 ICL 在执行中动态修正计划;一些前沿工作探索了利用「self-edits」指令触发即时 SFT 来更新模型权重;而 LADDER 框架则通过 RL 机制实现了「即时技能获取」,在遇到难题时当场进行针对性训练。

  • 测试间自进化(Inter-test-time Self-evolution):这是在任务执行之后发生的、更主流的演化模式。智能体利用已完成任务的经验积累,对自身能力进行迭代更新,为未来任务做准备。例如,STaR 和 SiriuS 等方法通过 SFT 范式,让模型从自己成功或失败的推理链中生成新的训练数据,实现「自举式」提升;而 RAGEN 和WebRL等框架则利用 RL,在任务间歇期通过大量与环境的交互来优化策略。

How to Evolve?(如何演化?)

实现演化的具体方法论,即智能体如何将经验和反馈转化为能力提升,主要分为三大范式。

  • 基于奖励的演化(Reward-based Evolution):这是最核心的演化驱动力,通过设计不同形式的奖励信号来引导智能体。奖励信号可以是非常丰富的:

  • 文本反馈(Textual Feedback):利用自然语言提供详细、可解释的改进建议,比单一的标量奖励更具指导性(如 Reflexion)。
  • 内部奖励(Internal Rewards):利用模型自身的置信度或不确定性作为奖励,实现无外部监督的自我评估与校准(如 CISC)。
  • 外部奖励(External Rewards):来自环境的直接反馈(如工具执行成功/失败)、多数投票或显式规则。
  • 隐式奖励(Implicit Rewards):从没有明确标记为「奖励」的信号中学习,例如直接从模型 logits 中提取内生的奖励函数。

  • 模仿与演示学习(Imitation & Demonstration Learning):智能体通过学习高质量的范例来提升能力,尤其适用于有充足专家数据或可以自生成高质量轨迹的场景。学习来源可以是自我生成的演示(如 STaR)、跨智能体的演示(如从共享的经验库中学习),或是两者的混合。

  • 基于种群的演化方法(Population-based & Evolutionary Methods):这种方法借鉴生物进化思想,同时维护多个智能体变体或团队,通过选择、变异、竞争等机制并行探索广阔的解空间,从而发现传统优化方法难以触及的新颖策略与架构。其演化对象可以是单个智能体(如 Darwin Gödel Machine 的开放式代码进化),也可以是多智能体系统(如EvoMAC的「文本反向传播」机制)。

Where to Evolve?(在何处演化?)

此维度明确了自进化智能体的应用场域,展示了其在不同类型任务中的演化路径。

  • 通用领域演化(General Domain Evolution):这类智能体旨在成为多才多艺的数字助手,其演化目标是拓展在广泛任务上的通用能力。实现这一目标的机制包括:

  • 记忆机制:智能体通过总结历史成败经验,形成可复用的知识(如 Tips、Shortcuts),以应对未来的新任务。
  • 模型-智能体协同进化:智能体与其辅助模型(如奖励模型、世界模型)共同进化,通过相互促进来提升整体性能和泛化能力。
  • 课程驱动训练:系统能够根据智能体的表现自动生成难度适宜的任务,形成一个自适应的「课程表」(如 WebRL),引导智能体由易到难地扩展能力。

  • 特定领域演化(Specialized Domain Evolution):这类智能体则专注于在某一垂直领域内「深耕」,通过演化成为该领域的专家。论文展示了其在多个领域的应用潜力:

  • 编码(Coding):智能体可以自主修改代码库(如 SICA),或通过多智能体协作进行代码生成、测试和优化。
  • 图形用户界面(GUI):智能体通过与桌面、网页和移动应用的真实交互来学习,从失败轨迹中反思,或自动从界面中挖掘功能,实现对图形界面的精准操控。
  • 金融(Financial):智能体通过在模拟和真实环境中进行交易,不断迭代和优化其量化策略与领域知识库(如QuantAgent)。
  • 医疗(Medical):智能体在模拟医院中「行医」以提升诊断能力(如 Agent Hospital),或作为虚拟生物学家进行药物靶点发现(如 OriGene)。
  • 教育(Education):智能体可以作为个性化导师,根据学生的反应调整教学策略(如 PACE),或作为教师助手,通过多智能体对抗来优化课程计划。

评估、挑战与未来展望

除了构建核心理论框架,该综述还详细探讨了自进化智能体的评估范式。评估自进化智能体不能再局限于静态的准确率,而必须考察其动态能力。

论文提出了五大评估目标:适应性(Adaptivity)、知识保留(Retention)、泛化性(Generalization)、效率(Efficiency)和安全性(Safety),并将其评估模式分为静态评估、短时程自适应评估和长时程终身学习评估,为衡量这一新物种的能力提供了标尺。

最后,该综述为领域的未来发展指明了方向,包括个性化 AI 智能体、提升泛化与跨域适应能力、构建安全可控的智能体、以及探索多智能体生态系统等关键挑战。

通过这份全面的综述,研究者和开发者可以获得一个结构化的视角,来理解、比较并设计下一代更强大、更鲁棒的自适应智能体系统。正如文中所指出的,自进化智能体的发展是通往人工超级智能(ASI)的关键基石,而解决好其在演化过程中的安全性、泛化性与可控性等挑战,将是未来研究的重中之重。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东省最厉害的八个医院科室

广东省最厉害的八个医院科室

白宸侃片
2026-04-20 11:30:58
何猷君家保姆买彩票中了3000万,保姆乐坏了,拒不辞职!转头第一句话是:你想要什么,我都买给你

何猷君家保姆买彩票中了3000万,保姆乐坏了,拒不辞职!转头第一句话是:你想要什么,我都买给你

LULU生活家
2026-04-20 14:34:28
NBA官方:本赛季最佳防守球员将于北京时间今天6点公布

NBA官方:本赛季最佳防守球员将于北京时间今天6点公布

懂球帝
2026-04-21 00:58:35
日本央行调查:83.7%的日本家庭预计一年后价格将上涨

日本央行调查:83.7%的日本家庭预计一年后价格将上涨

财联社
2026-04-20 12:33:05
安徽阜阳一服刑人员在监狱突然死亡,检察院重新认定为“非正常死亡”,狱警一审因虐待被监管人员罪获刑

安徽阜阳一服刑人员在监狱突然死亡,检察院重新认定为“非正常死亡”,狱警一审因虐待被监管人员罪获刑

极目新闻
2026-04-20 10:46:44
许家印和王健林,被同一个80后男人“抄底”了

许家印和王健林,被同一个80后男人“抄底”了

大猫财经Pro
2026-04-20 18:18:57
苏州一对情侣,谈了7年,女子提了18次分手,分手后在街头痛哭!

苏州一对情侣,谈了7年,女子提了18次分手,分手后在街头痛哭!

川渝视觉
2026-04-17 22:13:14
被文班亚马各种打爆!开拓者先发中锋看起来真的打不了高端局?

被文班亚马各种打爆!开拓者先发中锋看起来真的打不了高端局?

稻谷与小麦
2026-04-20 23:18:12
金像奖获奖名单出炉:梁家辉五封影帝,章子怡马丽坐了一晚冷板凳

金像奖获奖名单出炉:梁家辉五封影帝,章子怡马丽坐了一晚冷板凳

萌神木木
2026-04-19 22:54:32
中国铝业总经理张瑞忠:随着二季度下游全面进入旺季 电解铝库存将逐步进入去库通道

中国铝业总经理张瑞忠:随着二季度下游全面进入旺季 电解铝库存将逐步进入去库通道

财联社
2026-04-20 17:54:08
女演员千万别整容!看“金像奖红毯”章子怡,舒淇同框,就懂了

女演员千万别整容!看“金像奖红毯”章子怡,舒淇同框,就懂了

童叔不飙车
2026-04-20 09:49:21
离谱!iPhone 忠诚度飙到 96.4%,创历史新高

离谱!iPhone 忠诚度飙到 96.4%,创历史新高

新浪财经
2026-04-18 18:47:00
33岁章泽天风格大变!穿艳俗纱裙、副乳突出,比实际年龄成熟10岁

33岁章泽天风格大变!穿艳俗纱裙、副乳突出,比实际年龄成熟10岁

阿讯说天下
2026-04-18 14:53:39
谁能想到,苏林上任首访中国,竟是自家人都摆不平的大麻烦

谁能想到,苏林上任首访中国,竟是自家人都摆不平的大麻烦

动物奇奇怪怪
2026-04-15 13:19:42
当年张柏芝抱着lucas后面居然是大s,到现在才发现,真美好

当年张柏芝抱着lucas后面居然是大s,到现在才发现,真美好

TVB的四小花
2026-04-21 00:03:30
卡利巴夫抨击伊朗强硬派,担心自己被罢免,外长阿拉格奇被赶下台

卡利巴夫抨击伊朗强硬派,担心自己被罢免,外长阿拉格奇被赶下台

山河路口
2026-04-20 21:44:07
美伊战事期间真实的特朗普:抱怨、焦虑、摇摆不定!救飞行员时被幕僚挡战情室外

美伊战事期间真实的特朗普:抱怨、焦虑、摇摆不定!救飞行员时被幕僚挡战情室外

红星新闻
2026-04-20 15:36:11
勇士队内部人士:库里目前合同剩1年6260万美元,计划今夏续约2年

勇士队内部人士:库里目前合同剩1年6260万美元,计划今夏续约2年

好火子
2026-04-21 00:24:13
虽然赢不了中国队,却赢得了全世界球迷的心!

虽然赢不了中国队,却赢得了全世界球迷的心!

杨晨大神
2026-04-20 12:06:28
深大一口气停招26个专业,这些“坑”你还在踩吗?

深大一口气停招26个专业,这些“坑”你还在踩吗?

牛锅巴小钒
2026-04-17 13:18:03
2026-04-21 01:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12813文章数 142633关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

时尚
房产
旅游
手机
军事航空

春天衣服不用准备太多!这几大单品提前备好,百搭实用又不过时

房产要闻

大规模商改住!海口西海岸,这波项目要赢麻了!

旅游要闻

以“Fun”为名,深圳布吉将发布全域旅游品牌IP

手机要闻

OPPO影像旗舰高端发力 Find X9 Ultra走出国门

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版