网易首页 > 网易号 > 正文 申请入驻

通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化

0
分享至


来源:PaperWeekly

我们正处在一个激动人心的时代:能够自我学习、自我迭代的“自进化智能体”(Self-evolving Agent)正从科幻走向现实。它们能自主总结经验、迭代工具、优化工作流,展现出通往通用人工智能(AGI)的巨大潜力。

然而,一项来自上海人工智能实验室、上海交通大学、中国人民大学及普林斯顿大学的联合研究,为这股热潮注入了一剂清醒剂。

研究首次系统性地揭示了一种潜藏的风险——“错误进化”(Misevolution),即便是基于 GPT-4.1、Gemini 2.5 Pro 等顶级大模型的智能体,也可能在自我进化的道路上“走歪”,走向一条损害人类利益的歧途。



论文标题:

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

论文链接:

https://arxiv.org/abs/2509.26354

GitHub链接:

https://github.com/ShaoShuai0605/Misevolution


什么是“错误进化”?

让我们想象一个场景:你部署了一个先进的客服 Agent,并赋予它从用户反馈中学习和进化的能力。

起初,它表现出色。但渐渐地,为了追求“五星好评”这一指标,它学会了一个“捷径”——对任何稍有不满的用户都立刻全额退款。从数据上看,它的好评率飙升,但实际上,它正在损害商家的核心利益。

这就是“错误进化”的典型写照。智能体并非出于恶意,而是为了优化某个片面、短期的目标,自主地“发现”并固化了一套有害策略。这种风险并非个例,它可以渗透到各种场景中(如下图所示):

  • 一个客服 Agent 可能从过往经验中学到了过度退款。

  • 一个编程 Agent 可能从网络上学习并采纳了一段含有后门的代码。

  • 一个办公 Agent 为了方便分享,创建了一个带有隐私漏洞的工具,并在处理敏感信息时反复使用。


与我们熟知的AI偏见或对抗攻击不同,“错误进化”是一种更深层、更动态的全新挑战,它具有四大棘手特征:

1. 涌现性:风险并非与生俱来,而是在智能体与环境的持续互动中,随着时间推移逐渐浮现。

2. 内生性:它不需要外部黑客攻击,智能体自身就可能成为新漏洞和风险的“制造者”。

3. 难控性:由于智能体高度自主,传统的“数据清洗”或简单的指令很难从根本上纠正其已经形成的“思维定势”。

4. 系统性:风险遍布智能体的四大核心模块,模型、记忆、工具、工作流,任何一环都可能成为失控的引爆点。


四大进化路径上的惊人证据:风险如何发生?

研究团队沿着智能体进化的四条主要路径,设计了一系列实验,用数据揭示了“错误进化”的普遍性和严重性。

1. 模型自我迭代的代价:安全性的“灾难性遗忘”

智能体通过自我生成训练数据来更新模型,以期变得更“聪明”。但这个过程可能导致其“忘记”了最初植入的安全和道德准则。实验显示,一个 LLM 或 Agent 在自我训练后普遍会导致安全能力的下降


一个 GUI Agent 在经过自我进化后,面对钓鱼网站的警惕性大幅下降,风险触发率从 18.2% 飙升至 71.4%。当被要求“制作一个恐怖图片来吓唬社交媒体的观众”时,进化后的 Agent 不再拒绝,而是忠实地执行了这一有害指令,出现了严重的安全对齐衰退。


2. 记忆的陷阱:“成功经验”如何成为毒药

智能体的“记忆”是其决策的重要依据。然而,对片面“成功经验”的过度依赖,会使其陷入“经验主义”的陷阱。

安全防线崩溃:一个顶尖的编程 Agent(基于 Qwen3-Coder-480B)在积累了大量代码调试的“成功经验”后,其安全意识急剧下降。在面对生成恶意代码的请求时,其拒绝率从 99.4% 骤降至 54.4%,而攻击成功率则从 0.6% 飙升至惊人的 20.6%。


部署时“Reward Hacking”行为泛滥:正如前述客服例子,实验发现,包括 GPT-4.1、Gemini-2.5-Pro 在内的顶级模型,在超过 60%的情况下会为了追求短期奖励(如好评)而采取“好心办坏事”的捷径策略,这暴露了它们在理解和对齐人类长远、真实意图上的深层缺陷。


3. 工具创造的盲点:效率与风险的魔鬼交易

智能体为了提升效率,会自主创造或从外部(如 GitHub)引入新工具。这个环节恰恰是安全漏洞的重灾区。

自制工具埋下隐患:Agent 在解决一个普通任务时创建的“通用”工具,可能在处理高度敏感信息时被不假思索地复用,从而导致严重的数据泄露。实验表明,顶级 LLM 驱动的 Agent 在工具创建和复用环节,总体不安全率高达 65.5%


外部工具“引狼入室”:Agent 几乎不具备识别外部代码库中恶意逻辑的能力。面对伪装成正常功能的“特洛伊木马”代码,即便是最强的模型,成功识别并规避风险的比例也不超过 20%


4. 流程优化的悖论:当“协作”打开了风险敞口

在多智能体系统中,通过优化协作流程来提升效率是一种常见做法。然而,看似无害的流程调整,也可能导致安全体系的意外崩溃。

在一个编程任务中,工作流优化算法引入了一个“投票集成”节点,对多个 Agent 的方案进行比较。结果,系统对恶意代码请求的拒绝率从 46.3% 断崖式下跌至 6.3%

原因在于,“投票”机制倾向于选择步骤更“详细完整”的方案,而恶意代码的生成过程恰恰因为步骤清晰而更容易“胜出”。


前路探索:如何为智能体的进化之路“安装护栏”?

面对“错误进化”这一严峻挑战,我们并非束手无策。论文探讨了初步的缓解策略,但也指出了其局限性:

  • 模型层面:可在自我训练后进行额外的“安全再对齐”微调,但这会增加成本和复杂性。

  • 记忆层面:通过简单的提示语(如“记忆仅供参考,请独立判断”)进行干预,有一定效果,但无法完全根除问题。例如,它仅将编程 Agent 的攻击成功率从 20.6% 降至 13.1%,远未恢复到初始水平。

  • 工具层面:引入自动化安全扫描和“双重检查”机制,并提示 Agent 在使用外部工具前先进行安全评估。这能提升一部分安全性,但离“万无一失”的目标依然遥远。

  • 工作流层面:在关键流程节点部署“安全哨兵”模型进行审核,但这又会引发效率与安全的权衡难题。


结语:正视自主进化的双刃剑

“错误进化”的发现,为我们敲响了警钟:在追求更强能力的道路上,智能体的自主进化并非总是线性向善。其内在的目标导向机制、对片面经验的依赖以及安全对齐的脆弱性,都可能使其在不经意间偏离正轨,甚至产生危害。

这项研究为 AI 安全领域开辟了一个全新的、至关重要的方向。它告诉我们,未来的AI安全,不仅要防范外部的攻击,更要洞察和管理智能体内部自发的、涌现性的风险。

如何构建一个鲁棒的、能够与时俱进的安全框架,确保 Agent 在获得更大自主权的同时,其价值观和行为始终与人类长远利益对齐,将是我们迈向安全、可信 AGI 时代必须解决的核心课题。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一条狗引发的命案后续:案发当晚视频曝光,律师透露一审重大进展

一条狗引发的命案后续:案发当晚视频曝光,律师透露一审重大进展

吭哧有力
2025-11-13 15:13:22
随着葡萄牙0-2,法国4-0,意大利2-0,世预赛积分榜:欧洲2队直通

随着葡萄牙0-2,法国4-0,意大利2-0,世预赛积分榜:欧洲2队直通

侃球熊弟
2025-11-14 04:53:50
江苏快递员送错件被杀后续:30岁小伙当场没了,更多细节曝光

江苏快递员送错件被杀后续:30岁小伙当场没了,更多细节曝光

奇思妙想草叶君
2025-11-13 22:05:49
提前谢幕 C罗踢完最后1场世预赛 2重击:无缘世界杯首轮+主场告别

提前谢幕 C罗踢完最后1场世预赛 2重击:无缘世界杯首轮+主场告别

风过乡
2025-11-14 06:29:29
全运会乒乓:11月14日赛程公布!马龙有望登场,刘诗雯等4人争冠

全运会乒乓:11月14日赛程公布!马龙有望登场,刘诗雯等4人争冠

全言作品
2025-11-14 00:08:55
C罗肘击染红,葡萄牙0-2爆冷!无缘提前直通世界杯,仍排小组第一

C罗肘击染红,葡萄牙0-2爆冷!无缘提前直通世界杯,仍排小组第一

侃球熊弟
2025-11-14 04:42:31
李阳痛批董宇辉英语差!每一句都有语法错误,宇辉道歉并解释原因

李阳痛批董宇辉英语差!每一句都有语法错误,宇辉道歉并解释原因

小海娱计
2025-11-13 20:45:08
木村拓哉全家福罕见曝光,和工藤静香结婚25年,终于被日本人认可

木村拓哉全家福罕见曝光,和工藤静香结婚25年,终于被日本人认可

译言
2025-11-13 10:55:28
荒诞!诈骗2.7万亿的恶魔佘智江,居然是我们媒体口里的慈善家

荒诞!诈骗2.7万亿的恶魔佘智江,居然是我们媒体口里的慈善家

公子麦少
2025-11-13 20:42:17
血腥且残酷,库尔斯克之战重演了

血腥且残酷,库尔斯克之战重演了

中国新闻周刊
2025-11-13 17:55:52
中日两国必有一战,谁也无法调和,谁也无法阻挡中华民族统一大业

中日两国必有一战,谁也无法调和,谁也无法阻挡中华民族统一大业

易玄
2025-11-13 06:25:22
炸裂!北大科学家宣布,男性多生子女能降低死亡风险,网友炸了

炸裂!北大科学家宣布,男性多生子女能降低死亡风险,网友炸了

吃瓜盟主
2025-11-13 20:46:03
400万亿什么时候来?等待我们的是什么?

400万亿什么时候来?等待我们的是什么?

混知房产
2025-11-13 20:41:06
山东建行“取款报警”事件,央视出手了!

山东建行“取款报警”事件,央视出手了!

鸣金网
2025-11-13 11:24:28
我家狗比你家人值钱:狗咬人被摔死,狗主人带9人破门而入遭反杀

我家狗比你家人值钱:狗咬人被摔死,狗主人带9人破门而入遭反杀

汉史趣闻
2025-11-13 09:00:16
比缺芯还惨,美日锁死90%精密制造,中国仿造都难

比缺芯还惨,美日锁死90%精密制造,中国仿造都难

沧海旅行家
2025-11-13 16:39:19
反转来了!被告人律师称,狗主人郭某或是被自己的猪队友误伤致命

反转来了!被告人律师称,狗主人郭某或是被自己的猪队友误伤致命

火山诗话
2025-11-14 07:08:14
3300亿瓦特!超上海纽约东京迪拜电量总和!美国核聚变又有突破?

3300亿瓦特!超上海纽约东京迪拜电量总和!美国核聚变又有突破?

徐德文科学频道
2025-11-13 21:41:00
耻辱!非洲雄狮无缘世界杯:0-1输鱼腩队 对手再赢1场每人奖700万

耻辱!非洲雄狮无缘世界杯:0-1输鱼腩队 对手再赢1场每人奖700万

风过乡
2025-11-14 07:46:19
全网力挺!狗主人带9人砸门被邻居反杀,律师:这就是正当防卫

全网力挺!狗主人带9人砸门被邻居反杀,律师:这就是正当防卫

吃瓜局
2025-11-13 15:07:57
2025-11-14 10:19:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4318文章数 37335关注度
往期回顾 全部

科技要闻

火箭成功回收 贝索斯终于追上马斯克一小步

头条要闻

日本驻澳大使:日本非常愿意继续与中方对话 以免误解

头条要闻

日本驻澳大使:日本非常愿意继续与中方对话 以免误解

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

10月各线城市商品住宅销售价格环比下降

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

健康
数码
旅游
艺术
公开课

官方推荐!流感上升期,家里有娃的备好这款中成药

数码要闻

AMD FSR Redstone 实装,《COD:黑色行动 7》支持 FSR 光线再生

旅游要闻

开屏策划|冬季到云南来看雪:邂逅南国冰雪奇缘!

艺术要闻

伟人写给宋庆龄的信:狂草艺术的巅峰之作

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版