网易首页 > 网易号 > 正文 申请入驻

Meta华人实习生搞出超级智能体!自己写代码实现自我进化

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

能无限进步的「超级智能体」来了!

最近,Meta研究团队的一篇题为HYPERAGENTS(超级智能体)的论文迅速刷屏。



这篇论文将LSTM之父Jürgen Schmidhuber二十年前提出的哥德尔机(Gödel Machine)思想,与达尔文开放算法相结合,提出了能持续自我迭代的达尔文哥德尔机

基于此这一思想,Agent不仅能更好地完成具体任务、持续提高自身表现。

更关键的是,它可以不断优化“改进自身”的底层逻辑,实现“元学习(Meta-learning)”

这,便是论文定义的新一代超级智能体——Hyperagents

论文更进一步提出:未来AI有望通过持续自我迭代,最终突破人类预设的初始算法边界,也正因如此,AI安全必须被摆在核心位置。

不少网友也感慨道:

  • 元学习真正让人既害怕又兴奋的,是元层面的改进能够跨领域迁移。这不是在某一件事上变得更厉害,而是学会了在一切事情上变得更厉害。



目前,这篇论文已被ICLR 2026接收。



从哥德尔机到达尔文哥德尔机

要理解超级智能体Hyperagents,必须先了解它的基石——

哥德尔机(Gödel Machine)

哥德尔机是一种假设性的自我完善型AI。它在数学上寻求证明:

如果存在某种更好的策略,它会通过递归重写自身代码来解决问题。

而这一假设,最早由尤尔根·施密德胡伯(Jürgen Schmidhuber)在二十多年前提出。



在传统机器学习中,AI的“学习方法”是人类预设的硬编码,它只能通过调整内部参数来逼近目标

而哥德尔机则打破了这一限制,它能够将算法框架本身视为可编辑的代码,通过自主重写程序来实现学习能力的自我演进

但问题也随之而来:哥德尔机往往要求AI在自我演进之前,证明该改动具备净收益。

也就是说,改代码花掉的算力成本,未来能不能通过更强的性能赚回来?

不幸的是,这种计算在现实中的复杂任务中几乎是无法实现的。

针对这一问题,Meta团队提出达尔文哥德尔机(DGM),它利用开放式算法(Open-ended algorithms),通过在大模型提议的代码改进方案中进行搜索,获取能从经验上提升性能的方案。



换句话说,DGM利用基础模型来提议代码改进方案,并利用开放式算法的最新创新成果,来搜索并构建一个不断增长的、多样化且高质量的AI智能体库。

基于此,DGM能创造出各种自我改进方案,例如:增加补丁验证(Patch Validation)步骤、优化文件查看功能、增强编辑工具、生成并筛选多个解决方案以选出最优解,以及在进行新更改时,会自动添加历史尝试记录(并分析失败原因)以供参考。

论文的实验还表明,DGM获得的算力越多,自我提升效果越好。

超级智能体

虽然DGM很强,但它存在一个致命限制:它主要在编程任务中有效

这是因为DGM依赖一个关键假设——评估任务与自我修改任务必须“对齐”。




在编程领域,这种对齐是天然的:提升了编程能力,自然也就提升了修改自身代码的能力。

也就是说,解决外部编程问题的逻辑工具,可以直接转化为修改其自身底层代码的能力。

相反,如果是在非编程领域(如写诗),即便提升了写诗能力,也无法直接转化为修改代码的逻辑水平。

在这种缺乏“自指性(Self-referentiality)”的任务中,DGM的递归进化链条就会断裂,陷入停滞。

基于此,文章提出超级智能体——

它们既能修改自己的任务执行行为,也能修改生成未来改进建议的过程。

这实现了所谓的元认知自我修改(metacognitive self-modification):不仅学习如何做得更好,还学习如何更有效地进行改进。

进一步,论文将超级智能体实例化为DGM-Hyperagents (DGM-H)。

DGM-H是对DGM的扩展,其中任务解决行为和自我改进程序都是可编辑且可进化的,其框架如下:



  • 自指性架构:它将“任务智能体(Task Agent)”与“元智能体(Meta Agent)”整合为一个单一的、可编辑的程序。
  • 元级进化:在Hyperagents中,“改进的方法”本身也是可以被改进的。这使得系统不再要求任务与修改必须对齐,从而实现了跨领域的“元认知自我修改”。

打个比方,在Hyperagents中,运动员不仅在训练,教练也在学习如何更好地执教。由此,运动员的表现和教练的执教水平不断螺旋上升。

此外,DGM-H还改进了生成新智能体的过程(例如引入持久化记忆、性能追踪等),且这些元级改进具有跨领域迁移和跨运行累积的特性。

实验验证:从20%到50%的跨越

实验证明,达尔文哥德尔机(Darwin Gödel Machine)能够通过修改自身代码库实现持续的自我提升。

在SWE-bench上,DGM自动将其性能从20.0%提升至50.0%



在Polyglot上,DGM的性能从初始的14.2%跃升至30.7%,远超由Aider开发的具有代表性的人工设计智能体。



这些结果证明了DGM能发现并实施有效的自我改进。

而实现这一点的关键在于其开放式进化搜索策略:

通过从现有智能体库中采样生成新智能体,DGM能够并行探索多条进化路径。



性能稍逊的“祖先”智能体在发现新方法和功能方面起关键作用,避免了早熟收敛。



此外,DGM的改进具有广泛的迁移性:

  • 针对Claude 3.5 Sonnet优化的智能体,在切换到o3-mini或Claude 3.7 Sonnet时仍能提升性能。
  • 在Polyglot基准中,Python任务上的自我改进同样提升了Rust、C++、Go等不同语言任务的表现。



作者介绍

最后,让我们来介绍一下这篇论文的作者们。



这篇论文的第一作者是来自UBC的Jenny Zhang,她师从Jeff Clune教授。



她本科就读于帝国理工,这篇论文是她在Meta实习期间完成的。她的研究方向专注于强化学习、自改进AI与Open-Ended AI。

Bingchen Zhao是来自爱丁堡大学的博士生,,师从Oisin Mac Aodha教授

他本科毕业于同济大学,他此前在Meta FAIR团队,致力于构建自我改进的AI系统。



Wannan Yang在纽约大学攻读博士,目前在Meta超级智能实验室实习,她本科毕业于爱丁堡大学。



论文的其他作者还包括Jeff Clune、以及来自Meta的研究员Minqi Jiang(已离职)、Sam DevlinTatiana Shavrina。


[1]https://arxiv.org/pdf/2603.19461
[2]https://sakana.ai/dgm/
[3]https://x.com/jennyzhangzt

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
章泽天戴300万腕表看欧冠决赛,穿4万的香奈儿马甲,这是真老钱风

章泽天戴300万腕表看欧冠决赛,穿4万的香奈儿马甲,这是真老钱风

可乐谈情感
2026-06-01 18:49:37
伊朗和美国同意将停火延长60天

伊朗和美国同意将停火延长60天

一种观点
2026-05-29 20:48:59
恭喜!王梦洁入选,张常宁在列,大名单公布,女排有四人

恭喜!王梦洁入选,张常宁在列,大名单公布,女排有四人

跑者排球视角
2026-06-02 23:31:32
张雪机车德比斯揭秘次回合:改了悬挂和电子,跑出第一圈速

张雪机车德比斯揭秘次回合:改了悬挂和电子,跑出第一圈速

代古龙侃球
2026-06-02 11:02:50
首个退群北约的国家来了:已走程序,退意已决!

首个退群北约的国家来了:已走程序,退意已决!

福建睿平
2026-04-27 11:46:08
普京亮剑,下达立陶宛“灭国”警告,不到24小时,立总统紧急灭火

普京亮剑,下达立陶宛“灭国”警告,不到24小时,立总统紧急灭火

李健政观察
2026-06-02 19:05:48
两项世界纪录诞生!激光隔空输电 机器人跑了24小时

两项世界纪录诞生!激光隔空输电 机器人跑了24小时

快科技
2026-06-02 22:29:23
瑞幸误将联名的Hello Kitty写成“Heelo Kitty”,多人拿到错版!客服回应:可换新也可退款

瑞幸误将联名的Hello Kitty写成“Heelo Kitty”,多人拿到错版!客服回应:可换新也可退款

封面新闻
2026-06-02 15:44:30
尾灯开裂,小米SU7车主陷入维权僵局

尾灯开裂,小米SU7车主陷入维权僵局

ZAKER新闻
2026-06-01 14:46:40
鲁比奥称美国正与伊朗谈判

鲁比奥称美国正与伊朗谈判

新华社
2026-06-02 22:32:13
女生办健康证性生活却被印在上面,内容太辣眼!医院态度让人气愤

女生办健康证性生活却被印在上面,内容太辣眼!医院态度让人气愤

小鋭有话说
2026-05-31 14:57:47
奥尔莫:队内为了抢10号球衣大打出手?根本没有这事

奥尔莫:队内为了抢10号球衣大打出手?根本没有这事

懂球帝
2026-06-02 21:41:25
活久见!深圳45岁男子卖房剩1600万,回老家建墅、存下千万吃息

活久见!深圳45岁男子卖房剩1600万,回老家建墅、存下千万吃息

火山詩话
2026-06-01 09:44:58
国际乒联官宣最新世界排名:国乒丢了3个第一,韩国竟成大赢家!

国际乒联官宣最新世界排名:国乒丢了3个第一,韩国竟成大赢家!

安海客
2026-06-01 22:11:42
穆里尼奥撬走国米球员:邓弗里斯接近皇马,4000万欧元求购帕莱斯特拉仍不足

穆里尼奥撬走国米球员:邓弗里斯接近皇马,4000万欧元求购帕莱斯特拉仍不足

绿茵情报局
2026-06-03 02:22:08
成都出台户籍新政 连续缴纳养老保险3年可申请落户

成都出台户籍新政 连续缴纳养老保险3年可申请落户

北青网-北京青年报
2026-06-02 13:02:21
霍英东临终前吐露真相:抗美援朝最致命的物资并非来自国家调拨

霍英东临终前吐露真相:抗美援朝最致命的物资并非来自国家调拨

鉴史录
2026-06-02 18:04:50
黄仁勋公开放话,华为韬定律要比台积电落后10年,结果成国际笑话

黄仁勋公开放话,华为韬定律要比台积电落后10年,结果成国际笑话

胖福的小木屋
2026-05-31 13:26:25
释永信4罪并罚,不仅私生子多,资产多,还有3位家喻户晓明星徒弟

释永信4罪并罚,不仅私生子多,资产多,还有3位家喻户晓明星徒弟

混沌录
2026-06-01 23:03:17
快讯!马英九基金会爆发离职潮!

快讯!马英九基金会爆发离职潮!

故事终将光明磊落
2026-06-02 12:40:44
2026-06-03 03:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
12731文章数 176476关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

数码
游戏
本地
家居
公开课

数码要闻

苹果watchOS 27前瞻:改进心率追踪、引入新表盘、升级Siri

离发售不远了!《寂静岭》系列新作已公开游戏评级

本地新闻

用剪纸的方式,打开江苏扬州

家居要闻

流线型轮廓 包容多元身形

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版