网易首页 > 网易号 > 正文 申请入驻

Meta华人实习生搞出超级智能体!自己写代码实现自我进化

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

能无限进步的「超级智能体」来了!

最近,Meta研究团队的一篇题为HYPERAGENTS(超级智能体)的论文迅速刷屏。



这篇论文将LSTM之父Jürgen Schmidhuber二十年前提出的哥德尔机(Gödel Machine)思想,与达尔文开放算法相结合,提出了能持续自我迭代的达尔文哥德尔机

基于此这一思想,Agent不仅能更好地完成具体任务、持续提高自身表现。

更关键的是,它可以不断优化“改进自身”的底层逻辑,实现“元学习(Meta-learning)”

这,便是论文定义的新一代超级智能体——Hyperagents

论文更进一步提出:未来AI有望通过持续自我迭代,最终突破人类预设的初始算法边界,也正因如此,AI安全必须被摆在核心位置。

不少网友也感慨道:

  • 元学习真正让人既害怕又兴奋的,是元层面的改进能够跨领域迁移。这不是在某一件事上变得更厉害,而是学会了在一切事情上变得更厉害。



目前,这篇论文已被ICLR 2026接收。



从哥德尔机到达尔文哥德尔机

要理解超级智能体Hyperagents,必须先了解它的基石——

哥德尔机(Gödel Machine)

哥德尔机是一种假设性的自我完善型AI。它在数学上寻求证明:

如果存在某种更好的策略,它会通过递归重写自身代码来解决问题。

而这一假设,最早由尤尔根·施密德胡伯(Jürgen Schmidhuber)在二十多年前提出。



在传统机器学习中,AI的“学习方法”是人类预设的硬编码,它只能通过调整内部参数来逼近目标

而哥德尔机则打破了这一限制,它能够将算法框架本身视为可编辑的代码,通过自主重写程序来实现学习能力的自我演进

但问题也随之而来:哥德尔机往往要求AI在自我演进之前,证明该改动具备净收益。

也就是说,改代码花掉的算力成本,未来能不能通过更强的性能赚回来?

不幸的是,这种计算在现实中的复杂任务中几乎是无法实现的。

针对这一问题,Meta团队提出达尔文哥德尔机(DGM),它利用开放式算法(Open-ended algorithms),通过在大模型提议的代码改进方案中进行搜索,获取能从经验上提升性能的方案。



换句话说,DGM利用基础模型来提议代码改进方案,并利用开放式算法的最新创新成果,来搜索并构建一个不断增长的、多样化且高质量的AI智能体库。

基于此,DGM能创造出各种自我改进方案,例如:增加补丁验证(Patch Validation)步骤、优化文件查看功能、增强编辑工具、生成并筛选多个解决方案以选出最优解,以及在进行新更改时,会自动添加历史尝试记录(并分析失败原因)以供参考。

论文的实验还表明,DGM获得的算力越多,自我提升效果越好。

超级智能体

虽然DGM很强,但它存在一个致命限制:它主要在编程任务中有效

这是因为DGM依赖一个关键假设——评估任务与自我修改任务必须“对齐”。




在编程领域,这种对齐是天然的:提升了编程能力,自然也就提升了修改自身代码的能力。

也就是说,解决外部编程问题的逻辑工具,可以直接转化为修改其自身底层代码的能力。

相反,如果是在非编程领域(如写诗),即便提升了写诗能力,也无法直接转化为修改代码的逻辑水平。

在这种缺乏“自指性(Self-referentiality)”的任务中,DGM的递归进化链条就会断裂,陷入停滞。

基于此,文章提出超级智能体——

它们既能修改自己的任务执行行为,也能修改生成未来改进建议的过程。

这实现了所谓的元认知自我修改(metacognitive self-modification):不仅学习如何做得更好,还学习如何更有效地进行改进。

进一步,论文将超级智能体实例化为DGM-Hyperagents (DGM-H)。

DGM-H是对DGM的扩展,其中任务解决行为和自我改进程序都是可编辑且可进化的,其框架如下:



  • 自指性架构:它将“任务智能体(Task Agent)”与“元智能体(Meta Agent)”整合为一个单一的、可编辑的程序。
  • 元级进化:在Hyperagents中,“改进的方法”本身也是可以被改进的。这使得系统不再要求任务与修改必须对齐,从而实现了跨领域的“元认知自我修改”。

打个比方,在Hyperagents中,运动员不仅在训练,教练也在学习如何更好地执教。由此,运动员的表现和教练的执教水平不断螺旋上升。

此外,DGM-H还改进了生成新智能体的过程(例如引入持久化记忆、性能追踪等),且这些元级改进具有跨领域迁移和跨运行累积的特性。

实验验证:从20%到50%的跨越

实验证明,达尔文哥德尔机(Darwin Gödel Machine)能够通过修改自身代码库实现持续的自我提升。

在SWE-bench上,DGM自动将其性能从20.0%提升至50.0%



在Polyglot上,DGM的性能从初始的14.2%跃升至30.7%,远超由Aider开发的具有代表性的人工设计智能体。



这些结果证明了DGM能发现并实施有效的自我改进。

而实现这一点的关键在于其开放式进化搜索策略:

通过从现有智能体库中采样生成新智能体,DGM能够并行探索多条进化路径。



性能稍逊的“祖先”智能体在发现新方法和功能方面起关键作用,避免了早熟收敛。



此外,DGM的改进具有广泛的迁移性:

  • 针对Claude 3.5 Sonnet优化的智能体,在切换到o3-mini或Claude 3.7 Sonnet时仍能提升性能。
  • 在Polyglot基准中,Python任务上的自我改进同样提升了Rust、C++、Go等不同语言任务的表现。



作者介绍

最后,让我们来介绍一下这篇论文的作者们。



这篇论文的第一作者是来自UBC的Jenny Zhang,她师从Jeff Clune教授。



她本科就读于帝国理工,这篇论文是她在Meta实习期间完成的。她的研究方向专注于强化学习、自改进AI与Open-Ended AI。

Bingchen Zhao是来自爱丁堡大学的博士生,,师从Oisin Mac Aodha教授

他本科毕业于同济大学,他此前在Meta FAIR团队,致力于构建自我改进的AI系统。



Wannan Yang在纽约大学攻读博士,目前在Meta超级智能实验室实习,她本科毕业于爱丁堡大学。



论文的其他作者还包括Jeff Clune、以及来自Meta的研究员Minqi Jiang(已离职)、Sam DevlinTatiana Shavrina。


[1]https://arxiv.org/pdf/2603.19461
[2]https://sakana.ai/dgm/
[3]https://x.com/jennyzhangzt

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突传死讯!香港知名演员因肺炎离世,曾家中意外摔倒接受开颅手术

突传死讯!香港知名演员因肺炎离世,曾家中意外摔倒接受开颅手术

TVB的四小花
2026-03-31 13:15:58
炸了!外国记者实锤,过霍尔木兹海峡,只认人民币不认美元

炸了!外国记者实锤,过霍尔木兹海峡,只认人民币不认美元

戗词夺理
2026-03-31 11:25:57
关东、关西、关中、关内、关外,到底指的是哪里?

关东、关西、关中、关内、关外,到底指的是哪里?

长风文史
2026-03-28 09:18:06
危险信号!特朗普,彻底被架空了!

危险信号!特朗普,彻底被架空了!

大嘴说天下
2026-03-30 18:13:30
你好星期六让观众不满的,不是抢风头的刘宇宁,而是疑似揩油的他

你好星期六让观众不满的,不是抢风头的刘宇宁,而是疑似揩油的他

一娱三分地
2026-03-30 15:10:59
下饭文化杀死了多少中国胃,一碗米饭的阴谋

下饭文化杀死了多少中国胃,一碗米饭的阴谋

富贵说
2026-03-05 15:56:38
苹果憋了3年的大招,被一张钢化膜提前剧透

苹果憋了3年的大招,被一张钢化膜提前剧透

摸鱼算法
2026-03-31 07:46:47
微软把Linux藏了8年,10GB表格秒开让Excel用户破防

微软把Linux藏了8年,10GB表格秒开让Excel用户破防

Ping值焦虑
2026-03-31 09:08:56
速效救心丸、硝酸甘油、阿司匹林,关键时刻用哪个?答案跟你想的不一样

速效救心丸、硝酸甘油、阿司匹林,关键时刻用哪个?答案跟你想的不一样

人民日报健康客户端
2026-03-27 21:12:30
战火烧到台湾,岛内疯抢塑料袋,赖党黔驴技穷,台湾有条更好的路

战火烧到台湾,岛内疯抢塑料袋,赖党黔驴技穷,台湾有条更好的路

通文知史
2026-03-31 04:15:03
13分钟6+11+3帽!太阳10号秀已成主力轮换 他与杨瀚森已拉开差距

13分钟6+11+3帽!太阳10号秀已成主力轮换 他与杨瀚森已拉开差距

颜小白的篮球梦
2026-03-31 10:37:46
40年差距扎心了!俄媒:C919满客飞京沪,他们的飞机还在等适航证

40年差距扎心了!俄媒:C919满客飞京沪,他们的飞机还在等适航证

林子说事
2026-03-31 06:45:31
央国企降薪第一刀:取消证书补贴

央国企降薪第一刀:取消证书补贴

新浪财经
2026-03-30 04:41:15
比赖清德更狂的人出现了,只要她当上台湾领导人,解放军必定收台

比赖清德更狂的人出现了,只要她当上台湾领导人,解放军必定收台

共工之锚
2026-03-29 18:26:19
4月即将上市的7款重磅新车,最后一款大概率凉凉?

4月即将上市的7款重磅新车,最后一款大概率凉凉?

汽车天涯
2026-03-29 10:51:42
天津一医院突发危急事件

天津一医院突发危急事件

天津族
2026-03-31 07:32:37
佤族为国守边1720年,却在1953年致信毛主席:若不要我们,请告知

佤族为国守边1720年,却在1953年致信毛主席:若不要我们,请告知

小莜读史
2026-03-29 21:47:54
难怪红霉素软膏越来越好,这7大用途超厉害,早知道早受益!

难怪红霉素软膏越来越好,这7大用途超厉害,早知道早受益!

妙招酷
2026-03-26 22:33:25
为什么要加入CPTPP?啃不下这6块硬骨头,未来中国可能会很难!

为什么要加入CPTPP?啃不下这6块硬骨头,未来中国可能会很难!

世界圈
2026-03-28 12:25:46
愁死人了!有广东村民发文称盖房挖地基挖出个无主祖坟,网友热议

愁死人了!有广东村民发文称盖房挖地基挖出个无主祖坟,网友热议

芭比衣橱
2026-03-31 03:12:00
2026-03-31 14:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
12381文章数 176433关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

从俄乌冲突到伊朗战争:4年间AI从"打辅助"到"做决策"

头条要闻

从俄乌冲突到伊朗战争:4年间AI从"打辅助"到"做决策"

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

16万级最强2.0T 全新一代瑞虎9来了

态度原创

手机
旅游
亲子
公开课
军事航空

手机要闻

消息称苹果iPhone 20边框1.1毫米,极致圆润设计

旅游要闻

春假趣玩合肥!20+A级景区集结,承包你的春日欢乐时光

亲子要闻

胡图图早上发现自己有一只乌龟不见了,所以不太开心 杨雪呀

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

第三艘航母出动数千名士兵抵达 美军大举增兵中东战场

无障碍浏览 进入关怀版