网易首页 > 网易号 > 正文 申请入驻

AI版三个臭皮匠!ChatGPT/Gemini/DeepSeek合体拿下AGI测试最高分

0
分享至

不圆 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT的对话流畅性、Gemini的多模态能力、DeepSeek的长上下文分析……

能不能让它们强强联合,共同解决问题呢?

那个由Transformer作者之一Llion Jones创立的明星AI公司Sakana AI,提出了新方法AB-MCTS,核心思想是:

  • 最伟大的成就往往源于不同思想的协作,我们相信这一原则同样适用于人工智能。

AB-MCTS,全称为自适应分支蒙特卡洛树搜索(Adaptive Branching Monte Carlo Tree Search),是一种使多个人工智能模型同时处理问题的算法。模型之间交换并完善建议,协同工作,就像人类团队一样。

在具有挑战性的ARC-AGI-2基准测试中,多LLM AB-MCTS解决的问题比单独工作的任何单个模型(Single-LLM AB-MCTS)都多。

有几种情况下,只有不同模型的组合才能得出正确答案。

Sakana AI已将该算法以TreeQuest的名称开源,链接可见文末。

两种搜索策略

AB-MCTS结合了两种不同的搜索策略:它可以完善现有解决方案(深度搜索),也可以尝试全新的方法(广度搜索)。

主要的技术挑战是将无界分支引入MCTS

标准MCTS仅选择并扩展叶节点(即每个节点最多被扩展一次),且扩展会添加固定数量的子节点。然而,由于在非零温度下对LLM的每个查询都可能从相同提示中产生不同的输出,分支因子理论上无限。

为了充分利用MCTS的无界分支的潜在性能提升,AB-MCTS允许那些已经扩展过一次的节点再次被扩展并进一步分支,并引入GEN节点来明确表示生成新子节点的动作。

在AB-MCTS的搜索树中,每个节点N均附带一个GEN子节点。选中带有GEN节点的父节点时,会从N生成一个新子节点。

与传统的MCTS不同,AB-MCTS不会将宽度作为静态超参数固定。

相反,在搜索树的每个节点上,AB-MCTS会自适应地决定是探索(“变宽”)通过生成新的候选响应,还是利用(“变深”)通过改进现有的响应,利用外部反馈信号。

在底层,AB-MCTS通过贝叶斯后验预测分布估计节点潜力,并用Thompson采样选择动作,以确保每次扩展都以原则性的方式平衡探索和利用。

这种设计自然地扩展了多次采样,使AB-MCTS能够在必要时利用LLMs多样化且庞大的输出空间。

在以上基础上,Sakana AI还提出了两个变体:AB-MCTS-M和AB-MCTS-A。

简单地说:

  • AB-MCTS-M:更分层。使用混合效应模型共享子树间的统计信息,通过分层贝叶斯推断平衡全局与局部探索。
  • AB-MCTS-A:更轻量。通过CONT节点显式分离“生成”与“优化”动作,并基于共轭先验实现高效后验更新,简化计算。

其利断金

对AB-MCTS进行基准测试,结果显示,AB-MCTS在各种基准测试和LLMs中始终表现出色,获得的平均排名最高并优于既定基线。

这种持续的成功源于AB-MCTS独特的动态调整搜索策略的能力,它通过精确平衡探索和利用来适应每个问题的不同需求,而基线方法中几乎缺乏这种适应性。

LiveCodeBench和CodeContest

上图左侧和中部报告了GPT-4o在LiveCodeBench和CodeContest上的成功率与生成预算的关系,可以看到,所有方法在计算预算增加时都表现出性能提升。在这两个基准测试中,AB-MCTS算法通常优于基线方法。

在LiveCodeBench,即使预算很小,AB-MCTS也开始超越基线方法;在CodeContest,预算为32及以上时,AB-MCTS表现出优于基线的性能。

ARC-AGI

上图右侧展示了GPT-4o在ARC-AGI这一特别具有挑战性的基准测试上的性能表现。可以看到,重复采样在该设置中证明是一种强大的基线,这表明对于这项任务,广泛的探索非常重要

虽然标准MCTS在预算增加时只能带来微小的改进,但AB-MCTS框架实现了与重复采样相当的性能。这表明AB-MCTS能够通过在有利时动态扩展其搜索范围来有效地探索潜在解。

MLE-Bench

上表展示了使用GPT-4o在MLE-Bench三个竞赛中的性能表现。由于MLE-Bench在训练和评估机器学习模型时需要大量的GPU资源,研究团队仅使用了GPT-4o,并专注于基线方法和AB-MCTS-M。

结果显示,最佳性能的基线方法在不同竞赛中有所不同,这再次强调了不同任务受益于不同的探索-利用权衡。

相比之下,AB-MCTS-M在这些任务中始终表现出色。

这种在不同竞赛中的一致成功突显了AB-MCTS-M在有效适应其搜索策略以应对不同问题结构方面的内在优势。

为了定量分析AB-MCTS如何平衡探索与利用,论文的研究团队还考察了生成的搜索树在每个深度的平均深度和平均宽度。

如上图显示,与标准MCTS相比,AB-MCTS方法倾向于生成更宽的树。这是因为AB-MCTS可以从任何现有节点自适应地决定探索更宽(选择GEN节点),而标准MCTS则不能。这种机制使得在不同树深度上能够进行更灵活的探索。

除了探索宽度的灵活性之外,AB-MCTS在顺序优化表现优异的基准测试中也取得了优异的性能,这表明AB-MCTS通过选择现有子节点进行优化,能够有效地识别并利用了有潜力的分支。这种自适应特性使其能够结合探索与利用的优势,在多种基准测试中表现出强大的性能。

为了研究AB-MCTS的扩展特性,使用DeepSeek-V3对ARC-AGI的实验进行了扩展,将生成预算增加到512。如上图所示,随着预算从200增加到500,AB-MCTS的性能继续显著提高,而重复采样的改进率开始趋于平稳。

标准MCTS在增加预算后也继续改进,但与AB-MCTS方法相比,其成功率显著较低。这种性能差距表明,AB-MCTS在大型计算规模下更有效地将搜索导向搜索树中更有希望的分支

上图展示了由AB-MCTS-M和标准MCTS生成的搜索树示例。这些可视化展示了AB-MCTS-M相比标准MCTS具有更强的自适应分支特性。

这种自适应性表明,AB-MCTS-M在整个搜索过程中灵活地平衡探索与利用,能够动态分配预算以探索多样化的新候选者(“拓展宽度”)和优化有潜力的候选者(“深入挖掘”)。

以上结果表明,即使考虑到重复采样的固有优势,AB-MCTS仍是一种有前景的方法,能够高效利用生成预算在各种场景中取得更优结果。

在具有挑战性的ARC-AGI-2基准测试中,AB-MCTS结合ChatGPT、Gemini和DeepSeek解决了30%的ARC-AGI-2谜题,而顶尖的独立模型仅解决了23%。

结果显示,有几种情况下,只有不同模型的组合才能得出正确答案。

自然启发与创新之路

上述关于AB-MCTS的研究并非凭空产生,它基于Sakana AI 2024年在进化模型融合方面的工作,该团队将重点从“混合以创造”转向“混合以使用”现有的强大AI。

他们是这样说的:

  • 在Sakana AI,我们始终致力于通过应用受自然启发的原则(如进化和集体智能)来开创新型AI系统。

他们也确实这样做了:

不仅仅是2024年的进化合并模型,就在今年5月,Sakana AI还和哥伦比亚大学的科研人员共同开发了达尔文-哥德尔机(DGM)——这是一个旨在自我进化的AI框架,并非针对固定目标进行优化,而是从生物进化与科学发现中汲取灵感,通过开放式搜索和持续的自我修改来生成新的解决方案。

而前段时间,有两位物理学家以生物系统自我组装的过程为参考,揭示了扩散模型“创造力”的本质……

这些发现和创造都是“自然式启发”的体现。

参考链接:
[1]https://the-decoder.com/sakana-ais-new-algorithm-lets-large-language-models-work-together-to-solve-complex-problems/
[2]https://x.com/SakanaAILabs/status/1939854145856708910

论文:https://arxiv.org/abs/2503.04412
算法(TreeQuest): https://github.com/SakanaAI/treequest
ARC-AGI实验:https://github.com/SakanaAI/ab-mcts-arc2

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
恭喜湖人!冠军中锋来了!老詹东契奇或迎雷霆首发内线哈滕

恭喜湖人!冠军中锋来了!老詹东契奇或迎雷霆首发内线哈滕

湖人侃球师
2026-02-01 06:50:07
轻易把女人约出来的4种方法,坏男人都精通,老实男快学

轻易把女人约出来的4种方法,坏男人都精通,老实男快学

文雅笔墨
2026-01-31 03:31:14
湖人三分出手多但不准,东契奇八村塁难扛大旗,乐福或成破局关键

湖人三分出手多但不准,东契奇八村塁难扛大旗,乐福或成破局关键

不凡体育
2026-02-01 13:08:10
害怕春节被“斩首”?赖清德当局加紧春节备战!模拟解放军突袭机场等关键设施,台军演练短程防空接战、地空整体作战、无人机攻击等

害怕春节被“斩首”?赖清德当局加紧春节备战!模拟解放军突袭机场等关键设施,台军演练短程防空接战、地空整体作战、无人机攻击等

每日经济新闻
2026-01-31 19:15:15
美国华人直言:中国手机扫码支付是最不智能的发明!

美国华人直言:中国手机扫码支付是最不智能的发明!

阿伧说事
2026-01-20 12:53:01
婆婆当了近四十年的老师,今年刚好退休,我还以为退休金最多4000

婆婆当了近四十年的老师,今年刚好退休,我还以为退休金最多4000

五元讲堂
2026-01-26 11:26:26
破旧衣服大叔摸狗后续:狗主人回应,已联系社区帮助,大叔已回家

破旧衣服大叔摸狗后续:狗主人回应,已联系社区帮助,大叔已回家

离离言几许
2026-01-31 11:04:37
蒙哥马利有多痴情?对寡妇贝蒂一见钟情,甘愿做她两个孩子的继父

蒙哥马利有多痴情?对寡妇贝蒂一见钟情,甘愿做她两个孩子的继父

饭小妹说历史
2026-01-17 09:12:37
日本羽毛球界再次诞生超级美少女,韩媒疯狂报道

日本羽毛球界再次诞生超级美少女,韩媒疯狂报道

随波荡漾的漂流瓶
2026-01-22 12:00:14
2月1日,券商给予评级并且给出目标价的公司一览

2月1日,券商给予评级并且给出目标价的公司一览

A股数据表
2026-02-01 06:00:03
中国芯片英雄,被美国囚禁9年后终于回家!他反手把苹果告上法庭

中国芯片英雄,被美国囚禁9年后终于回家!他反手把苹果告上法庭

胖哥不胡说
2026-01-24 18:45:24
中铁建领导、员工薪资大曝光!

中铁建领导、员工薪资大曝光!

黯泉
2026-01-31 22:24:38
28元到5元!“股息奶牛”大秦铁路陨落,21万股民被套真相

28元到5元!“股息奶牛”大秦铁路陨落,21万股民被套真相

慧眼看世界哈哈
2026-01-07 11:54:23
连超湖人太阳升西部第5!华子33分森林狼大胜灰熊 兰德尔27+7+7

连超湖人太阳升西部第5!华子33分森林狼大胜灰熊 兰德尔27+7+7

醉卧浮生
2026-02-01 11:20:02
董璇小酒窝参加朵朵生日会,陈思诚罕见露面,两家人合照太有爱了

董璇小酒窝参加朵朵生日会,陈思诚罕见露面,两家人合照太有爱了

扒虾侃娱
2026-01-31 18:25:21
为什么大多数中国家长无法独立带娃?网友的分享犹如醍醐灌顶

为什么大多数中国家长无法独立带娃?网友的分享犹如醍醐灌顶

另子维爱读史
2026-01-31 20:12:55
最惨首相诞生?高市早苗支持率雪崩,17天豪赌变全民打脸现场!

最惨首相诞生?高市早苗支持率雪崩,17天豪赌变全民打脸现场!

孤单是寂寞的毒
2026-02-01 12:47:43
78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

林雁飞
2026-01-29 16:31:48
山东省纪委监委最新通报!

山东省纪委监委最新通报!

齐河大视野广告
2026-02-01 10:49:23
马斯克拉响警报:旧世界只剩5年,中国手握的唯一王牌,不是芯片

马斯克拉响警报:旧世界只剩5年,中国手握的唯一王牌,不是芯片

郭蛹包工头
2026-01-30 11:33:20
2026-02-01 13:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
12092文章数 176369关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

媒体:宝可梦十年间三次踩线 可不是简单的"工作失误"

头条要闻

媒体:宝可梦十年间三次踩线 可不是简单的"工作失误"

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

艺术
手机
教育
公开课
军事航空

艺术要闻

明代隐藏的“草书高手”,他的字无人能模仿

手机要闻

老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

教育要闻

高二上学期结束了,英语只有20分怎么办?要如何才能提分?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版