网易首页 > 网易号 > 正文 申请入驻

Sakana AI 推出 TreeQuest

0
分享至

日本人工智能实验室 Sakana AI 推出了一项新技术,允许多个大语言模型在单一任务上协作,有效地创建了一个人工智能智能体的"梦之队"。这种名为 Multi-LLM AB-MCTS 的方法使模型能够进行试错并结合各自独特的优势,解决对任何单个模型来说都过于复杂的问题。

对于企业而言,这种方法提供了开发更强大、更可靠的人工智能系统的途径。企业不必局限于单一供应商或模型,可以动态利用不同前沿模型的最佳特性,为任务的不同部分分配合适的人工智能,从而获得卓越的结果。

集体智慧的力量

前沿人工智能模型正在快速发展。然而,每个模型都有其源于独特训练数据和架构的不同优势和劣势。一个模型可能在编程方面表现出色,而另一个可能在创意写作方面更胜一筹。Sakana AI 的研究人员认为,这些差异不是缺陷,而是特色。

"我们认为这些偏见和不同的能力不是限制,而是创造集体智慧的宝贵资源,"研究人员在博客文章中表示。他们相信,正如人类最伟大的成就来自多元化团队一样,人工智能系统也可以通过协作取得更大成就。"通过汇集智慧,人工智能系统可以解决任何单一模型都无法克服的问题。"

在推理时间进行更深入的思考

Sakana AI 的新算法是一种"推理时扩展"技术(也称为"测试时扩展"),这是过去一年中非常热门的研究领域。虽然人工智能领域的大部分关注点都集中在"训练时扩展"(使模型更大并在更大的数据集上训练),但推理时扩展通过在模型已经训练完成后分配更多计算资源来提高性能。

一种常见方法是使用强化学习来提示模型生成更长、更详细的思维链序列,如在 OpenAI o3 和 DeepSeek-R1 等流行模型中所见。另一种更简单的方法是重复采样,即对模型多次给出相同提示以生成各种潜在解决方案,类似于头脑风暴会议。Sakana AI 的工作结合并推进了这些想法。

"我们的框架提供了更智能、更具策略性的 Best-of-N(即重复采样)版本,"Sakana AI 研究科学家、论文共同作者 Takuya Akiba 告诉 VentureBeat。"它通过强化学习补充了长思维链等推理技术。通过动态选择搜索策略和合适的大语言模型,这种方法在有限的大语言模型调用次数内最大化性能,在复杂任务上提供更好的结果。"

自适应分支搜索的工作原理

新方法的核心是一个名为自适应分支蒙特卡洛树搜索(AB-MCTS)的算法。它使大语言模型能够通过智能地平衡两种不同的搜索策略来有效地进行试错:"深度搜索"和"广度搜索"。深度搜索涉及采用一个有前景的答案并反复改进它,而广度搜索意味着从头开始生成全新的解决方案。AB-MCTS 结合了这些方法,允许系统改进一个好想法,但如果遇到死胡同或发现另一个有前景的方向,也可以转向尝试新的东西。

为了实现这一点,系统使用蒙特卡洛树搜索(MCTS),这是一种决策算法,因被 DeepMind 的 AlphaGo 使用而闻名。在每一步,AB-MCTS 使用概率模型来决定改进现有解决方案还是生成新解决方案在策略上更有利。

研究人员通过 Multi-LLM AB-MCTS 进一步推进了这项技术,它不仅决定"做什么"(改进vs生成),还决定"哪个"大语言模型应该来做。在任务开始时,系统不知道哪个模型最适合这个问题。它首先尝试可用大语言模型的平衡组合,随着进展,学习哪些模型更有效,随着时间的推移将更多工作负载分配给它们。

测试人工智能"梦之队"

研究人员在 ARC-AGI-2 基准测试上测试了他们的 Multi-LLM AB-MCTS 系统。ARC(抽象和推理语料库)旨在测试解决新颖视觉推理问题的类人能力,使其对人工智能来说极其困难。

该团队使用了包括 o4-mini、Gemini 2.5 Pro 和 DeepSeek-R1 在内的前沿模型组合。

模型集合能够为 120 个测试问题中超过 30% 的问题找到正确解决方案,这一分数显著超过了任何单独工作的模型。系统展示了为给定问题动态分配最佳模型的能力。在存在明确解决方案路径的任务上,算法快速识别出最有效的大语言模型并更频繁地使用它。

更令人印象深刻的是,团队观察到模型解决了此前任何单一模型都无法解决的问题。在一个案例中,o4-mini 模型生成的解决方案是错误的。然而,系统将这个有缺陷的尝试传递给 DeepSeek-R1 和 Gemini-2.5 Pro,它们能够分析错误、纠正错误,并最终产生正确答案。

"这表明 Multi-LLM AB-MCTS 可以灵活地结合前沿模型来解决以前无法解决的问题,推动了使用大语言模型作为集体智慧可实现目标的极限,"研究人员写道。

"除了每个模型的个别优缺点外,产生幻觉的倾向在它们之间可能存在显著差异,"Akiba 说。"通过与不太可能产生幻觉的模型创建集成,可能实现两全其美:强大的逻辑能力和强大的基础性。由于幻觉是商业环境中的主要问题,这种方法对其缓解可能很有价值。"

从研究到现实世界应用

为了帮助开发者和企业应用这项技术,Sakana AI 已将底层算法作为名为 TreeQuest 的开源框架发布,采用 Apache 2.0 许可证(可用于商业目的)。TreeQuest 提供灵活的 API,允许用户为自己的任务实施 Multi-LLM AB-MCTS,并具有自定义评分和逻辑。

"虽然我们在将 AB-MCTS 应用于特定面向业务的问题方面还处于早期阶段,但我们的研究显示了在几个领域的巨大潜力,"Akiba 说。

除了 ARC-AGI-2 基准测试外,该团队还能够成功地将 AB-MCTS 应用于复杂算法编程和提高机器学习模型准确性等任务。

"AB-MCTS 对于需要迭代试错的问题也可能非常有效,比如优化现有软件的性能指标,"Akiba 说。"例如,它可以用于自动找到改善网络服务响应延迟的方法。"

实用开源工具的发布可能为新一类更强大、更可靠的企业人工智能应用铺平道路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法媒:前切尔西主帅罗塞尼尔已同意执教巴黎FC

法媒:前切尔西主帅罗塞尼尔已同意执教巴黎FC

懂球帝
2026-06-29 19:13:10
就一个包都十几万了起步了,真有钱!

就一个包都十几万了起步了,真有钱!

舞指飞扬
2026-06-28 11:23:22
又一美国科技巨头转向中国大模型!Coinbase带头用上GLM与Kimi

又一美国科技巨头转向中国大模型!Coinbase带头用上GLM与Kimi

快科技
2026-06-30 00:09:12
身中30多刀!34岁被害人带人看房,惨死出租屋内,现场遍布血迹!20年后凶手线索浮现

身中30多刀!34岁被害人带人看房,惨死出租屋内,现场遍布血迹!20年后凶手线索浮现

南方都市报
2026-06-28 15:08:45
人民日报万字长文砸向日本!琉球不是日本固有领土,别装不知道

人民日报万字长文砸向日本!琉球不是日本固有领土,别装不知道

一家说
2026-06-28 03:43:35
卷巨额遗产出逃英国,给杨振宁戴绿帽子,翁帆身上的谣言有多离谱

卷巨额遗产出逃英国,给杨振宁戴绿帽子,翁帆身上的谣言有多离谱

叨唠
2026-05-27 04:13:37
罗马里奥:我非常尊重C罗,他是有史以来最伟大的球员之一

罗马里奥:我非常尊重C罗,他是有史以来最伟大的球员之一

懂球帝
2026-06-29 12:09:50
内娱完了?短剧演员杀进综艺,全员素颜上阵,直接把明星脸打肿!

内娱完了?短剧演员杀进综艺,全员素颜上阵,直接把明星脸打肿!

可乐谈情感
2026-06-28 14:28:57
日本第一美臀,NBA最美混血记者!170cm钢铁沙漏身材太绝了!

日本第一美臀,NBA最美混血记者!170cm钢铁沙漏身材太绝了!

云端小院
2026-06-15 10:47:21
一大批药店老板,正连夜「跑路 」

一大批药店老板,正连夜「跑路 」

白熊消费
2026-06-29 14:31:40
场均12分稳坐男篮首发 场均21分却进不了国家队 22岁后卫恐被埋没

场均12分稳坐男篮首发 场均21分却进不了国家队 22岁后卫恐被埋没

篮球圈里的那些事
2026-06-29 20:50:52
阿斯:世界杯后奥利塞将与拜仁会谈,了解俱乐部对自己的想法

阿斯:世界杯后奥利塞将与拜仁会谈,了解俱乐部对自己的想法

懂球帝
2026-06-29 22:23:04
谢霆锋王菲牵手回京,两人全程十指紧扣,网友:身高差太明显

谢霆锋王菲牵手回京,两人全程十指紧扣,网友:身高差太明显

白面书誏
2026-06-29 17:13:19
洗头后,吹风机与自然干,哪个更伤头发?研究结果打脸了

洗头后,吹风机与自然干,哪个更伤头发?研究结果打脸了

名医在线网
2026-06-17 10:57:40
像被“啃”了一圈!30岁女子长期喝饮料提神,满口长出“可乐牙”

像被“啃”了一圈!30岁女子长期喝饮料提神,满口长出“可乐牙”

南方都市报
2026-06-29 08:16:16
世界杯32强,为何只有两朵亚洲火苗?

世界杯32强,为何只有两朵亚洲火苗?

葛爱平的评球
2026-06-29 12:18:26
欣赏日本足球无可厚非,但体育从来脱离不了政治,爱国底线不能丢

欣赏日本足球无可厚非,但体育从来脱离不了政治,爱国底线不能丢

胡言炫语
2026-06-28 23:08:46
法国的国菜鹅肝,正在被中国的两个小县城悄悄打垮。

法国的国菜鹅肝,正在被中国的两个小县城悄悄打垮。

电动猫
2026-06-26 13:17:53
马未都锐评“走面儿”风波,字字直戳韩红心窝,评论区不堪入目

马未都锐评“走面儿”风波,字字直戳韩红心窝,评论区不堪入目

梦在深巷qw
2026-06-27 16:26:37
江苏男子户外吃烧烤,发现周围人“炸毛”,头发竖起来;当地回应:烧烤炉静电引起,不是漏电

江苏男子户外吃烧烤,发现周围人“炸毛”,头发竖起来;当地回应:烧烤炉静电引起,不是漏电

河南交通广播1041
2026-06-29 23:59:37
2026-06-30 00:36:49
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19706文章数 49712关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

美从俄乌战场抽身 金灿荣:美国有个大战略目标已完成

头条要闻

美从俄乌战场抽身 金灿荣:美国有个大战略目标已完成

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

万达广场批量易主 多位投资人正式入局

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

健康
本地
家居
公开课
军事航空

狂吃“糯叽叽”小心肠梗阻!

本地新闻

贵州小城的新目标:举办“村超”世界杯!

家居要闻

传奇筑 日常诗

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京最新发声:俄罗斯正处于命运攸关之际

无障碍浏览 进入关怀版