网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

6位前DeepMind老将打造「AI指挥官」，一半成本刷新SOTA

2025-12-14 13:21:44　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：元宇

【新智元导读】6位前DeepMind成员以元系统重塑大模型调用方式，该系统推出的Gemini 3 Pro优化技术在ARC-AGI-2上以54%的成绩夺得榜首，而成本仅为此前最优方法的一半。

最近，6名前Google DeepMind研究员、工程师又搞大事了。

他们的新初创公司Poetiq没去研发更大、更聪明的模型，而是搭建了一个元系统，该系统可以让前沿大模型自动生成解决特定任务的策略和模型组合。

这样不仅解决了前沿模型难以单独解决复杂真实世界问题的痛点，还将整体推理成本降低了一半。

12月8日，ARC Prize官宣验证了该团队的成果。

由Poetiq推出的Gemini 3 Pro优化技术，在ARC-AGI-2 leaderboard上创下新SOTA，得分高达54%，每任务计算成本仅31美元。

这一突破远超此前模型的最优表现，在leaderboard上力压群雄。

Poetiq团队揭秘

Poetiq初创团队均来自Google DeepMind

Poetiq是一个精干且高度技术型的团队，由6名来自Google DeepMind的研究员与工程师组成。

该创始团队成员一共拥有53年的专业经验，他们在Poetiq的目标是「以更优的推理，铺就通过安全超级智能的最快路径」。

12月5日，这家成立不到一年的公司自豪地宣布：

「Poetiq系统已经大幅超越现有方法，并树立了新的行业最佳表现。」

如上图所示，Poetiq系统在ARC-AGI-2半私有评估集上创下新纪录。

11月20日，Poetiq已经公布了自己在ARC-AGI-2上的强劲表现，此次ARC Prize对Poetiq公布的成绩进行了官方验证。

Poetiq开发的一套纯Gemini配置参与了ARC Prize的官方评估。

该系统以每题30.57美元的成本取得了54%的成绩，打破了此前Gemini 3 Deep Think创下的每题成本77.16美元、45%的最佳成绩。

Poetiq团队表示，在ARC-AGI-2公共数据集上，Poetiq系统建立了全新的帕累托前沿，不仅超越以往成果，还进一步推动了成本效益推理的边界。

Poetiq团队将这一成绩，归结为它的元系统。

元系统

在任意模型上构建智能

Poetiq的方法是在任意模型之上构建智能。

其元系统旨在利用任何现成的前沿模型，自动生成能解决特定任务的完整系统，无需构建甚至不需要微调自己的大前沿模型。

这也是为什么Poetiq能在Gemini 3与GPT-5.1发布后数小时内，就将它们快速接入并取得SOTA表现的原因。

如上图所示，Poetiq元系统在ARC-AGI-1和ARC-AGI-2上不仅全面刷新了以往成绩，也再次推进了低成本推理的边界。

相比之下，Gemini 3 Deep Think（预览版）成本明显更高，准确率却更低。Poetiq（Gemini-3-a、b、c）展示了Poetiq如何利用多个大语言模型，在任意成本目标下实现最大化性能。
Poetiq系统可以通过多次调用Gemini-3来程序化地处理ARC-AGI-1和ARC-AGI-2的问题，从而在广泛的计算区间内实现帕累托最优。
Poetiq（Grok-4-Fast）主打极致成本效率，构建于Grok-4-Fast Reasoning模型之上。不仅比原模型报告的结果更便宜、准确率更高，还能达到与价格高两个数量级的模型相当的准确度。
Poetiq（GPT-OSS-b）基于开源权重模型GPT-OSS-120B，在单题不到1美分的成本下仍取得了非常亮眼的准确率。
Poetiq（GPT-OSS-a）基于GPT-OSS-120B的低思考版本，用来展示极限成本条件下的系统表现。

以上这些方案虽然各自都能独立运行，但它们共同的底层是Poetiq灵活的元系统。

这个元系统的核心优势之一即能自动选择模型组合与策略，甚至会自行判断何时要写代码、又该由哪个模型负责写代码。

Poetiq的递归、自我改进系统完全不依赖特定大模型，在接入最新模型时也能充分展现其能力。

使用Poetiq元系统强化主流模型

为了进一步展示Poetiq元系统的能力，研究人员将其应用到多个来自Google DeepMind、OpenAI、Anthropic和xAI的最新模型上。

每一次，Poetiq都实现了「更高准确率+更低成本」的组合。

上图中展示了12个模型（包括ChatGPT、Claude Haiku、Gemini、Grok 4、GPT-OSS）在ARC-AGI-1上经过Poetiq处理后的表现。

Poetiq是如何做到的？秘诀其实只有一句话：

从上到下，全靠大语言模型。

Poetiq使用大模型来构建系统、改进系统、也让系统本身运行起来。

正是这种灵活、强大且递归的系统架构，让Poetiq能快速取得如此一系列SOTA成果。

Poetiq选择开源的具体配置，主要为了展示2个重要理念：

提示词只是接口层，并非智能本体

系统在一个循环式的解题流程中运行：它不会只问一次，而是先让大模型生成一个可能的答案（有时包括代码），根据反馈进行分析，然后再继续利用模型改进答案。

这种多步骤、自我完善的方式，让系统能逐步构建并打磨最终解答。

自我检查

系统会自主检查自己的进展，决定什么时候信息足够、结果可靠，从而自动结束流程。

这种自我监控机制能有效避免浪费算力，让整体成本更低。

为什么选择ARC-AGI？

Poetiq认为ARC-AGI是验证自身核心理念的理想测试场。

大模型蕴含了大量人类知识，但在复杂推理任务上经常出现不稳定的情况。

一个原因是模型表现高度依赖提示词，而其随机性会让知识提取变得不够可靠，从而使推理步骤难以预测。

真正的挑战在于：如何发现一种推理策略，既能找出需要的信息，又能在找到信息时顺利将其组合起来，并智能判断下一步该做什么。

Poetiq的核心目标，就是为了让这一过程能够自动化并不断优化。

Poetiq所构建的系统并不预设推理策略，而是让模型自主发现最适配的推理方式，并能在现实限制（预算、Token或算力）内工作。

这将释放生成式AI在复杂推理方面的真正潜力。

Poetiq的系统能在短时间内适配任务特性与模型特性，而ARC-AGI测试的是模型抽象推理、归纳、逻辑、生成策略能力，这和Poetiq系统的优势也是相互匹配的。

为了使Poetiq的元系统能够随着每次解决新任务而持续进化，任务的多样性也非常关键。

为此，Poetiq的团队正在让系统攻克更多基准任务，涵盖多种推理与检索需求。

此外，Poetiq系统的优点是擅长与其他系统协作。

该系统可以用来优化现有大型系统内部的AI组件。

如果能够在不修改模型本身的前提下，利用前沿模型中丰富的世界知识来解决长时序任务，如果能让底层知识提取机制更适配大模型，也许就不需要进行模型调优，这些正是Poetiq下一步努力的方向之一。

参考资料：

https://poetiq.ai/posts/arcagi_verified/%20

https://x.com/arcprize/status/1997743855203148038?s=20

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

并购激励金都不要了？Windsurf核心工程师离开DeepMind

机器之心Pro 2026-05-25 20:37:38
0 跟贴 0
DeepMind之父惊人自白：我造的AI可能灭绝人类，但已无人能停下

新智元 2026-03-30 21:26:17
363 跟贴 363

拔电池、拆外壳、卸安卓，Google让旧手机重生成了AI服务器

雷科技 2026-06-27 14:20:26
0 跟贴 0

100多万人围观！没头没腿，神似充电宝的机器人全网走红？

机器之心Pro 2026-06-17 18:52:08
2 跟贴 2
2028，RSI降临！

新智元 2026-06-28 12:17:46
3 跟贴 3

2026年，大模型训练的下半场属于「强化学习云」

机器之心Pro 2026-01-12 14:03:47
0 跟贴 0

具身数据战开打！普通人都能上手，边采边筛，只喂机器人爱吃的

量子位 2026-01-12 12:20:02
0 跟贴 0
GPT5.6惨遭切脑！Fable 5回归要变弱鸡版?

新智元 2026-06-28 17:56:18
1 跟贴 1

大模型的能力从哪些训练数据来？北大&智源提出「机理数据归因」

机器之心Pro 2026-06-28 16:18:22
0 跟贴 0
AI破解2000年前庞贝古卷！烧成灰烬的草纸内容被机器学习完整破译

DeepTech深科技 2026-06-28 22:09:50
5 跟贴 5
亦庄机器人马拉松现场名场面合集

量子位 2026-04-20 00:34:54
0 跟贴 0
活力中国调研行｜通用数据大模型进厂，传统石雕也用上AI设计⋯⋯实探工业AI如何在这里升级迭代

每日经济新闻 2026-06-28 15:22:06
0 跟贴 0
AI Agent是科技革命中的一次真正的范式转移

量子位 2026-04-03 22:52:35
0 跟贴 0
Agent输出到底该用谁？卡帕西转发：试试让AI输出HTML

量子位 2026-05-13 07:19:50
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
大神程序员蒸馏自己，用16个skill给AI注入软件工程之魂

量子位 2026-05-12 03:08:58
0 跟贴 0
这个时代必须以Agent为中心：三个趋势回顾

量子位 2026-04-05 02:14:15
0 跟贴 0
安心养虾！从OpenClaw 看云上AI安全落地路径

量子位 2026-04-18 19:55:39
0 跟贴 0
邱锡鹏：未来我们一定会进入泛情境智能时代

量子位 2026-05-21 08:04:26
0 跟贴 0
LLM数据量大管饱，机器人数据却连1%的起跑线都没够到？

量子位 2026-04-13 20:54:19
0 跟贴 0
Anthropic的AI读心术，让人类读懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟贴 0
让你的龙虾秒变电影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟贴 0
对谈楼天城：Harness会成为AI时代最关键的能力之一

量子位 2026-05-06 15:41:08
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
王晓野：Working Agent将是下一个爆发点

量子位 2026-05-21 08:05:51
0 跟贴 0
谷歌前CEO：不喜欢中国AI！太聪明了！

网易科技态度见闻 2026-06-28 07:00:00
0 跟贴 0
机器之心逛谷歌，分享最热的Self-Improving

机器之心Pro 2026-06-16 12:45:36
0 跟贴 0
华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能

机器之心Pro 2026-01-13 14:54:45
0 跟贴 0
Claude design限速，谷歌开源轻松做动态网页，实力打脸？

机器之心Pro 2026-04-29 17:20:04
0 跟贴 0
他做出爆火的谷歌CLI工具转头却被开除了

量子位 2026-06-28 18:42:01
0 跟贴 0
哥伦比亚、葡萄牙、刚果（金）三队出线韩国被淘汰了

澎湃新闻 2026-06-28 09:34:27
12876 跟贴 12876
平民三巨头平替Fable 5！性能追平，成本砍半

量子位 2026-06-21 09:58:58
0 跟贴 0
轰-6K、图-95飞越宫古海峡专家:巡航阵容"相当强悍"

环球网资讯 2026-06-28 15:40:18
19224 跟贴 19224
教练车油改电后，用车成本直接降到谷底，满电只要三块钱！

搞笑脱口秀 2026-06-24 15:30:26
0 跟贴 0
上海男篮离队第一人？33岁老将合同到期，或重返老东家

国篮会自强 2026-06-28 15:04:03
255 跟贴 255
三分之二的车没有CarPlay，但手机能跑完整版Android Auto

全栈遛狗员 2026-06-28 03:48:33
0 跟贴 0
「龙虾之父」吐槽人类互联网后，终于有人把这当个事儿办了

机器之心Pro 2026-03-31 11:09:26
0 跟贴 0
编程已死，键盘长草！Claude Code之父对谈Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
101 跟贴 101
刚刚，DeepSeek V4更新DSpark，推理速度提升80%

机器之心Pro 2026-06-28 09:52:25
13 跟贴 13
中国游客欧洲游热得崩溃逃离:把这一辈子的苦都吃尽了

上观新闻 2026-06-28 09:36:33
6844 跟贴 6844

今起执行军事任务，禁止驶入

蓬勃新闻

2026-06-28 13:01:51

俄乌局势逆转，俄罗斯犯下严重战略错误！

俄乌局势逆转，俄罗斯犯下严重战略错误！

一个坏土豆

2026-06-28 19:14:03

WTT大满贯：国乒全军覆没，头号种子爆冷出局

WTT大满贯：国乒全军覆没，头号种子爆冷出局

郭蛹包工头

2026-06-28 12:58:37

前玩伴女郎官宣产后整容：我做了下面部拉皮，超满意

前玩伴女郎官宣产后整容：我做了下面部拉皮，超满意

自愈小日子

2026-06-29 00:29:04

大伯母骂我四句破鞋，第五句我转头问大伯做亲子鉴定，她愣在原地

大伯母骂我四句破鞋，第五句我转头问大伯做亲子鉴定，她愣在原地

晓艾故事汇

2026-06-26 08:07:30

今年夏天太反常！六月不热早晚凉，老话预兆别不当回事！

今年夏天太反常！六月不热早晚凉，老话预兆别不当回事！

爱下厨的阿酾

2026-06-24 16:45:27

陈坤周迅在北京聚餐！陈坤穿垂裆裤显随意，周迅披着外衣装扮逗趣

陈坤周迅在北京聚餐！陈坤穿垂裆裤显随意，周迅披着外衣装扮逗趣

君笙的拂兮

2026-06-27 14:28:51

66年首次！泰王携王后公主空降法国，苏提达一袭藏青泰服，太亮眼

66年首次！泰王携王后公主空降法国，苏提达一袭藏青泰服，太亮眼

叮当当科技

2026-06-28 18:28:04

欧洲局势逆转：盟友反目成仇！史诗级恩将仇报！

欧洲局势逆转：盟友反目成仇！史诗级恩将仇报！

一个坏土豆

2026-06-27 19:15:50

俄鹰派敦促对乌进行核打击，布达诺夫：你动核武器试试

俄鹰派敦促对乌进行核打击，布达诺夫：你动核武器试试

史政先锋

2026-06-27 21:48:03

542分！满身泥水等女儿高考的父亲，查到成绩后全网破防

542分！满身泥水等女儿高考的父亲，查到成绩后全网破防

硬核玩家2哈

2026-06-28 03:13:00

冷门专业不是“人生弯路”！北大考古女孩入职敦煌研究院再上热搜

冷门专业不是“人生弯路”！北大考古女孩入职敦煌研究院再上热搜

火山詩话

2026-06-27 20:42:41

大爷退休后给侄子看厂门，5年只拿了6万，离开时收到侄子短信泪崩

大爷退休后给侄子看厂门，5年只拿了6万，离开时收到侄子短信泪崩

五元讲堂

2025-04-07 12:21:23

解放军唯一一次全军覆没的战斗，阵亡被俘九千人，上万人鸣枪致哀

解放军唯一一次全军覆没的战斗，阵亡被俘九千人，上万人鸣枪致哀

雍亲王府

2026-06-26 20:45:03

世界杯重伤！曼联中场乌加特膝伤赛季报销

世界杯重伤！曼联中场乌加特膝伤赛季报销

赛场速报局

2026-06-29 01:08:34

罗德里戈观战葡萄牙比赛，并和B席合影：我们现在是队友了

罗德里戈观战葡萄牙比赛，并和B席合影：我们现在是队友了

懂球帝

2026-06-28 18:58:13

这就是赤裸裸的现实！为什么突然要求核查央国企近二三十年工作？

这就是赤裸裸的现实！为什么突然要求核查央国企近二三十年工作？

椰青美食分享

2026-06-26 13:51:31

川大和港理工研究发现：一个地方经济越落后，女生自拍P图越厉害

川大和港理工研究发现：一个地方经济越落后，女生自拍P图越厉害

必记本

2026-06-12 14:03:52

比赖清德还狂！若2028年她当台湾地区领导人，解放军出手武力统台

比赖清德还狂！若2028年她当台湾地区领导人，解放军出手武力统台

阿讯说天下

2026-05-26 13:40:22

祝贺中国女篮，第2位主帅有望接替宫鲁鸣，王思雨得双重进步机遇

祝贺中国女篮，第2位主帅有望接替宫鲁鸣，王思雨得双重进步机遇

云景侃记

2026-06-28 10:01:19

AI产业主平台领航智能+时代

15555文章数 66941关注度

往期回顾全部

科技要闻

DeepSeek最新论文：如何让大模型跑得更快

头条要闻

加拿大1-0南非首进16强欧斯塔基奥92分钟贴地斩绝杀

头条要闻

加拿大1-0南非首进16强欧斯塔基奥92分钟贴地斩绝杀

体育要闻

两周飞5万公里！因凡蒂诺遭环保人士猛批

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

省钱，我只服梁文锋

汽车要闻

搭载华为乾崑六件套东风奕派M8预售19.98万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

亲子

手机

数码

游戏

艺术要闻

林徽因先生一生珍稀之影像。

亲子要闻

夏季室内空调温度应该怎么定？儿科医生说，谁最怕热就听谁的

手机要闻

iOS 27 Beta 2曝光百度视觉搜索组件，新机蓄势待发中

数码要闻

古尔曼：预计苹果今年发布搭载M5 Ultra芯片的Mac Studio

从企鹅岛到火星基地，《失控进化》带着4000万人一起刷屏

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版