网易首页 > 网易号 > 正文 申请入驻

6位前DeepMind老将打造「AI指挥官」,一半成本刷新SOTA

0
分享至


新智元报道

编辑:元宇

【新智元导读】6位前DeepMind成员以元系统重塑大模型调用方式,该系统推出的Gemini 3 Pro优化技术在ARC-AGI-2上以54%的成绩夺得榜首,而成本仅为此前最优方法的一半。

最近,6名前Google DeepMind研究员、工程师又搞大事了。

他们的新初创公司Poetiq没去研发更大、更聪明的模型,而是搭建了一个元系统,该系统可以让前沿大模型自动生成解决特定任务的策略和模型组合。

这样不仅解决了前沿模型难以单独解决复杂真实世界问题的痛点,还将整体推理成本降低了一半。

12月8日,ARC Prize官宣验证了该团队的成果。


由Poetiq推出的Gemini 3 Pro优化技术,在ARC-AGI-2 leaderboard上创下新SOTA,得分高达54%,每任务计算成本仅31美元。

这一突破远超此前模型的最优表现,在leaderboard上力压群雄。

Poetiq团队揭秘


Poetiq初创团队均来自Google DeepMind

Poetiq是一个精干且高度技术型的团队,由6名来自Google DeepMind的研究员与工程师组成。

该创始团队成员一共拥有53年的专业经验,他们在Poetiq的目标是「以更优的推理,铺就通过安全超级智能的最快路径」。


12月5日,这家成立不到一年的公司自豪地宣布:

「Poetiq系统已经大幅超越现有方法,并树立了新的行业最佳表现。」


如上图所示,Poetiq系统在ARC-AGI-2半私有评估集上创下新纪录。

11月20日,Poetiq已经公布了自己在ARC-AGI-2上的强劲表现,此次ARC Prize对Poetiq公布的成绩进行了官方验证。


Poetiq开发的一套纯Gemini配置参与了ARC Prize的官方评估。

该系统以每题30.57美元的成本取得了54%的成绩,打破了此前Gemini 3 Deep Think创下的每题成本77.16美元、45%的最佳成绩。

Poetiq团队表示,在ARC-AGI-2公共数据集上,Poetiq系统建立了全新的帕累托前沿,不仅超越以往成果,还进一步推动了成本效益推理的边界。

Poetiq团队将这一成绩,归结为它的元系统。

元系统

在任意模型上构建智能

Poetiq的方法是在任意模型之上构建智能。

其元系统旨在利用任何现成的前沿模型,自动生成能解决特定任务的完整系统,无需构建甚至不需要微调自己的大前沿模型。

这也是为什么Poetiq能在Gemini 3与GPT-5.1发布后数小时内,就将它们快速接入并取得SOTA表现的原因。



如上图所示,Poetiq元系统在ARC-AGI-1和ARC-AGI-2上不仅全面刷新了以往成绩,也再次推进了低成本推理的边界。

  • 相比之下,Gemini 3 Deep Think(预览版)成本明显更高,准确率却更低。Poetiq(Gemini-3-a、b、c)展示了Poetiq如何利用多个大语言模型,在任意成本目标下实现最大化性能。

  • Poetiq系统可以通过多次调用Gemini-3来程序化地处理ARC-AGI-1和ARC-AGI-2的问题,从而在广泛的计算区间内实现帕累托最优。

  • Poetiq(Grok-4-Fast)主打极致成本效率,构建于Grok-4-Fast Reasoning模型之上。不仅比原模型报告的结果更便宜、准确率更高,还能达到与价格高两个数量级的模型相当的准确度。

  • Poetiq(GPT-OSS-b)基于开源权重模型GPT-OSS-120B,在单题不到1美分的成本下仍取得了非常亮眼的准确率。

  • Poetiq(GPT-OSS-a)基于GPT-OSS-120B的低思考版本,用来展示极限成本条件下的系统表现。

以上这些方案虽然各自都能独立运行,但它们共同的底层是Poetiq灵活的元系统。

这个元系统的核心优势之一即能自动选择模型组合与策略,甚至会自行判断何时要写代码、又该由哪个模型负责写代码。

Poetiq的递归、自我改进系统完全不依赖特定大模型,在接入最新模型时也能充分展现其能力。

使用Poetiq元系统强化主流模型

为了进一步展示Poetiq元系统的能力,研究人员将其应用到多个来自Google DeepMind、OpenAI、Anthropic和xAI的最新模型上。

每一次,Poetiq都实现了「更高准确率+更低成本」的组合。



上图中展示了12个模型(包括ChatGPT、Claude Haiku、Gemini、Grok 4、GPT-OSS)在ARC-AGI-1上经过Poetiq处理后的表现。

Poetiq是如何做到的?秘诀其实只有一句话:

从上到下,全靠大语言模型。

Poetiq使用大模型来构建系统、改进系统、也让系统本身运行起来。

正是这种灵活、强大且递归的系统架构,让Poetiq能快速取得如此一系列SOTA成果。

Poetiq选择开源的具体配置,主要为了展示2个重要理念:

提示词只是接口层,并非智能本体

系统在一个循环式的解题流程中运行:它不会只问一次,而是先让大模型生成一个可能的答案(有时包括代码),根据反馈进行分析,然后再继续利用模型改进答案。

这种多步骤、自我完善的方式,让系统能逐步构建并打磨最终解答。

自我检查

系统会自主检查自己的进展,决定什么时候信息足够、结果可靠,从而自动结束流程。

这种自我监控机制能有效避免浪费算力,让整体成本更低。

为什么选择ARC-AGI?

Poetiq认为ARC-AGI是验证自身核心理念的理想测试场。

大模型蕴含了大量人类知识,但在复杂推理任务上经常出现不稳定的情况。

一个原因是模型表现高度依赖提示词,而其随机性会让知识提取变得不够可靠,从而使推理步骤难以预测。

真正的挑战在于:如何发现一种推理策略,既能找出需要的信息,又能在找到信息时顺利将其组合起来,并智能判断下一步该做什么。

Poetiq的核心目标,就是为了让这一过程能够自动化并不断优化。

Poetiq所构建的系统并不预设推理策略,而是让模型自主发现最适配的推理方式,并能在现实限制(预算、Token或算力)内工作。

这将释放生成式AI在复杂推理方面的真正潜力。

Poetiq的系统能在短时间内适配任务特性与模型特性,而ARC-AGI测试的是模型抽象推理、归纳、逻辑、生成策略能力,这和Poetiq系统的优势也是相互匹配的。

为了使Poetiq的元系统能够随着每次解决新任务而持续进化,任务的多样性也非常关键。

为此,Poetiq的团队正在让系统攻克更多基准任务,涵盖多种推理与检索需求。

此外,Poetiq系统的优点是擅长与其他系统协作。

该系统可以用来优化现有大型系统内部的AI组件。

如果能够在不修改模型本身的前提下,利用前沿模型中丰富的世界知识来解决长时序任务,如果能让底层知识提取机制更适配大模型,也许就不需要进行模型调优,这些正是Poetiq下一步努力的方向之一。

参考资料:

https://poetiq.ai/posts/arcagi_verified/%20

https://x.com/arcprize/status/1997743855203148038?s=20

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
年度销量目标100万台!零跑1月交付32059台 同比增长27%

年度销量目标100万台!零跑1月交付32059台 同比增长27%

快科技
2026-02-01 09:50:06
伊朗已被包围,美开战前,中国卫星过顶,美军一举一动都在掌握中

伊朗已被包围,美开战前,中国卫星过顶,美军一举一动都在掌握中

郭蛹包工头
2026-02-01 13:41:05
朱高炽在位不足一年 ,为何能青史留名?他解决了三个天大的难题

朱高炽在位不足一年 ,为何能青史留名?他解决了三个天大的难题

千秋文化
2026-01-21 20:55:53
每吃一次,大脑萎缩就快一步?劝告:6种食物或是老年痴呆“催化剂”

每吃一次,大脑萎缩就快一步?劝告:6种食物或是老年痴呆“催化剂”

今日养生之道
2026-01-11 11:29:46
唐山杀警案,9年没破案,原来凶手就在专案组

唐山杀警案,9年没破案,原来凶手就在专案组

衍月
2025-12-22 17:53:21
陈百强自杀真相曝光!王晶揭穿32年豪门谎言:他根本不是为情所困

陈百强自杀真相曝光!王晶揭穿32年豪门谎言:他根本不是为情所困

八斗小先生
2025-12-08 11:07:02
张胜谈父亲张爱萍:一生只服5人!自从红军大学后,再也没败过

张胜谈父亲张爱萍:一生只服5人!自从红军大学后,再也没败过

兴趣知识
2026-01-31 11:31:03
罗斯妻子闺蜜现场见证其球衣退役!她是尼克斯忠实粉丝 身材火辣

罗斯妻子闺蜜现场见证其球衣退役!她是尼克斯忠实粉丝 身材火辣

Emily说个球
2026-01-31 21:02:04
因不提供“特殊服务”遭辱,22岁女子刺死1名官员,判决让人欣慰

因不提供“特殊服务”遭辱,22岁女子刺死1名官员,判决让人欣慰

谈史论天地
2026-01-16 11:55:08
杜兰特13+8仍该夸,基德赛后怒批裁判!申京毫无借口,阿门创纪录

杜兰特13+8仍该夸,基德赛后怒批裁判!申京毫无借口,阿门创纪录

鱼崖大话篮球
2026-02-01 13:27:54
场均16+8+7!失误1.6次联盟顶级,美媒晒阿门数据,火箭因祸得福

场均16+8+7!失误1.6次联盟顶级,美媒晒阿门数据,火箭因祸得福

巴叔GO聊体育
2026-02-01 13:12:05
联合国崩?191国收到信函,古特雷斯下台前:阴了中国,帮了美国

联合国崩?191国收到信函,古特雷斯下台前:阴了中国,帮了美国

知法而形
2026-01-31 15:44:13
嫁黎明4年败光7亿家产,离婚后再嫁美国富豪,如今胖成大妈不敢认

嫁黎明4年败光7亿家产,离婚后再嫁美国富豪,如今胖成大妈不敢认

白面书誏
2026-01-03 21:31:21
全了!各年龄段血压、血糖、血脂、尿酸对照表,果断收藏

全了!各年龄段血压、血糖、血脂、尿酸对照表,果断收藏

华人星光
2026-01-12 13:14:21
刚结束访华,斯塔默直奔日本,高市已设下晚宴,中方只回了6个字

刚结束访华,斯塔默直奔日本,高市已设下晚宴,中方只回了6个字

乐享人生风雨
2026-01-31 16:46:06
王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

胡一舸南游y
2026-01-25 14:54:04
好惨烈的身高对比差距,中越边境上的一张军人合影突然火了起来

好惨烈的身高对比差距,中越边境上的一张军人合影突然火了起来

我心纵横天地间
2026-01-30 22:17:29
陈吉宁会见英首相;正部级官员被查;中泰友好物资抵达;乌克兰电力故障 | 2月01日要闻日报

陈吉宁会见英首相;正部级官员被查;中泰友好物资抵达;乌克兰电力故障 | 2月01日要闻日报

今日时事要闻
2026-02-01 01:06:12
过时经验害苦了特朗普,没想到中国敢反抗,最终导致一步错步步错

过时经验害苦了特朗普,没想到中国敢反抗,最终导致一步错步步错

董董历史烩
2026-01-31 15:22:54
鲫鱼立大功!医生研究发现:鲫鱼对这6种疾病有好处,可以常吃

鲫鱼立大功!医生研究发现:鲫鱼对这6种疾病有好处,可以常吃

岐黄传人孙大夫
2026-01-31 15:40:03
2026-02-01 14:51:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14455文章数 66556关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

中国最北宜家闭店前一日:家居展区几乎空了 食品售罄

头条要闻

中国最北宜家闭店前一日:家居展区几乎空了 食品售罄

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

时尚
本地
旅游
游戏
公开课

上年纪的女人买“上衣”:避开3个坑,这样选时髦又显气质

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

旅游要闻

从“热汤”到“金汤”!息烽康养旅游添4A新名片

这个世界怎么变成了足控的样子?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版