网易首页 > 网易号 > 正文 申请入驻

无需再训练微调,一个辅助系统让GPT-5.2准确率飙到创纪录的75%

0
分享至



编辑 | 杜伟、陈陈

什么?决定 AI 上限的已不再是底座模型,而是外围的「推理编排」(Orchestration)。

在 LLM 完全不变的前提下,仅靠一套 Agentic System,就能让 AI 的智力表现原地暴涨一截。

在看了「AI 推理和自我改进系统」初创公司 Poetiq 的最新评测之后,有人得出了这样的结论。



部分截图

近日,Poetiq 表示其使用 ARC-AGI-2 测试集,在他们的系统上(称为 meta-system)运行了 GPT-5.2 X-High。该测试集通常被用来衡量当前 SOTA 模型在复杂抽象推理任务上的表现。

结果显示,在相同的 Poetiq 测试平台上,GPT‑5.2 X‑High 在完整的 PUBLIC-EVAL 数据集上的成绩高达 75%,这比之前的 SOTA 高出了约 15%,同时每个问题的成本低于 8 美元。

这里的 PUBLIC-EVAL 是 ARC 测试的一部分,前者一般包含基础推理任务和标准的 NLP、数学推理测试,适合广泛的模型评测,数据集更为公开、标准;后者包含更多复杂且富有挑战性的推理问题,考察模型的抽象推理、常识推理、创新能力等,是针对高水平模型的推理极限测试。



下图展示了各个 SOTA 模型在 PUBLIC-EVAL 数据集上的成绩分布:



Poetiq 还特别强调了,其没有对 GPT-5.2 进行任何再训练或模型特定的优化。

在如此短的时间内,相较于 Poetiq 之前在 PUBLIC-EVAL 数据集上测试的其他模型,GPT-5.2 在准确率和价格方面实现了显著改进。

Poetiq 进一步做出设想:如果在 PUBLIC-EVAL 测试中表现好的规律能够延续到 ARC Prize 官方的 SEMI-PRIVATE 测试中,那么「GPT-5.2 X-High + Poetiq」会比以往任何系统配置都更强、更好。

ARC Prize 总裁 Greg Kamradt 表示,「很高兴看到 Poetiq 发布 GPT-5.2 X-High 的结果。如果这个成绩能保持下去,他们的系统看起来能很好地处理模型交换。不过,在 OpenAI API 的基础设施问题解决之前,结果还没有得到完全验证。」

这里的模型交换指的是:系统通过切换不同的模型来应对不同的任务需求,而无需对系统或模型进行大规模的调整或重新训练



OpenAI 总裁 Greg Brockman 也转推表示:GPT-5.2 在 ARC-AGI-2 上超越人类基准成绩。



对于全新的测试结果,评论区提出了更多问题,比如「每个任务平均需要多长时间」。

Poetiq 回复称,「我们现在没有专门收集这些统计数据,最简单的问题大概在 8 到 10 分钟后就能完成,而最难的问题必须在 12 小时之前终止,以保持在时间限制内。所以,未来肯定还有改进的空间。」



还有人指出「大部分改进似乎来自于测试框架和协调机制,而不是任何模型特定的调优。没有训练变更的情况下,ARC-AGI-2 上提高了大约 15%,这表明仅在搜索、路由和终止逻辑方面就还有很大的提升空间」。

可问题是:为什么在这个设置中,X-High 每个任务的成本比 High 还要低?是因为它通过更早找到正确的解决方案而更快收敛,还是因为测试框架更积极地修剪了无效的推理过程?

对于这个问题,Poetiq 肯定了「X-High 只是比 High 更快地收敛到正确的答案」这一观点。



6 人团队打造 Meta-system 系统

Poetiq 是一支由 6 位研究员和工程师组成的团队,有多位核心成员来自 Google DeepMind 。

  • Ian Fischer (联合创始人 & 联席 CEO): 曾是 Google DeepMind 的资深研究员;
  • Shumeet Baluja (联合创始人 & 联席 CEO): 同样出身于 Google/DeepMind 的资深专家。



Poetiq 能够取得上述成绩,关键在于其构建的meta-system(元系统)

Meta-system 不依赖特定的大模型,可以与任何前沿模型配合使用(如 Gemini 3、GPT-5.1、Grok 等),而不是训练或微调模型本身,这意味着它能随着新模型发布快速适配并提升性能。

Poetiq meta-system 构建了一种迭代式推理过程,其与传统一次性生成答案的方法不同,有两个主要机制:

  • 迭代式的问题求解循环:系统并不是只向模型提出一次问题,而是利用大语言模型(LLM)生成一个潜在的解决方案,随后接收反馈、分析反馈,并再次调用 LLM 对方案进行改进。这种多步骤、自我改进的过程,使系统能够逐步构建并不断完善最终答案。
  • 自我审计(Self-Auditing):系统能够自主审计自身的运行进度,并自行判断何时已经获得足够的信息、当前解决方案是否令人满意,从而决定终止整个过程。这种自我监控机制对于避免不必要的计算浪费、有效降低整体成本至关重要。

Poetiq 还特别强调,他们所有 meta-system 的适配工作是在新模型发布前完成的,而且系统从未直接接触过 ARC-AGI 任务集,但依然在多个不同模型上取得跨版本、跨模型族的性能提升,说明 meta-system 对 reasoning 策略具有良好的泛化能力。

正是这种灵活、强大且具备递归能力的架构,使得 Poetiq 这样一支小规模团队,能够在极短时间内取得一系列最先进(SOTA)的成果。

对于这个 meta-system,有人认为「太棒了。在模型之上构建智能,而不是在模型内部构建,意味着可以在几个小时内适配新模型,非常高明。适配开源模型,并且成功迁移到新的封闭模型,这表明捕捉到的东西是推理过程本身的基本规律,而不是模型特定的怪癖。」



参考链接:
https://poetiq.ai/posts/arcagi_verified/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普,下一个目标已经确定 | 地球知识局

特朗普,下一个目标已经确定 | 地球知识局

地球知识局
2026-01-04 15:27:25
当石油被抢后,西方普遍认为北京只能认栽,怎料中方一招逆转局面

当石油被抢后,西方普遍认为北京只能认栽,怎料中方一招逆转局面

小lu侃侃而谈
2026-01-02 19:54:47
中国唯一飞往委内瑞拉航班取消,客机将空机返委,航司称12天后委内瑞拉飞中国航班正常,在委华人近日可中转回国

中国唯一飞往委内瑞拉航班取消,客机将空机返委,航司称12天后委内瑞拉飞中国航班正常,在委华人近日可中转回国

极目新闻
2026-01-04 13:50:57
特朗普突然发动战争,中国代表团还在委内瑞拉!

特朗普突然发动战争,中国代表团还在委内瑞拉!

胜研集
2026-01-03 17:14:34
直降1000元,苹果突然官降,有点意外啊!

直降1000元,苹果突然官降,有点意外啊!

科技堡垒
2026-01-04 11:37:39
赖清德想向大陆摊牌,郑丽文直接变脸了,解放军或有大动作

赖清德想向大陆摊牌,郑丽文直接变脸了,解放军或有大动作

南宫一二
2026-01-04 17:27:53
王毅同巴基斯坦副总理兼外长达尔举行中巴外长战略对话

王毅同巴基斯坦副总理兼外长达尔举行中巴外长战略对话

界面新闻
2026-01-04 22:41:22
第94分钟进球,第97分钟绝平,英超奇迹诞生,斯洛特不敢相信

第94分钟进球,第97分钟绝平,英超奇迹诞生,斯洛特不敢相信

足球狗说
2026-01-05 01:14:00
腾讯回应元宝AI辱骂用户:模型异常输出,不存在人工回复

腾讯回应元宝AI辱骂用户:模型异常输出,不存在人工回复

IT之家
2026-01-04 16:52:59
新加坡科学院院士国大教授陈小元,被指涉及性不端行为遭校方解雇

新加坡科学院院士国大教授陈小元,被指涉及性不端行为遭校方解雇

知社学术圈
2026-01-04 15:47:09
20岁中国籍女网红在柬埔寨街头流浪,面容憔悴,腿疑似受伤,母亲最新发声:一个柬埔寨的电话打来叫我们去接人

20岁中国籍女网红在柬埔寨街头流浪,面容憔悴,腿疑似受伤,母亲最新发声:一个柬埔寨的电话打来叫我们去接人

扬子晚报
2026-01-04 18:37:09
商K的公主都已经跑路了

商K的公主都已经跑路了

微微热评
2026-01-05 00:29:52
美军突袭抓获马杜罗,三个细节值得关注

美军突袭抓获马杜罗,三个细节值得关注

中国能源网
2026-01-04 15:34:08
45岁张柏芝新年采访,句句不提谢霆锋,句句戳进谢霆锋的心扉里

45岁张柏芝新年采访,句句不提谢霆锋,句句戳进谢霆锋的心扉里

兴史兴谈
2026-01-04 00:35:41
打脸了!多地宣布居民医保缴费延期,400元真的交不起吗?

打脸了!多地宣布居民医保缴费延期,400元真的交不起吗?

财话连篇
2026-01-04 17:16:33
美国对马杜罗动手后,这个美国高官“火”了

美国对马杜罗动手后,这个美国高官“火”了

环球时报国际
2026-01-04 22:08:17
42岁金莎商演3首歌35万,敬业冻红胳膊坚持挣干净钱

42岁金莎商演3首歌35万,敬业冻红胳膊坚持挣干净钱

车窗起雾q
2026-01-04 11:37:31
72岁老戏骨濮存昕官宣外孙女出道,尖嘴猴腮,长相遭吐槽:太丑了

72岁老戏骨濮存昕官宣外孙女出道,尖嘴猴腮,长相遭吐槽:太丑了

深析古今
2025-12-08 12:29:36
从清纯学生到夜场玩物:这条黑产,有多可怕!

从清纯学生到夜场玩物:这条黑产,有多可怕!

半耳聆
2026-01-04 17:47:31
美国发动对委内瑞拉战争之前,可能已与俄罗斯和中国达成默契

美国发动对委内瑞拉战争之前,可能已与俄罗斯和中国达成默契

碳基生物关怀组织
2026-01-03 23:30:35
2026-01-05 03:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12052文章数 142528关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

教育
手机
游戏
健康
公开课

教育要闻

备考27新传研究生需要知道的50件事。

手机要闻

一加Turbo6参数公布,挑战Turbo档最强游戏体验

自走棋火了6年后,我才玩了《王者万象棋》

这些新疗法,让化疗不再那么痛苦

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版