网易首页 > 网易号 > 正文 申请入驻

GPT-5.2考赢人类!OpenAI警告:大模型能力已过剩,AGI天花板不是AI

0
分享至


新智元报道

编辑:元宇

【新智元导读】如同智能手机一样,大模型也进入了一个「能力过剩」时代,即大模型本身的能力与人类使用方式之间存在着巨大断层。

刚刚,GPT-5.2刷新了一项新纪录!


OpenAI联合创始人Greg Brockman发帖称使用GPT-5.2在ARC-AGI-2基准测试上,表现超过了人类基线水平。

在基准测试时技能爆表,但一到实际应用就「掉链子」,OpenAI前首席科学家Ilya Sutskever提到的这种大模型「性能悖论」我们并不陌生。

这也是AGI评估领域一个长期存在的难题——如何区分大模型「真正的推理能力」与「刷题型能力」。

而ARC-AGI-2的出现正好打破了这一难题。

ARC-AGI-2的全称为「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」,是ARC系列基准的最新升级版本。

该基准由François Chollet(Keras之父、前Google Brain研究员)及其团队在2025年推出,其设计初衷十分明确:

测试AI是否具备AGI所必需的抽象、归纳与迁移推理能力,而非记忆或统计模式匹配。

ARC系列与传统NLP或多模态benchmark最大的不同在于:它没有大规模训练集,每道题目都是从未见过的新任务,因此不存在通过「刷数据」获得高分的可能。

它要求AI像人类一样具备真正的推理和举一反三的能力。

Chollet曾多次公开表示,如果一个系统只能在见过的数据分布上表现良好,那它并不具备AGI所需的能力。

因此,ARC基准测试刚好直击大模型的「软肋」。

从「及格」到「优等生」

一次关键跨越


新纪录的刷新者,并非单一模型,而是一个名为Poetiq(GPT-5.2X-High)的系统。

Poetiq是一家专注于元系统(Meta-System)架构的AI公司。

其核心理念并不是训练一个更大的模型,而是通过软件层面的系统设计,自动构建「会调用模型的系统」。

Poetiq(GPT-5.2X-High)在ARC-AGI-2数据集上实现了75%准确率,每问题成本不到8美元,超越前SOTA 15个百分点。

在Poetiq(GPT-5.2X-High)系统出现之前,GPT-5.2(X-High)已经非常接近人类平均水平。

ARC-AGI-2榜单中,人类平均准确率约为60%,GPT-5.2X-High的成绩与之几乎持平,代表了当时AI在该基准上的最强推理能力。

但Poetiq的加入,使GPT-5.2(X-High)的得分从60%直接拉升到了75%,从勉强及格(人类平均水平)迈入了优等生的行列(显著超越人类平均水平)。

在同一榜单上,还能看到Gemini 3 Deep Think(Preview)的身影。

该模型主打「深度思考(Deep Think)」技术,在ARC-AGI-2上的成绩约为46%,明显落后于GPT-5.2系列,并且成本相对后者也略高。


Poetiq表示,整个过程没有对GPT-5.2进行任何训练或者特定优化。

这正是Poetiq元系统的初衷,旨在自动构建完整的系统,通过调用任何现有的前沿模型来解决特定任务。


从15%的提升数据来看,Poetiq对于基础模型性能的提升幅度还是非常明显的。

它的存在证明了不需要堆算力,通过优秀的软件架构也能大幅提升AI性能。

从这个角度上,它也验证了接下来OpenAI的一个判断——

当前大模型,正逐渐进入「能力过剩」阶段。

大模型「能力过剩」时代


就在同一天,OpenAI官方也在X平台发布了一项关于2026年的预测。

在这条推文中,OpenAI明确提到一个关键词:Capability Overhang(能力过剩)。

核心意思是:

当前模型「能够做到的事情」,与人们「实际使用AI的方式」(产生效果)之间,存在巨大的断层。

OpenAI认为,未来AGI的进展将不再仅取决于模型本身的突破,还将取决于:

  • 人们是否知道如何有效使用AI

  • AI是否真正融入现实工作与生活

  • 系统是否能将模型能力转化为实际价值

因此,在2026年,OpenAI将继续前沿研究,同时重点投入于应用层、系统层、人机协同,尤其强调医疗、商业和日常生活场景。

人机协同

AGI的另一半拼图

OpenAI这篇官方推文涉及一个人机协同的问题。

实现AGI,是需要模型和人协同发挥作用:AGI不只靠模型升级,更要「教人用AI」。

通过正确的使用AI,充分发挥出AI的潜能,这样才能让AI开始从「炫技」转向「普惠」,真正影响亿万人生活。

这一观点也得到了社区的强烈回应。

于是,乐观的网友称「直接把我整个人自动化吧」!


也有网友提到,真正的挑战在于如何将AI融入工作流程中:见过太多组织买了「AI」,却从未改变任何一个流程。


大模型真的「能力过剩」了吗?

那么,是不是真如OpenAI所说的,大模型的能力已经过剩了呢?

通过上面Poetiq所公布的Poetiq(GPT-5.2X-High)在ARC-AGI-2上的表现,75%的得分超过了人类平均水平(60%)15个百分点。

此前OpenAI官方在介绍GPT-5时强调其在解决复杂跨学科问题上达到了专家级基准,后被外界引申为「博士级智能」。

这说明GPT-5等大模型在某些专业任务中表现类似于人类博士的专业水平。

从模型本身来说,也许并未完全过剩,但从「未被充分释放的能力」角度来看,已经严重过剩。

其中,有模型设计者方的原因,比如他们没有紧跟用户的使用场景,「不再与用户并肩同行了」。


也可能由于前沿模型在推理和创新上缺乏根本性的突破。


还有模型本身迭代得太快,用户不得不在日常生活中不断弃用已经「成功上手」的模型。


Poetiq 的出现,以及OpenAI对「能力过剩」的判断,共同指向了未来AI领域的一个新方向:

下一阶段的AI竞争,不再只是模型参数之争,而是系统、流程与人机协同的竞争。

参考资料:

https://x.com/poetiq_ai/status/2003546910427361402

https://x.com/OpenAI/status/2003594025098785145

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
雷军彻底疯狂,小米拿下4000亿

雷军彻底疯狂,小米拿下4000亿

新浪财经
2026-03-25 23:42:55
太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

火山詩话
2026-03-26 06:16:11
两大致命短板,一个悬疑谜题!央媒怒批王励勤,国乒王朝悬了?

两大致命短板,一个悬疑谜题!央媒怒批王励勤,国乒王朝悬了?

成吉思热
2026-03-26 10:06:14
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
观众不买单了?上海德云社刚开业发生反常事情,郭德纲于谦傻眼了

观众不买单了?上海德云社刚开业发生反常事情,郭德纲于谦傻眼了

一盅情怀
2026-03-26 14:51:05
北京年近八旬老太每天看直播,4000元退休金全网购,家中

北京年近八旬老太每天看直播,4000元退休金全网购,家中

大象新闻
2026-03-26 11:49:02
出差遭上司猥亵后被调岗降薪,女子起诉获赔,公司管理失职被判担责

出差遭上司猥亵后被调岗降薪,女子起诉获赔,公司管理失职被判担责

红星新闻
2026-03-26 18:23:16
广东大巴模式影响内陆,各地都出现低价大巴,与高铁、绿皮抢客

广东大巴模式影响内陆,各地都出现低价大巴,与高铁、绿皮抢客

柏铭锐谈
2026-03-25 10:50:46
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
去年中乙金靴费尔南多加入苏超南京队,目前他效力于云南玉昆

去年中乙金靴费尔南多加入苏超南京队,目前他效力于云南玉昆

懂球帝
2026-03-26 17:50:02
森海塞尔甩卖耳机业务:79年老厂急寻买家,亚马逊清仓价被抢空

森海塞尔甩卖耳机业务:79年老厂急寻买家,亚马逊清仓价被抢空

全栈遛狗员
2026-03-25 17:33:34
上海警方发布警情通报:左某某已被警方依法刑事拘留

上海警方发布警情通报:左某某已被警方依法刑事拘留

新京报
2026-03-25 20:46:14
美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

距离距离
2026-03-25 16:53:55
姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

潮鹿逐梦
2026-03-26 17:43:25
押注中国!迪拜资本大转移,数千亿真金白银连夜搬家到东方

押注中国!迪拜资本大转移,数千亿真金白银连夜搬家到东方

小舟谈历史
2026-03-25 06:28:02
人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

风起见你
2026-03-16 11:07:25
一座副省级城市有多少位正厅级干部?——以青岛为例

一座副省级城市有多少位正厅级干部?——以青岛为例

据说无据
2026-03-24 16:29:53
2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

谈史论天地
2026-03-25 09:57:09
教育彻底变天!2026届初中生注意,这是最后一届只拼分数的一届

教育彻底变天!2026届初中生注意,这是最后一届只拼分数的一届

老特有话说
2026-03-25 15:22:58
俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

每日经济新闻
2026-03-26 15:53:05
2026-03-26 20:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
本地
房产
时尚
公开课

亲子要闻

这就是引导型老师的厉害吗?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

皮衣+裙,高级到炸

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版