网易首页 > 网易号 > 正文 申请入驻

GPT-5.2降智遭全网差评!奥特曼慌了

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:桃子 KingHZ

【新智元导读】年终AI大戏,OpenAI败给了谷歌?GPT-5.2上线48小时,全网吐槽一大片。第三方数据实证,Gemini 3 Pro才是真正的王者。

OpenAI打出了GPT-5.2这张「年度王牌」,却没有打赢谷歌...


Epoch AI最新报告,GPT-5.2的能力指数(ECI)得分152,仅次于Gemini 3 Pro。


在多项基准测试中,GPT-5.2的实力并没有「全线霸榜」。

在由陶哲轩联手百位数学家出的考题——FrontierMath中,GPT-5.2仅在T1-3级中霸榜,T4还是Gemini 3的高地。

另外,在国际象棋Chess Puzzles中,GPT-5.2拿下了第一的成绩。

唯一例外的是,在SimpleQA Verified上,GPT-5.2都不及GPT-5.1,意味着迭代后的可信度更差了。


不仅如此,多个第三方基准评测显示,GPT-5.2远不及预期,没有打败Gemini 3。



左右滑动查看

包括OCR-Arena、simple-bench、Live-Bench上,GPT-5.2甚至都排在了Claude Opus 4.5之后。




左右滑动查看

发布仅两天,GPT-5.2水花不大,反而圈子里开发者吐槽的不少。

为了打赢这场硬仗,OpenAI拉响「红色警报」,把改进ChatGPT事项提到了优先级。

更极端的是,内部直接停掉了AGI的研发,Sora也暂停了八周,显然摆出了破釜沉舟的姿态。


可是呢,在业界来看,OpenAI至今仍未摆脱被动的局面。

GPT-5重度用户站出来发声,「GPT-5.2距离成为一块石头也不远了」。


年终之战,OpenAI败了?

三年前,谷歌因错失先机,被OpenAI ChatGPT抢尽了风头。

昨天,谷歌创始人谢尔盖·布林重返斯坦福演讲,现场公开承认曾经的「最大失误」:

我们搞砸了——太怕AI说错话,结果输掉一个时代。

如今,凭借Gemini 3 Pro+Nano Banana Pro,谷歌已重回AI浪潮之巅。

风水轮流转。这一次,轮到了OpenAI,却在2025年这场关键战役中自乱阵脚。


上线首日,奥特曼激动宣称,API调用量就超过了万亿token,且增长速度极快

此前Information爆料,GPT-5.2,代号大蒜(Garlic),原计划在明年初亮相。

整个硅谷,曾透露了一种风声——OpenAI预训练终结了,甚至GPT-5.1可能基于4o后训练而来,由此提升不大。

确实如此,在预训练上,OpenAI遇到了Scaling瓶颈。


预训练Scaling,或许不大

在GPT-5.2(大蒜)研发上,原爆料称,OpenAI解决了预训练环节遇到的一些关键问题——

改进之前「最好的」且「体量大得多」的预训练模型。

在内部,OpenAI整合了在开发「Shallotpeat」期间修复的Bug,积累了许多预训练的经验。

正如Information所言,最关键的突破发生在「预训练阶段」。


但以上的一切信息,都是新闻报道。OpenAI究竟在预训练上,是否实现了重大突破,难以得知。

但从官方全线击败Gemini 3基准上可以猜测,GPT-5.2在预训练方面取得了一定的改进。


但是从第三方评测和网友反馈中,GPT-5.2在底层技术迭代上,没有实现突破式的进展。




Epoch AI另一项评估中,顶尖AI大模型在长程任务的性能,Gemini 3依旧是最强的——

Gemini 3 Pro:4.9小时

GPT-5.2:3.5小时

Opus 4.5:2.6小时


正如工程师Dan Mac所言,Gemini 3 Pro之所以拥有更深入的智能,是因为谷歌预训练最强。

而GPT-5.2拥有最好的专用智能,是OpenAI在后训练上优化的结果。


明年初,还有更大的

纽约时报最新爆料称,接下来几周,OpenAI将继续把重点放在ChatGPT优化上。

他们正在筹备明年初的一次更大规模发布。


在内部,OpenAI的2B和2C方向的「双线作战」模式并行。

OpenAI也在推进其他项目,包括广告和电商相关尝试。

尽管被吐槽,他们仍在探索「更克制」的方式,比如通过ChatGPT聊天完成购物,并从交易中抽成。

在企业市场方面,OpenAI正将支撑ChatGPT的同一套AI技术引入企业软件领域。


数据显示,每周使用ChatGPT的用户超过8亿人,市场份额约为76%。

一位AI大佬说,「消费级AI几乎就等同于OpenAI,如果失去了这一点,这家公司就不会有现在这样的价值」。

然而,在过去12个月里,全世界多家AI初创已开发出能够匹敌,甚至在某些方面超越OpenAI领先模型的技术。

谷歌Gemini 3 Pro的出世,对OpenAI业务来说着实是一次不小的打击。


Gemini 3力压GPT-5.2,

OpenAI只是虚晃一枪?

就从网友实测角度来说,GPT-5.2还有很大的改进空间。

有网友忍无可忍,直言OpenAI完全没脑子:

GPT-5.2语气冰冷,堪比北极,完全无视用户体验,「一味地不断倒退,把原本正常、自然的语言越改越离谱,最后变成一堆辱骂和说教,然后还把这当成某种胜利来兜售。」

OpenAI活该被Gemini 3吓得够呛。


比如,在视觉推理上,Gemini 3 Pro完全碾压GPT-5.2。


在3D模型生成上,GPT-5.2速度更慢、成本更高,总体表现不如Gemini 3。


在越界小说生成上,GPT-5.2垫底,不如Gemini 3 Pro、Claude 4.5 Opus、Grok 4:


越界小说是一种文学类型,以渴望冲破社会桎梏与基本规范的角色为核心。

这类作品通常涉及一系列禁忌主题、黑暗题材与极端议题。

在前端代码生成上,Gemini 3大幅领先,GPT-5.2仍望尘莫及。


在相同提示下,在健身仪表盘首页设计上,53万多人讨论了Gemini 3 、GPT-5.2和Claude Opus 4.5的设计,


提示词:健身仪表盘首页。顶部为每周活动概览(紧凑型),今日消耗卡路里及环形进度条(紧凑卡片),卡路里卡片下方为连续锻炼计数器,底部为周度锻炼柱状图。移动端应用,单屏显示。视觉风格:浅色模式,柔和的乳白色背景,圆角卡片带有细微阴影,珊瑚色作为主要强调色,电子蓝用于图表和高亮部分。简洁的无衬线字体排版,现代卡片式布局。情绪:激励人心且充满活力。清新、纯净且平易近人。现代健康美学,令人感到鼓舞和振奋。

GPT 5.2几乎次次垫底:




开发者Mattia用AI搜索模型Perplexity查看了全部评论,Gemini 3是最后的赢家!


如果以上只是个例,那下列的数据不会撒谎:GPT-5.2不及Gemini 3 Pro。

GPT-5.2惨遭滑铁卢

在博彩网站Ploymarket上,大部分网友认为谷歌在今年年底拥有最好的AI模型。


在网友Lisan al Gaib的小型手动性能对比基准Dubesors上,Gemini 3 Pro排名第一,而GPT-5.2排到了16名。


致力于推动AI安全研究和提升公共讨论关注度的CAIS(Center for AI Safety,人工智能安全中心),发布了最新的CAIS AI Dashboard,结果还是Gemini 3 Pro在文本和视觉能力指数上胜出,就在风险指数上落后GPT-5.2。




左右滑动查看

在文本能力指数测试中,Gemini 3 Pro只在ARC-AGI-2中落后,GPT-5.2几乎全线溃败!


在视觉能力指数测试中,Gemini 3 Pro再次几乎全胜,比GPT-5.2平均得分高出了4.5分!


在风险指数测试中,GPT-5.2领先Gemini 3 Pro,但落后于Claude Opus 4.5和Claude Sonnet 4.5.


在评估语言模型在终端环境中驱动自主智能体能力的测试平台Terminus上,Gemini 3.0 Pro和GPT-5.2几乎不分上下,但Gemini 3.0 Pro与GPT-5.2的高推理模式相比,仍平均多了0.2%。


此外,网友也验证其他基准测试,比如SWE-Bench、IUMB:



总之,GPT-5.2疑似翻车,在多个重要的基准测试中似乎落后于Gemini 3:


奥特曼圣诞惊喜

GPT-5.2发布当天,奥特曼还预告了,下一周还有「圣诞礼物」。


至于新品,可能就是下一代GPT Image v2模型了。

几天前,两款神秘AI图像模型「栗子」和「榛子」在LM Arena平台上展开测试。



但是,开发者实测后表示,目测OpenAI图像模型不太乐观。


在图像生成/编辑方面,GPT图像模型远落后于Gemini 3加持的Nano Banana Pro。

而且输出的结果,存在一系列的问题——

黄色色调、逻辑性差、一致性弱、图像质量较低、世界知识不足等问题。

据称,这款模型的基底,可能还是GPT-4o。





左右滑动查看

2025年终局之战,真的已经尘埃落定了吗?


参考资料:

https://www.nytimes.com/2025/12/11/technology/openai-google-ai-technology-gap.html

https://dashboard.safe.ai/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
发现一个现象:收入1万以下的夫妻,吵架大都为了钱;1万以上的家庭,吵架都是一方很强势

发现一个现象:收入1万以下的夫妻,吵架大都为了钱;1万以上的家庭,吵架都是一方很强势

二胡的岁月如歌
2026-04-13 08:04:02
CBA最新排名乱了:三甲易主,辽宁创纪录,无缘季后赛第2队诞生!

CBA最新排名乱了:三甲易主,辽宁创纪录,无缘季后赛第2队诞生!

大秦壁虎白话体育
2026-04-13 23:19:45
“莫氏鸡煲”爆火!老板称不会扩店和涨价:五一假期将休3天,下周起每周一闭店休息

“莫氏鸡煲”爆火!老板称不会扩店和涨价:五一假期将休3天,下周起每周一闭店休息

大象新闻
2026-04-14 09:45:39
有一种蹲叫“随便蹲”,万茜下蹲火爆全网,网友:我认输!

有一种蹲叫“随便蹲”,万茜下蹲火爆全网,网友:我认输!

健身迷
2026-04-14 10:38:40
十四届全国政协原常委、经济委员会原副主任毕井泉被提起公诉

十四届全国政协原常委、经济委员会原副主任毕井泉被提起公诉

新京报
2026-04-14 10:05:11
柯文哲死就死在这张嘴上,尖酸刻薄,口无遮拦

柯文哲死就死在这张嘴上,尖酸刻薄,口无遮拦

果妈聊娱乐
2026-04-14 09:52:58
阎维文现状:曾在春晚出尽风头,如今没资格露脸,导演选人惹争议

阎维文现状:曾在春晚出尽风头,如今没资格露脸,导演选人惹争议

兴史兴谈
2026-04-13 08:24:35
“我没钱补交1400万的税,就连喊冤的资格都没有吗?”

“我没钱补交1400万的税,就连喊冤的资格都没有吗?”

舒圣祥律师
2026-04-02 16:37:57
4月13日炸锅!国民党强硬表态,台湾民众怒了

4月13日炸锅!国民党强硬表态,台湾民众怒了

人生就是要简单
2026-04-14 08:10:42
鲁迅后人现状,儿子是赫赫有名的大官,有一位是家喻户晓的大明星

鲁迅后人现状,儿子是赫赫有名的大官,有一位是家喻户晓的大明星

史之铭
2026-04-12 17:59:01
全国流感阳性率连续3周上升 流行毒株有变化→

全国流感阳性率连续3周上升 流行毒株有变化→

极目新闻
2026-04-13 14:44:19
河南新野县博物馆回应“管理缺位”等问题:将处理违纪工作人员

河南新野县博物馆回应“管理缺位”等问题:将处理违纪工作人员

澎湃新闻
2026-04-14 09:00:28
59岁王志文已准备好了后事,一切从简,骨灰回归自然,遗憾公开

59岁王志文已准备好了后事,一切从简,骨灰回归自然,遗憾公开

秋姐居
2026-04-14 09:59:20
湖南女孩嫁大20岁内蒙矿老板,住豪宅开奔驰大G

湖南女孩嫁大20岁内蒙矿老板,住豪宅开奔驰大G

老嘪科普
2026-03-29 07:01:39
女子想让失恋的闺蜜开心,电梯打开她露出久违的笑容:你太懂我了

女子想让失恋的闺蜜开心,电梯打开她露出久违的笑容:你太懂我了

雪雪趣闻专栏
2026-04-13 18:56:19
我考上了清华,正要告诉全家,班主任却说:你对外说考的是职校!

我考上了清华,正要告诉全家,班主任却说:你对外说考的是职校!

悠悠我心情感集
2025-10-23 16:13:37
肝变硬,头先知?头部有这5种表现,你的肝可能已经 “硬” 了

肝变硬,头先知?头部有这5种表现,你的肝可能已经 “硬” 了

CHTV百姓健康
2026-04-09 12:00:12
欧冠0-2绝境!巴萨全队出征马德里:亚马尔领衔 坚信翻盘

欧冠0-2绝境!巴萨全队出征马德里:亚马尔领衔 坚信翻盘

叶青足球世界
2026-04-13 19:52:28
超强级别,大概率正面袭击塞班岛!滞留中国游客:航班被全部取消……

超强级别,大概率正面袭击塞班岛!滞留中国游客:航班被全部取消……

都市快报橙柿互动
2026-04-14 09:29:49
时速350公里!越南首条高铁正式动工!

时速350公里!越南首条高铁正式动工!

缅甸中文网
2026-04-13 13:26:18
2026-04-14 11:28:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2851590文章数 6623关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

女子做完医美吃不下睡不着 女技师吐槽"本来就不好看"

头条要闻

女子做完医美吃不下睡不着 女技师吐槽"本来就不好看"

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

伊朗要求五个中东国家赔偿战争损失

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

艺术
游戏
房产
数码
公开课

艺术要闻

这位美女画家的夏天竟如此梦幻

《寂静岭》初代重制版据称已无限期延期

房产要闻

6000亿投资盛宴,全球巨头齐聚,海南又要干件大事!

数码要闻

华为新款鸿蒙电脑来了!MateBook 14鸿蒙版4月20日见:云晰柔光屏+艺术圆键盘

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版