网易首页 > 网易号 > 正文 申请入驻

OpenAI发布GPT-5.2与谷歌Gemini 3争夺AI模型霸主地位

0
分享至


OpenAI发布了GPT-5.2,声称与11月发布的GPT-5.1相比,新模型在完成现实世界商业任务的能力方面取得了"专家级"的重大提升。

新模型提供了Instant、Thinking和Pro三种性能等级,公司表示在各项基准测试中都有重大改进。

使用OpenAI的GDPval基准测试(该基准测试将模型完成44项不同商业任务的能力与人类专家的标准进行比较),GPT-5.2在70.9%的测试中达到或超过了人类用户的水平,而GPT-5.1在Instant(基础版)、Thinking(深度推理版)和Pro(研究级)版本中的综合表现仅为38.8%。

为了说明这些进步,OpenAI表示GPT-5.2 Thinking能够完全格式化劳动力规划电子表格,而在GPT-5.1上,等效输出能正确组装相同的电子表格,但格式化程度更基础,缺少格式化功能。

OpenAI表示:"我们设计GPT-5.2是为了为用户创造更多经济价值;它在创建电子表格、制作演示文稿、编写代码、图像识别、理解长文本、使用工具以及处理复杂多步骤项目方面表现更佳。"

GPT-5.2还在其他重要基准测试中表现出不同程度的提升,包括ARC-AGI-1/ARC-AGI-2(通用问题解决)和SWE-Bench Pro/SWE-Bench Verified(现实世界软件任务)。

公司表示:"对于日常专业使用,这意味着该模型能够更可靠地调试生产代码,实施功能请求,重构大型代码库,并以较少的人工干预端到端地交付修复。"

GPT-5.2已开始向ChatGPT用户推出,首先面向付费用户。订阅定价保持不变。对于API访问,GPT-5.2的定价为每百万输入Token 1.75美元,每百万输出Token 14美元,缓存输入享受90%折扣。尽管这比GPT-5.1更昂贵,但OpenAI声称该模型更高的效率意味着"由于GPT-5.2更高的Token效率,获得特定质量水平的成本实际上更便宜。"

对于OpenAI来说,新版本在上一版本之后如此快速的发布代表着其GPT-5模型开发的重要加速。12月初,CEO山姆·阿尔特曼向OpenAI员工发送了"红色警报"紧急备忘录,警告如果不快速开发GPT-5,公司有落后于谷歌日益强大的Gemini 3模型的风险。

此后,情况似乎已经稳定下来,阿尔特曼本周对CNBC表示,Gemini的进步没有最初担心的那么重大,红色警报状态将在1月结束。然而,网络公告中一个明显的遗漏是没有对GPT-5.2的性能与Gemini 3进行任何比较。据报道,单独的新闻发布会仅提供了有限的比较。

西门子首席AI分析师Maria Sukhareva对OpenAI对基准测试的使用提出了更普遍的质疑。她指出:"它(GPT-5.2)声称击败了GDPVal,但这是OpenAI为OpenAI开发的基准测试。从技术上讲,OpenAI没有障碍可以针对这44个任务对其模型进行微调,而在其他方面完全失败。"

她认为:"本质上,GPT-5.2报告的数字是毫无意义的,因为无法看到他们用什么数据训练模型。GPT-5.2受到与之前模型相同的所有问题的困扰。"Sukhareva对GPT-5.2基准测试的深入分析可以在她的Substack上找到。

电商平台Sell The Trend的CEO Rachid 'Rush' Wehbi在现实世界条件下测试了GPT-5.2。他说:"GPT-5.2在保持思路连贯性方面做得更好,能够持续更长时间,当你投入一些分层上下文时不会崩溃。对于公司来说,这比在一些可能无关紧要的基准测试上取得微小改进要重要得多。"

"基准测试可以显示你取得了某种进步,但它们不能告诉你你的模型是否真的能在现实世界中站得住脚。GPT-5.2是一个进步,但企业AI仍然在发展过程中。"

据AI素养公司Human Voice Media创始人Bob Hutchins表示,"到目前为止,企业对AI的大部分挫败感来自最后20%——格式化、约束、交接。GPT-5.2在这方面显示了进步。"他对企业的建议是,"忽略发布噪音,进行有纪律的试用。GPT-5.2是有意义的一步。它没有缩小承诺与实践之间的差距,而是缩小了差距。"

例如,智能体AI公司Vectara的幻觉评估模型的基准测试发现,虽然GPT-5.2在这方面有所改进,但仍然落后于一些竞争对手。

Vectara开发者关系负责人Ofer Mendelevitch评论说:"OpenAI在改善幻觉表现方面仍有一段路要走。GPT-5.2-low-thinking是迄今为止GPT系列中最好的,在我们的排行榜上排名第33位,幻觉率为8.4%。然而,ChatGPT 5.2明显落后于DeepSeek V3.2,后者排名第23位,幻觉率为6.3%。作为比较,Gemini 3在我们测试中的基础幻觉率为13.6%,Grok 4.1为17.8%。"

Q&A

Q1:GPT-5.2相比GPT-5.1有什么主要改进?

A:GPT-5.2在完成现实世界商业任务方面取得重大提升,在GDPval基准测试中70.9%的测试达到或超过人类专家水平,而GPT-5.1仅为38.8%。新模型在创建电子表格、制作演示文稿、编写代码、图像识别、理解长文本等方面表现更佳。

Q2:GPT-5.2的定价如何,是否比GPT-5.1贵?

A:GPT-5.2 API访问定价为每百万输入Token 1.75美元,每百万输出Token 14美元,比GPT-5.1更昂贵。但OpenAI声称由于新模型更高的Token效率,获得特定质量水平的实际成本更便宜。ChatGPT订阅价格保持不变。

Q3:业界专家如何评价GPT-5.2的实际表现?

A:专家意见不一。有人认为GPT-5.2在保持思路连贯性和处理分层上下文方面有实质改进,对企业更有价值。但也有专家质疑基准测试的有效性,认为模型仍存在幻觉等问题,企业AI仍在发展过程中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
各大卫视跨年晚会过后,终于意识到内娱真的完了

各大卫视跨年晚会过后,终于意识到内娱真的完了

星宿影视鸭
2026-01-02 15:11:22
因暴雪,万名游客被困老君山,传泡面涨至50元,景区的做法亮了

因暴雪,万名游客被困老君山,传泡面涨至50元,景区的做法亮了

奇思妙想草叶君
2026-01-02 21:49:48
98年返乡途中,我把软卧让给抱孩子的大姐,她临下车时递来一个信封

98年返乡途中,我把软卧让给抱孩子的大姐,她临下车时递来一个信封

城事录主
2026-01-01 05:00:03
载有马杜罗夫妇的飞机抵达纽约一军事基地;特朗普举行发布会披露行动细节,并威胁古巴、哥伦比亚;多国民众聚会抗议

载有马杜罗夫妇的飞机抵达纽约一军事基地;特朗普举行发布会披露行动细节,并威胁古巴、哥伦比亚;多国民众聚会抗议

扬子晚报
2026-01-04 07:35:15
陪嫁金条掉色,租的别墅,新娘厅官父亲、模特母亲是花钱雇的演员

陪嫁金条掉色,租的别墅,新娘厅官父亲、模特母亲是花钱雇的演员

诗意世界
2026-01-02 10:15:30
乌克兰政坛大地震,泽连斯基宣布国防部长换人!新防长为90后,是与马斯克联系关键人物!情报总局局长转任总统办公室主任

乌克兰政坛大地震,泽连斯基宣布国防部长换人!新防长为90后,是与马斯克联系关键人物!情报总局局长转任总统办公室主任

每日经济新闻
2026-01-03 23:18:06
严防死守36年,利智还是输了,李连杰终是没放下一直亏欠的“她”

严防死守36年,利智还是输了,李连杰终是没放下一直亏欠的“她”

法老不说教
2025-12-29 17:19:10
乌专家:中国“吸干”苏联遗产,我们图纸都没看懂,他们造出2.0

乌专家:中国“吸干”苏联遗产,我们图纸都没看懂,他们造出2.0

博览历史
2025-12-29 19:26:45
承诺“每人送台车”的老板,清空账号!后续来了

承诺“每人送台车”的老板,清空账号!后续来了

南方都市报
2026-01-03 09:19:52
中国最后流失的领土,1994年正式脱离中国,如今风景绝佳美女无数

中国最后流失的领土,1994年正式脱离中国,如今风景绝佳美女无数

丰谭笔录
2026-01-02 09:29:55
6年前自称西施貂蝉,非千万富翁不嫁的四川女孩,如今嫁人了吗?

6年前自称西施貂蝉,非千万富翁不嫁的四川女孩,如今嫁人了吗?

吃青菜长高
2025-12-31 23:08:08
英达直播间喊话巴图遭3分钟沉默,网友:惦记曾被视为累赘的孩子

英达直播间喊话巴图遭3分钟沉默,网友:惦记曾被视为累赘的孩子

诗意世界
2026-01-02 22:52:32
林俊杰们用行动证明:男人的终极审美,真的很一致

林俊杰们用行动证明:男人的终极审美,真的很一致

橙星文娱
2026-01-03 21:41:06
6000万主力客群“消失”:困在商场里的餐饮店,正迎来一场大“清洗”

6000万主力客群“消失”:困在商场里的餐饮店,正迎来一场大“清洗”

职业餐饮网
2025-12-18 21:06:32
委内瑞拉总检察长:美国应对委内瑞拉总统马杜罗可能遭遇的任何情况负责

委内瑞拉总检察长:美国应对委内瑞拉总统马杜罗可能遭遇的任何情况负责

环球网资讯
2026-01-03 19:57:15
这人真不好评论,这事真不敢相信…

这人真不好评论,这事真不敢相信…

霹雳炮
2025-12-21 11:40:08
照妖镜|日本关东军,是怎么进入东北的?

照妖镜|日本关东军,是怎么进入东北的?

沈述慢撩
2024-10-28 23:26:10
心脏装了6个支架的王石日本看病实录,值得深思

心脏装了6个支架的王石日本看病实录,值得深思

深度报
2026-01-01 23:17:29
谢谢李诞,你让我对南极旅游祛魅了!替我省了15万

谢谢李诞,你让我对南极旅游祛魅了!替我省了15万

安宁007
2026-01-03 09:40:44
永州夺冠送车大结局!与唐蕾达成谅解,唐蕾再奖励永州队10万元…

永州夺冠送车大结局!与唐蕾达成谅解,唐蕾再奖励永州队10万元…

火山詩话
2026-01-03 20:50:54
2026-01-04 09:44:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15206文章数 49682关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

牛弹琴:美国开了一个危险先例 世界正在大乱

头条要闻

牛弹琴:美国开了一个危险先例 世界正在大乱

体育要闻

离开中超后,他成了足坛“倒钩之王”

娱乐要闻

司晓迪事件再升级 司晓迪称鹿晗最好

财经要闻

具身智能抢人大战:毕业一年 年薪300万

汽车要闻

奕派科技全年销量275,752辆 同比增长28.3

态度原创

游戏
教育
时尚
旅游
家居

CF怀旧服究竟出了什么问题?如今服务器都已经是鬼服了

教育要闻

校长的“热运行”与“冷思考”

伊姐元旦热推:电视剧《剥茧》;电视剧《玉茗茶骨》......

旅游要闻

接待游客约35.57万人次 营收约5371.45万元 元旦假期潍坊文旅很“热”

家居要闻

无形有行 自然与灵感诗意

无障碍浏览 进入关怀版