OpenAI发布GPT-5.2与谷歌Gemini 3争夺AI模型霸主地位|基准|gpt|ai模型|知名企业|正式版模型|openai|gemini

OpenAI发布GPT-5.2与谷歌Gemini 3争夺AI模型霸主地位

2025-12-30 21:42:10　来源: 至顶头条

北京举报

分享至

OpenAI发布了GPT-5.2，声称与11月发布的GPT-5.1相比，新模型在完成现实世界商业任务的能力方面取得了"专家级"的重大提升。

新模型提供了Instant、Thinking和Pro三种性能等级，公司表示在各项基准测试中都有重大改进。

使用OpenAI的GDPval基准测试（该基准测试将模型完成44项不同商业任务的能力与人类专家的标准进行比较），GPT-5.2在70.9%的测试中达到或超过了人类用户的水平，而GPT-5.1在Instant（基础版）、Thinking（深度推理版）和Pro（研究级）版本中的综合表现仅为38.8%。

为了说明这些进步，OpenAI表示GPT-5.2 Thinking能够完全格式化劳动力规划电子表格，而在GPT-5.1上，等效输出能正确组装相同的电子表格，但格式化程度更基础，缺少格式化功能。

OpenAI表示："我们设计GPT-5.2是为了为用户创造更多经济价值；它在创建电子表格、制作演示文稿、编写代码、图像识别、理解长文本、使用工具以及处理复杂多步骤项目方面表现更佳。"

GPT-5.2还在其他重要基准测试中表现出不同程度的提升，包括ARC-AGI-1/ARC-AGI-2（通用问题解决）和SWE-Bench Pro/SWE-Bench Verified（现实世界软件任务）。

公司表示："对于日常专业使用，这意味着该模型能够更可靠地调试生产代码，实施功能请求，重构大型代码库，并以较少的人工干预端到端地交付修复。"

GPT-5.2已开始向ChatGPT用户推出，首先面向付费用户。订阅定价保持不变。对于API访问，GPT-5.2的定价为每百万输入Token 1.75美元，每百万输出Token 14美元，缓存输入享受90%折扣。尽管这比GPT-5.1更昂贵，但OpenAI声称该模型更高的效率意味着"由于GPT-5.2更高的Token效率，获得特定质量水平的成本实际上更便宜。"

对于OpenAI来说，新版本在上一版本之后如此快速的发布代表着其GPT-5模型开发的重要加速。12月初，CEO山姆·阿尔特曼向OpenAI员工发送了"红色警报"紧急备忘录，警告如果不快速开发GPT-5，公司有落后于谷歌日益强大的Gemini 3模型的风险。

此后，情况似乎已经稳定下来，阿尔特曼本周对CNBC表示，Gemini的进步没有最初担心的那么重大，红色警报状态将在1月结束。然而，网络公告中一个明显的遗漏是没有对GPT-5.2的性能与Gemini 3进行任何比较。据报道，单独的新闻发布会仅提供了有限的比较。

西门子首席AI分析师Maria Sukhareva对OpenAI对基准测试的使用提出了更普遍的质疑。她指出："它（GPT-5.2）声称击败了GDPVal，但这是OpenAI为OpenAI开发的基准测试。从技术上讲，OpenAI没有障碍可以针对这44个任务对其模型进行微调，而在其他方面完全失败。"

她认为："本质上，GPT-5.2报告的数字是毫无意义的，因为无法看到他们用什么数据训练模型。GPT-5.2受到与之前模型相同的所有问题的困扰。"Sukhareva对GPT-5.2基准测试的深入分析可以在她的Substack上找到。

电商平台Sell The Trend的CEO Rachid 'Rush' Wehbi在现实世界条件下测试了GPT-5.2。他说："GPT-5.2在保持思路连贯性方面做得更好，能够持续更长时间，当你投入一些分层上下文时不会崩溃。对于公司来说，这比在一些可能无关紧要的基准测试上取得微小改进要重要得多。"

"基准测试可以显示你取得了某种进步，但它们不能告诉你你的模型是否真的能在现实世界中站得住脚。GPT-5.2是一个进步，但企业AI仍然在发展过程中。"

据AI素养公司Human Voice Media创始人Bob Hutchins表示，"到目前为止，企业对AI的大部分挫败感来自最后20%——格式化、约束、交接。GPT-5.2在这方面显示了进步。"他对企业的建议是，"忽略发布噪音，进行有纪律的试用。GPT-5.2是有意义的一步。它没有缩小承诺与实践之间的差距，而是缩小了差距。"

例如，智能体AI公司Vectara的幻觉评估模型的基准测试发现，虽然GPT-5.2在这方面有所改进，但仍然落后于一些竞争对手。

Vectara开发者关系负责人Ofer Mendelevitch评论说："OpenAI在改善幻觉表现方面仍有一段路要走。GPT-5.2-low-thinking是迄今为止GPT系列中最好的，在我们的排行榜上排名第33位，幻觉率为8.4%。然而，ChatGPT 5.2明显落后于DeepSeek V3.2，后者排名第23位，幻觉率为6.3%。作为比较，Gemini 3在我们测试中的基础幻觉率为13.6%，Grok 4.1为17.8%。"

Q&A

Q1：GPT-5.2相比GPT-5.1有什么主要改进？

A：GPT-5.2在完成现实世界商业任务方面取得重大提升，在GDPval基准测试中70.9%的测试达到或超过人类专家水平，而GPT-5.1仅为38.8%。新模型在创建电子表格、制作演示文稿、编写代码、图像识别、理解长文本等方面表现更佳。

Q2：GPT-5.2的定价如何，是否比GPT-5.1贵？

A：GPT-5.2 API访问定价为每百万输入Token 1.75美元，每百万输出Token 14美元，比GPT-5.1更昂贵。但OpenAI声称由于新模型更高的Token效率，获得特定质量水平的实际成本更便宜。ChatGPT订阅价格保持不变。

Q3：业界专家如何评价GPT-5.2的实际表现？

A：专家意见不一。有人认为GPT-5.2在保持思路连贯性和处理分层上下文方面有实质改进，对企业更有价值。但也有专家质疑基准测试的有效性，认为模型仍存在幻觉等问题，企业AI仍在发展过程中。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.