凌晨突发！GPT-5.2上线，首批实测后感叹：确实是第一，但不再是唯一的王|openai|工作流|编程|智能体|gpt

凌晨突发！GPT-5.2上线，首批实测后感叹：确实是第一，但不再是唯一的王

2025-12-12 07:54:55　来源: 网易科技报道

北京举报

分享至

作者 | 辰辰

出品 | 网易科技

它终于来了！

没有官方预热，没有发布会，今日凌晨，GPT-5.2系列模型低调上线。仅有一篇技术博客，和CEO奥特曼（Sam Altman）在社交媒体上的一句简短宣告。

然而，在这份刻意的“低调”背后，却弥漫着从未有过的硝烟味。就在上个月谷歌Gemini 3惊艳亮相后，奥特曼在内部拉响了最高级别的“红色警报”。

因此，GPT-5.2绝不仅仅是一次常规迭代。在“护城河”几近消失的当下，这是OpenAI为捍卫“地表最强AI”尊严的背水一战。

剥开GPT-5.2华丽的参数外衣，它到底强在哪里？又掩盖了这家巨头怎样的焦虑？

1. 硬核评测：GPT-5.2到底进化了什么？

OpenAI表示，将于今日开始逐步推出GPT-5.2，首先是面向付费计划用户（Plus、Pro、Go、Business、Enterprise），随后再扩大开放范围，尽可能保持ChatGPT的平稳可靠。ChatGPT中的GPT-5.1仍将对付费用户开放三个月，之后就将停止使用。

这次OpenAI的产品策略非常清晰，GPT-5.2被拆分为三个梯队：Instant（极速版）、Thinking（思考版）和Pro（专业版）。

（图片由AI生成）

这种细分本身就暗示了一个趋势：OpenAI正在针对不同使用场景优化模型矩阵。

——“思考”能力的质变：智能体工作流的福音

如果你是开发者或重度企业用户，那么GPT-5.2 Thinking是你眼中绝对的主角。

OpenAI抛出了一个全新的评估基准——GDPval。这个基准涵盖44种职业的知识工作任务。结果显示，GPT-5.2 Thinking在70.9%的任务比拼中，击败或打平了人类顶尖专家。

一位GDPval评审员评论道：“这是输出质量上令人兴奋且明显的飞跃……两个交付成果的布局设计和建议都出奇地好。尽管其中一个仍需要修正一些小错误，但看起来像是由专业公司完成的。”

在以初级投资银行分析师的角色建模电子表格时，GPT-5.2 Thinking的平均得分比GPT 5.1高出9.3%，从59.1% 提高到68.4%。而且电子表格和PPT的精细度以及格式上都有所提升。

更可怕的数据在于效率：它的产出速度是人类专家的11倍以上，而成本不到人类的1%。

（图片由AI生成）

在具体的应用场景中，GPT-5.2 Thinking有质的飞跃：

· 长文档分析（MRCRv2）： 在处理长达256k token（约数十万字）的文档时，它是目前唯一一个在“大海捞针”测试中接近100%准确率的模型。这意味着，甩来几百份合同或财报，它真的能读懂并综合分析，不再是“读了后面忘前面”。

· 编程能力（SWE-bench Pro）： 达到了55.6%的新高。它不再只是写几个Python函数，而是能处理多语言、多步骤的复杂工程问题。从模型生成的前端界面来看，可谓是达到了“以假乱真”的效果。

（海浪效果）

这意味着模型能够更可靠地调试生产代码、实现功能请求、重构大型代码库，并以更少的人工干预端到端地交付修复。

AI编程公司Windsurf的CEO甚至评价其为“智能体编程（Agentic Coding）的最大飞跃”。

——视觉与工具调用的进化

在视觉识别上，GPT-5.2 Thinking特别优化了对图表、仪表盘和UI界面的理解能力。在主板组件识别的测试中，虽然仍有瑕疵，但它已经能准确理解组件的空间布局，而不再是像GPT-5.1那样“胡言乱语”。

这意味着模型能够更准确解读仪表板、产品截图、技术图表和可视化报告。

此外，GPT-5.2 Thinking的工具调用能力也很强。这意味着更强大的端到端工作流——例如解决客户支持案例、从多个系统提取数据、运行分析以及生成最终输出，步骤间的故障中断更少。

在模拟航空改签这种多步骤任务时，它就展现出惊人的“多智能体协调”能力。内部测试中一位旅客告知航班延误、错过转机、需要在纽约过夜，并且因医疗原因需要特殊的首排座位。

结果是GPT-5.2 Thinking订票、安排住宿、申请医疗特殊座位和补偿，一气呵成。

2. 深度挖掘：光鲜背后的“隐形短板”

但我们不能只看官方亮出的肌肉。在GPT-5.2耀眼的参数之下，也有一些值得警惕的短板和行业焦虑。

——昂贵代价与延迟的痛点

OpenAI在博客中诚实地写道：“复杂的生成可能需要数分钟才能完成。”

在追求实时交互的今天，数分钟的等待是巨大的体验倒退。这说明GPT-5.2 Thinking不仅是在“思考”，更是在进行极其消耗算力的“慢思考”。

（图片由AI生成）

当然，OpenAI也用GPT-5.2 Instant兼顾到了用户体验。这款快速、强大的日常工作与学习主力模型，在信息查询类问题、操作指南与教程、技术写作和翻译方面均有明显改进，同时延续了GPT5.1 Instant引入的温暖对话语调。早期测试者特别提到，GPT-5.2 Instant的解释更清晰，能预先突出关键信息。

与此同时，API的价格也水涨船高：GPT-5.2系列模型的价格依然昂贵，达到每百万输入Token为1.75美元，每百万输出Token为14美元。GPT-5.2 Pro更是高达每百万输入Token 21美元，每百万输出Token 168美元。

虽然OpenAI强调，每token性价比提升，但单次任务总价不菲。

（图片由AI生成）

不少用户也提到GPT-5.2的成本要高于Claude 4.5。AI博主@Mlearning_ai更是指出，高阶版的GPT-5.2每100万Token价格是高阶版Claude 4.5 Opus的1.5倍。

这对于预算有限的初创公司来说，并不是一个好消息。

——技术“护城河”的消失

这是最让奥特曼头疼的问题，也是发布“红色警报”的根本原因。

虽然OpenAI宣称GPT-5.2是“最强”，奥特曼也表示各项基准测试指标的表现都很出色：SWE-Bench Pro得分55.6%，ARC-AGI-1得分突破90%， ARC-AGI-2得分52.9%，Frontier Math得分40.3%。

但行业现状是：差距已经微乎其微。

· Google Gemini 3在上个月刚刚宣称自己是世界第一。

· Anthropic Claude Opus 4.5紧随其后，在很多细分领域与OpenAI平分秋色。

· Runway在视频生成领域甚至反超了Sora。

用户@skizoexe对GPT-5.2开展一番中等复杂度的推理测试后认为，新模型的推理和数学能力有明显提升；但在编程能力上仍无法缩小与Gemini 3的差距：前端较弱，后端较强。

德国AI博主@zeldogiq则在X上发帖表示，GPT-5.2的基准测试成绩惊人。但他认为，当所有模型都能取得高分时，更好的基准测试已不再是唯一评判标准。真正的价值在于工作流的整合、智能体表现，以及一切基准测试无法量化的实际应用能力。

曾经，OpenAI领先对手一年甚至两年；现在，这个领先优势被压缩到了几周甚至几天。纽约时报的分析指出，基础模型的构建方法论已经成为行业共识，OpenAI不再拥有独门秘籍。

（图片由AI生成）

AI工程师丹·麦克（Dan Mac）就直言：“GPT-5.2的发布对OpenAI而言关乎存亡。它必须实现对Gemini 3 Pro和Opus 4.5的明显超越，否则OpenAI这次可能真的会被彻底淘汰。”

——“温度”与“准确度”的博弈

此前GPT-5发布时，曾因回答过于冷漠、机械而引发用户“起义”。OpenAI随后不得不紧急进行调整。

在GPT-5.2中，OpenAI声称减少了30%的幻觉，并加强了对心理健康等敏感话题的安全干预。

内部数据显示，GPT-5.2的心理健康评估各项指标均优于GPT-5.1.

然而，这种安全性的提升往往伴随着模型越来越“谨小慎微”。如何在不产生幻觉的前提下，保持对话的“人情味”和创造力，依然是GPT-5.2面临的巨大挑战。

特别是面对Meta等竞争对手的激进策略，OpenAI这种“既要安全又要能力”的封闭路线，正显得越来越沉重。

（图片由AI生成）

3. 奥特曼的焦虑：200亿美元的营收重担

抛开技术参数，GPT-5.2的发布更是一场商业突围。

据内部透露，OpenAI的目标是在2025年底达到200亿美元的年收入。 为了支撑这个宏大的数字，以及未来几年高达1.4万亿美元的算力支出，OpenAI必须变得更加“现实”。

这就是为什么我们看到OpenAI在：

（图片由AI生成）

· 全面拥抱企业级市场： 无论是Excel、PPT生成的优化，还是针对投行分析师的建模能力提升，GPT-5.2都在拼命向企业用户示好。因为只有B端客户，付得起高昂的订阅费。

· 广告模式阴云袭来： 尽管早期员工以“不作恶、不卖广告”为荣，但面对巨大的现金流压力，OpenAI已经开始探索在ChatGPT中引入搜索广告和电商导流。

· C端的增长瓶颈： 谷歌月活用户数量已达6.5亿，逼近ChatGPT的8亿周活。为了保住C端入口，OpenAI正计划推出自带AI能力的浏览器，直接挑战Chrome的地位。

4. 结语：霸主的最后挽歌还是新时代的序章？

GPT-5.2无疑是一款强大的模型。它在编程、逻辑推理和长文本处理上，再次确立了行业标杆（State of the Art）。对于专业人士来说，它绝对是目前最得力的数字助手。

但那个“OpenAI发布即颠覆”的时代，似乎已经结束了。

今天的GPT-5.2，更像是一个成熟科技巨头的稳健迭代，而非乔布斯式的神来之笔。它更强、更准、更贵，但也和谷歌、微软的产品更为趋同。

“红色警报”或许能解决短期的战术危机，但解决不了战略同质化的难题。当所有的顶级实验室都能造出差不多的模型时，OpenAI真正的挑战才刚刚开始：它必须证明，除了更聪明的聊天机器人，它还能给人们带来什么不可替代的价值。

对于用户而言，现在的建议似乎很简单：如果你是重度依赖代码、数据分析的Pro用户，那就立即升级GPT-5.2 Thinking，它值得每一分钱；但如果你只是用AI来写写邮件、聊聊天，那么现在的GPT-4.1甚至免费版，或许已经足够好了。

手机 / 数码

房产 / 家居

凌晨突发！GPT-5.2上线，首批实测后感叹：确实是第一，但不再是唯一的王

手机AI在MWC上卷出了新高度

牛弹琴：多国对轰炸保持沉默 西班牙首相确实是条汉子

牛弹琴：多国对轰炸保持沉默 西班牙首相确实是条汉子

35轮后积分-7，他们遭遇史上最早的降级

谢娜霸气护夫：喊话薛之谦给张杰道歉

霍尔木兹海峡近乎停摆 布油直逼80美元

长安汽车2月销量151922辆 环比逆势增长12.8%

态度原创

Nihad Aghazada：当代阿塞拜疆画家

任天堂压抑了！官号盛赞《生化危机9》里昂：好性感

牛弹琴：多国对轰炸保持沉默西班牙首相确实是条汉子

牛弹琴：多国对轰炸保持沉默西班牙首相确实是条汉子

霍尔木兹海峡近乎停摆布油直逼80美元

长安汽车2月销量151922辆环比逆势增长12.8%